xpdftotextで文字化け

HyperEstraier付属のフィルター、estfxpdftohtmlを使ってPDFをHTML化して登録しているのですが、調べてみると、文字化けしているファイルが多い。
化けてしまっているファイルとそうでないファイルがあって不明確な状態ではあるが、とりあえずコンソールにててすと。
適当なPDFファイルを用意してpdftotextでファイルを作る。>>化け化け。
見事に日本語のみ化けているので、Debianパッケージも古いようだからあわせてVersionUPすることに。
dpkgでxpdfが入っていることがわかったので、削除しようと思ったらcupsysで使っているからダメと言われた。困ったけど、sourceから構築して入れてしまうことに。(強引)
こうするとどういった不具合が出るのか・・・
あまり世界が見渡せていない証拠ですねぇ~~
さて、肝心の導入編。
用意したファイルは

xpdf-3.01.tar.gz< http://hyperestraier.sourceforge.net/>
xpdf-japanese.tar.gz

debianのapt-get installで入れると未だにxpdf-3.0.0なんですよね。
下準備として./configureでwarningが出るfreetype2だけ入れました(apt-getによる
後は

$ tar zxvf xpdf-3.0.1.tar.gz
$ cd xpdf-3.0.1
$ ./configure --with-freetype2-includes=/usr/include/freetype2 --enable-a4-paper
(こうしないとfreetype2をわかってもらえない)
$ make
$ su
# make install

続いて日本語環境用ファイル

$ tar zxvf xpdf-japanese.tar.gz
$ su
# mkdir -p /usr/local/share/xpdf/japanese
# cp -r xpdf-japanese/* /usr/local/share/xpdf/japanese
# cat /usr/local/etc/xpdfrc /usr/local/share/xdpf/japanese/add-to-xpdfrc > xpdfrc.new
# mv xpdfrc.new /etc/xpdf/xpdfrc

(/etc/xpdf/xpdfrcをバックアップ取っておくのがよいかも)
/etc/xpdf/xpdfrcに

textEncoding UTF-8

等の設定をしているときは新しくしてしまったファイルも変更しよう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です