xpdftotextで文字化け
HyperEstraier付属のフィルター、estfxpdftohtmlを使ってPDFをHTML化して登録しているのですが、調べてみると、文字化けしているファイルが多い。
化けてしまっているファイルとそうでないファイルがあって不明確な状態ではあるが、とりあえずコンソールにててすと。
適当なPDFファイルを用意してpdftotextでファイルを作る。>>化け化け。
見事に日本語のみ化けているので、Debianパッケージも古いようだからあわせてVersionUPすることに。
dpkgでxpdfが入っていることがわかったので、削除しようと思ったらcupsysで使っているからダメと言われた。困ったけど、sourceから構築して入れてしまうことに。(強引)
こうするとどういった不具合が出るのか・・・
あまり世界が見渡せていない証拠ですねぇ~~
さて、肝心の導入編。
用意したファイルは
xpdf-3.01.tar.gz< http://hyperestraier.sourceforge.net/>
xpdf-japanese.tar.gz
(/etc/xpdf/xpdfrcをバックアップ取っておくのがよいかも)
/etc/xpdf/xpdfrcに