全文検索間での道–文字コードとの格闘–

Hyper Estraierを使った全文検索を構築中。
目的としてはdwgファイルを図面内の文字列で検索できるようにすること。
Hyper Estraierがとても優れているので、どうせならMS系のファイルもテキストファイルもpdfも対象としたい。
dwg,dxfのインデックス作成まではすんなり。
たまに止まってしまうことがあるが、インデックスは作れる。
ところが、.xlsを対象としてインデックス作成中に決まったファイルで止まってしまう。
なぜか。
当該ファイルを手動でxlhtmlにかけてみた。
するとworking buffer overflowの嵐!![:ぎょーん:]
異常終了の原因はこれですね。たぶん。
どうした物でしょう、調べてみるとこの対策としてxlhtmlのsourceを改造している人がいるようですが、うまくいっているのかな?
それに.docファイルのインデックスをチェックすると化けてました。
こちらもwvWare使ってそのまま読ませると内容は読めるものの、タグの中に使われる文字は化けてしまうようで。
Hyper Estraier付属のestfxmsotohtmlではwvWare --charset=UTF-8 --nographics “$infile”とされているようなので、こうしてみたもやはり同じでした。
-pcオプションにUTF-8を指定していることでpath自体は健全だが、検索結果のタイトルはおかしい。
何ともまぁ、本命以外のポイントで問題多発であります[:汗:]

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です