Hyper Estraier-文字化けの理由-

いあやぁ間抜けだった。
docファイルとかxlsとか化けちゃってるじゃん~
と思えば、
estcmd gather -fx “.xls,.doc,.ppt” “H@estfxmsotohtml” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
と勝手にCP932を指定してしまったからだ。[:てへっ:]
僕の場合、

CAD図面(dwg,dxf)用
estcmd gather -fx “.dwg,.dxf” “T@estfdwgtotxt” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
MSファイル用
estcmd gather -fx “.xls,.doc,.ppt” “H@estfxmsotohtml” -fz -ic UTF-8 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
PDFファイル用
estcmd gather -fx “.pdf” “H@estfxpdftohtml” -fz -ic UTF-8 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
XDW,XBDファイル用
estcmd gather -fx “.xdw,.xbd” “T@estfxdw2text” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako

これで正常に取得できます。
ただし、まだxlhtmlのバッファオーバーフロー問題が出ます。
この辺がクリアできればスクリプトにまとめてcronで動かせそう。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です