Hyper Estraier-文字化けの理由-

いあやぁ間抜けだった。
docファイルとかxlsとか化けちゃってるじゃん~
と思えば、
estcmd gather -fx “.xls,.doc,.ppt” “H@estfxmsotohtml” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
と勝手にCP932を指定してしまったからだ。[:てへっ:]
僕の場合、

CAD図面(dwg,dxf)用
estcmd gather -fx “.dwg,.dxf” “T@estfdwgtotxt” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
MSファイル用
estcmd gather -fx “.xls,.doc,.ppt” “H@estfxmsotohtml” -fz -ic UTF-8 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
PDFファイル用
estcmd gather -fx “.pdf” “H@estfxpdftohtml” -fz -ic UTF-8 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako
XDW,XBDファイル用
estcmd gather -fx “.xdw,.xbd” “T@estfxdw2text” -fz -ic CP932 -sd -cm -pc UTF-8 -cs 400 /mnt/share/casket /mnt/kurobako

これで正常に取得できます。
ただし、まだxlhtmlのバッファオーバーフロー問題が出ます。
この辺がクリアできればスクリプトにまとめてcronで動かせそう。

XDWとXBDも検索する

Hyper EstraierをつかってXeroxのDocuWorksも検索対象にすることが出来た。
さすがゼロックス、xdw2textというツールをリリースしてくれているので、それを使って楽ちんセッティング。
前回同様元々の書式を使わせてもらい、作ってみました。(とりあえず動きます

#! /bin/sh
#========================================
# estfxdw2text
# Convert XDW,XBD into TEXT
#========================================
# set variables
PATH=”$PATH:/usr/bin:/usr/local/bin:$HOME/bin:.” ; export PATH
progname=”xdw2text”
# check arguments
if [ $# -lt 1 ]
then
printf ‘%s: usage: %s infile [outfile]n’ “$progname” “$progname” 1>&2
exit 1
fi
infile=”$1″
outfile=”$2″
if [ -n “$ESTORIGFILE” ] && [ -f “$ESTORIGFILE” ]
then
infile=”$ESTORIGFILE”
fi
# check the input
if [ “!” -f “$infile” ]
then
printf ‘%s: %s: no such filen’ “$progname” “$infile” 1>&2
exit 1
fi
# initialize the output file
if [ -n “$outfile” ]
then
rm -f “$outfile”
fi
# function to output
output(){
if [ -n “$outfile” ]
then
cat >> “$outfile”
else
cat
fi
}
# output the result
xdw2text -p “$infile” - 2> “/dev/null” | output
# exit normally
exit 0
# END OF FILE

大幅な値下がり

長期保有なので特にショックというわけでもないのですけど、何でこんなに下がったのでしょうか。
こういうことが一つ一つ予想できるようになることが経済がわかってきたってこと?
いやぁ経済ってわかりません。
それにしても最近は日経平均の上下度が大きいですよね?
何でなんだろう。。
投機家として早く有価証券報告書がサックリと読めるようになりたいですな。

MAXTOR 6L060L3

自宅の自作pcがものすごい不安定で心配だったのだが、年末少し理解できて今回HDDをチェック。
HD Tuneを使って調べようとすると、温度61度。[:はうー:]
これは・・・・
詳細スキャンをするとエラー箇所がいくつも。
これはだめだわ[:きゅー:]
それはそうと、
HD Tuneが2.52になっていました。

ヘアワックス

ヘアワックスというものを初めて購入しましたが、
マツモトキヨシなどのドラッグストアよりもカインズホームの方が安いんですよね。
最近のドラッグストアにだまされるな!
ということでしょうか。
カインズ系強し。

全文検索間での道–文字コードとの格闘–

Hyper Estraierを使った全文検索を構築中。
目的としてはdwgファイルを図面内の文字列で検索できるようにすること。
Hyper Estraierがとても優れているので、どうせならMS系のファイルもテキストファイルもpdfも対象としたい。
dwg,dxfのインデックス作成まではすんなり。
たまに止まってしまうことがあるが、インデックスは作れる。
ところが、.xlsを対象としてインデックス作成中に決まったファイルで止まってしまう。
なぜか。
当該ファイルを手動でxlhtmlにかけてみた。
するとworking buffer overflowの嵐!![:ぎょーん:]
異常終了の原因はこれですね。たぶん。
どうした物でしょう、調べてみるとこの対策としてxlhtmlのsourceを改造している人がいるようですが、うまくいっているのかな?
それに.docファイルのインデックスをチェックすると化けてました。
こちらもwvWare使ってそのまま読ませると内容は読めるものの、タグの中に使われる文字は化けてしまうようで。
Hyper Estraier付属のestfxmsotohtmlではwvWare --charset=UTF-8 --nographics “$infile”とされているようなので、こうしてみたもやはり同じでした。
-pcオプションにUTF-8を指定していることでpath自体は健全だが、検索結果のタイトルはおかしい。
何ともまぁ、本命以外のポイントで問題多発であります[:汗:]