HyperEstraierとExcelファイル

3

なんかヒットしないxlsファイルが多いと言うことで、(自分も気になっていたけど)調査。
xlhtmlが出力するものを見るとセル内に入力されていても空白とされている部分が多かった。
これではいかにHyperEstraierが優秀でもどうにも出来ませんよね。
調べてみると意外に気にされていないxlhtml。何で?便利なツールなのにバグほったらかし?
ありがたいことに見つけたバグを修正したものがいただけるサイト発見。
UNIX的生活
まとめ情報
の表記並びに
hrefがxlhtml-current-050716.tar.gzとなっていましたが、やっぱり070516という事のようです。
実際存在するファイルもそう。
debianのパッケージは0.5.1バージョンだが、本家で配布されている0.5ベースのものの様だ。
というわけで、
dpkg --purge xlhtmlでもってパッケージ版をuninstallし、
ソースから導入
./configure --prefix=/usr
make
make install
このxlhtml 0.5改なら自分の目的通りの出力をしてくれる。
さらに出力されるhtmlがちょっと大きいと調べると、
やはり同じようなことを考える方はいるもので、情報がありました。
スペースモラトリアムノカミサマ

ありがとうございます、そのテクニックちょうだいします。
内容をフィルタに組み込む。
*変更点
/usr/local/share/hyperestraier/filter/estfxmsotohtml
- xlhtml “$infile” 2> “/dev/null” | output
+ xlhtml “$infile” | perl -pe ‘s”

]*>( )*

n””g’ | grep -v ‘

‘ 2> “/dev/null” | output
ついでに形態素解析にしてみたのだが、今度はmecabのEOSが問題に。
こちらの問題も先人あり!(ありがたやありがたや)
私的技術メモ

mymorph.cの191行目あたりを以下のように修正
static char *args[] = { “mecab”, “--node-format=%m\t%f[0]\t%f[1]\n”,
“--unk-format=%m\t\t\n”, NULL };
 ↓
static char *args[] = { “mecab”, “--node-format=%m\t%f[0]\t%f[1]\n”,
“--unk-format=%m\t\t\n “,
“--eos-format=\t\t\n”, NULL };
これでEOSがキーワードとして抽出されなくなる。

ということで、改造完了。

3 thoughts on “HyperEstraierとExcelファイル

  1. 引用部分ですか?
    c言語という言語を用いたプログラミングのソース(おたふくとかそういうやつじゃなくて)です。
    僕は賢人の残していった道具を組み合わせて自分なりに効率的にするのが好きなので、そんなに複雑なことはしていませんよ。
    autocadのフィルタ(文字列抽出)だけは自分でプログラミングしなくちゃならないなぁと思っていますが、linux向けのプログラムは経験無くて全然進まないプロジェクトになっています。。。
    興味があったら手伝って下さい。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です