HyperEstraierとExcelファイル
なんかヒットしないxlsファイルが多いと言うことで、(自分も気になっていたけど)調査。
xlhtmlが出力するものを見るとセル内に入力されていても空白とされている部分が多かった。
これではいかにHyperEstraierが優秀でもどうにも出来ませんよね。
調べてみると意外に気にされていないxlhtml。何で?便利なツールなのにバグほったらかし?
ありがたいことに見つけたバグを修正したものがいただけるサイト発見。
UNIX的生活
まとめ情報
hrefがxlhtml-current-050716.tar.gzとなっていましたが、やっぱり070516という事のようです。
実際存在するファイルもそう。
debianのパッケージは0.5.1バージョンだが、本家
というわけで、
dpkg --purge xlhtmlでもってパッケージ版をuninstallし、
ソースから導入
./configure --prefix=/usr
make
make install
このxlhtml 0.5改なら自分の目的通りの出力をしてくれる。
さらに出力されるhtmlがちょっと大きいと調べると、
やはり同じようなことを考える方はいるもので、情報がありました。
スペースモラトリアムノカミサマ
ありがとうございます、そのテクニックちょうだいします。
内容をフィルタに組み込む。
*変更点
/usr/local/share/hyperestraier/filter/estfxmsotohtml
- xlhtml “$infile” 2> “/dev/null” | output
+ xlhtml “$infile” | perl -pe ‘s”
n””g’ | grep -v ‘
‘ 2> “/dev/null” | output
ついでに形態素解析にしてみたのだが、今度はmecabのEOSが問題に。
こちらの問題も先人あり!(ありがたやありがたや)
私的技術メモ
mymorph.cの191行目あたりを以下のように修正
static char *args[] = { “mecab”, “--node-format=%m\t%f[0]\t%f[1]\n”,
“--unk-format=%m\t\t\n”, NULL };
↓
static char *args[] = { “mecab”, “--node-format=%m\t%f[0]\t%f[1]\n”,
“--unk-format=%m\t\t\n “,
“--eos-format=\t\t\n”, NULL };
これでEOSがキーワードとして抽出されなくなる。
ということで、改造完了。
これは、英語ですか?Yataoさんの頭の中自体コンピューターですねえ!すごい!
引用部分ですか?
c言語という言語を用いたプログラミングのソース(おたふくとかそういうやつじゃなくて)です。
僕は賢人の残していった道具を組み合わせて自分なりに効率的にするのが好きなので、そんなに複雑なことはしていませんよ。
autocadのフィルタ(文字列抽出)だけは自分でプログラミングしなくちゃならないなぁと思っていますが、linux向けのプログラムは経験無くて全然進まないプロジェクトになっています。。。
興味があったら手伝って下さい。
そうそう、
手伝ってください。
Jullyさん。