古い記事
ランダムジャンプ
新しい記事
Perl モジュール Text::ChaSen を使ってみたい!というわけで、
すっかりメンテナンスされてない chasen をソースからインストール。

オフィシャルページ <http://chasen.naist.jp/> にある
「ソースからのインストール」を参考に。

■darts の install のポイント:
<http://www.chasen.org/~taku/software/darts/>
darts 0.3 だと chasen-2.3.3 のコンパイルに失敗する。
理由は darts 0.3 からのメソッド名変更。
メッソド名の一部変更 (setArray を set_array になど)
そこで darts 0.2 を使う。リンクはないので、以下のURLで直接入手。
<http://www.chasen.org/~taku/software/darts/src/darts-0.2.tar.gz>
(茶筌用に後方互換メソッドを残してもらえるとありがたし> taku-ku)

■chasen-2.3.3 の install のポイント:
./configure --with-darts=/usr/local/include --with-libiconv=/usr/local

■ipadic-2.7.0 の install はすんなり。
/usr/local/lib/chasen/dic/ipadic/ に辞書データが入った。

■さて実行。たまたま別バージョンのRCファイルが入っていたようなので、
「-r」で直接指定。
% chasen -r /usr/local/lib/chasen/dic/ipadic/chasenrc
これはペンです。
これ コレ これ 名詞-代名詞-一般
は ハ は 助詞-係助詞
ペン ペン ペン 名詞-一般
です デス です 助動詞 特殊・デス 基本形
。 。 。 記号-句点
EOS
OK! 次へ。

■chasen-2.3.3 の perl モジュール install のポイント:
perl/Makefile.PL の変更。
'LIBS' => ['-L/usr/local/lib -lchasen -lstdc++']
READMEと<http://chasen.aist-nara.ac.jp/ml/chasen-users/msg00403.html>
より。

■さてさて、Perlのサンプルプログラムを実行(文字コードはEUC-JP)。
% cat a.pl
use Text::ChaSen;
$res = Text::ChaSen::getopt_argv('chasen-perl', '-j', '-f');
print Text::ChaSen::sparse_tostr("日本語の文字列");
% perl a.pl
chasen: /usr/local/etc/chasenrc: dictionary is not specified
別バージョンのデフォルトRCファイルを読みに行ってエラー。

■いちいち指定するのも面倒だし、かといってデフォルトのRCファイルを
上書きするのもあれなので、初めから
/usr/local/lib/chasen/dic/ipadic/chasenrc を読みに行かせる作戦。
強引に configure を書きかえてリビルド。
RCPATH="/usr/local/lib/chasen/dic/ipadic/chasenrc"
% perl a.pl
日本語 ニホンゴ 日本語 名詞-一般
の ノ の 助詞-連体化
文字 モジ 文字 名詞-一般
列 レツ 列 名詞-一般
EOS
OK! 今度はうまく行った!

■なんだかんだで2時間近くかかった…。バッドノウハウーーー。

■今まで内部から /usr/local/bin/chasen を直接呼んで使っていたので
すが、ChaSenモジュールに置き換えていく所存。
ついでにChaSenを使ったPerlモジュールを公開していく予定。


追記060225: MeCab に乗り換えました。see [2006-02-25-4]
この記事に言及しているこのブログ内の記事