古い記事
ランダムジャンプ
新しい記事
NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。
解析スピードは ChaSen より速いし、なにより今もメンテされてるのが
素晴らしい。20%ルール!?

Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
<http://mecab.sourceforge.jp/>

以下を取ってきてすんなりインストール。何のバッドノウハウもなし。
- mecab-0.90rc9.tar.gz
- mecab-ipadic-2.7.0-20051110.tar.gz
- mecab-perl-0.90rc9.tar.gz

サンプル。こういう使い方ができるのが便利。
#!/usr/bin/perl
use MeCab;
my $m = new MeCab::Tagger ("");
my $n = $m->parseToNode ("今日もしないとね");
while ($n = $n->{next}) {
   printf("%s\t%s\t%d\n",
	  $n->{surface},          # 表層
	  $n->{feature},          # 現在の品詞
	  $n->{cost}              # その形態素までのコスト
	 );
}
実行結果:
今日   名詞,副詞可能,*,*,*,*,今日,キョウ,キョー 3848
も     助詞,係助詞,*,*,*,*,も,モ,モ 5145
し     動詞,自立,*,*,サ変・スル,未然形,する,シ,シ     10333
ない   助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ  4386
と     助詞,接続助詞,*,*,*,*,と,ト,ト   5401
ね     助詞,終助詞,*,*,*,*,ね,ネ,ネ 9129
 BOS/EOS,*,*,*,*,*,*,*,*        8169