MeCabをPerlから使う
2006-02-25-4
[Programming][NLP]
NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。
解析スピードは ChaSen より速いし、なにより今もメンテされてるのが
素晴らしい。20%ルール!?
Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
<http://mecab.sourceforge.jp/>
以下を取ってきてすんなりインストール。何のバッドノウハウもなし。
- mecab-0.90rc9.tar.gz
- mecab-ipadic-2.7.0-20051110.tar.gz
- mecab-perl-0.90rc9.tar.gz
サンプル。こういう使い方ができるのが便利。
解析スピードは ChaSen より速いし、なにより今もメンテされてるのが
素晴らしい。20%ルール!?
Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer
<http://mecab.sourceforge.jp/>
以下を取ってきてすんなりインストール。何のバッドノウハウもなし。
- mecab-0.90rc9.tar.gz
- mecab-ipadic-2.7.0-20051110.tar.gz
- mecab-perl-0.90rc9.tar.gz
サンプル。こういう使い方ができるのが便利。
実行結果:#!/usr/bin/perl use MeCab; my $m = new MeCab::Tagger (""); my $n = $m->parseToNode ("今日もしないとね"); while ($n = $n->{next}) { printf("%s\t%s\t%d\n", $n->{surface}, # 表層 $n->{feature}, # 現在の品詞 $n->{cost} # その形態素までのコスト ); }
今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー 3848 も 助詞,係助詞,*,*,*,*,も,モ,モ 5145 し 動詞,自立,*,*,サ変・スル,未然形,する,シ,シ 10333 ない 助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ 4386 と 助詞,接続助詞,*,*,*,*,と,ト,ト 5401 ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ 9129 BOS/EOS,*,*,*,*,*,*,*,* 8169