古い記事
ランダムジャンプ
新しい記事
Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。
第一弾は日本語形態素解析APIです。
ヤフーのいろんなところに使われている WebMA という
形態素解析エンジンのAPIです。

- Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析
  http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html

MECAPI の仕様に似ていますが、まあそういうものです。
(MECAPI http://yapi.ta2o.net/apis/mecapi.cgi)

で、先日 MECAPI で作った「文で検索」[2007-04-03-1]
WebMA 版を作ってみました。「文で検索2」です。「2(ツー)」ですよ!

- 文で検索2 ttp://chalow.net/misc/bunsearch2.php
  http://yapi.ta2o.net/bundekensaku/
  (ソースはこちら: ttp://chalow.net/misc/bunsearch2.txt
    http://yapi.ta2o.net/bundekensaku/bunsearch2.txt

ちなみに MECAPI 版は ttp://chalow.net/misc/bunsearch.php
http://yapi.ta2o.net/bundekensaku/ で「MECAPI」を選択。
(ソースはこちら: ttp://chalow.net/misc/bunsearch.txt
  http://yapi.ta2o.net/bundekensaku/bunsearch.txt

ソースを見比べてみると分かると思いますが、
変更箇所は、MecapiWrods() の代わりに WebmaWords() を呼んでるところ
くらい。この二つの関数を違いを見てみて!(ま、ほぼ同じだけどね)

さて、MECAPI(MeCab) と WebMA の違いですが、なんといっても後者は
語彙が豊富です。ウェブに現れる語彙をじゃんじゃん追加しているので、
特に固有名詞なんかには強いです。

どちらかというとマイナーな苗字「小飼(こがい)」で比べてみましょう。
どちらも名詞だけ取り出しています。

- 文で検索 MECAPI版:小飼弾です
- 文で検索 WebMA版:小飼弾です

前者だと、「飼弾」という謎な語が取り出されてしまいます。
後者には、ちゃんと「小飼」という固有名詞が登録されていることが
分かります。


■関連記事:

- ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開:
  ニュース - CNET Japan
  http://japan.cnet.com/news/media/story/0,2000056023,20351038,00.htm
ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてき
た形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開す
るもの。

- CodeZine:Yahoo!、異質なWeb API「日本語形態素解析Webサービス」を
  公開(Webサービス)
  http://codezine.jp/a/article/aid/1461.aspx
日本語文を形態素に分割し、品詞、読みがなの付与や、「文章内である
単語が何回使われたのか」といった統計情報を取ることができるWeb API。