Yahoo!デベロッパーネットワークに「テキスト解析」が登場しました。
第一弾は日本語形態素解析APIです。
ヤフーのいろんなところに使われている WebMA という
形態素解析エンジンのAPIです。
- Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析
http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html
MECAPI の仕様に似ていますが、まあそういうものです。
(MECAPI https://maapi.net/)
で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の
WebMA 版を作ってみました。「文で検索2」です。「2(ツー)」ですよ!
- 文で検索2ttp://chalow.net/misc/bunsearch2.php
http://yapi.ta2o.net/bundekensaku/
(ソースはこちら:ttp://chalow.net/misc/bunsearch2.txt
http://yapi.ta2o.net/bundekensaku/bunsearch2.txt)
ちなみに MECAPI 版はttp://chalow.net/misc/bunsearch.php
http://yapi.ta2o.net/bundekensaku/ で「MECAPI」を選択。
(ソースはこちら:ttp://chalow.net/misc/bunsearch.txt
http://yapi.ta2o.net/bundekensaku/bunsearch.txt)
ソースを見比べてみると分かると思いますが、
変更箇所は、MecapiWrods() の代わりに WebmaWords() を呼んでるところ
くらい。この二つの関数を違いを見てみて!(ま、ほぼ同じだけどね)
さて、MECAPI(MeCab) と WebMA の違いですが、なんといっても後者は
語彙が豊富です。ウェブに現れる語彙をじゃんじゃん追加しているので、
特に固有名詞なんかには強いです。
どちらかというとマイナーな苗字「小飼(こがい)」で比べてみましょう。
どちらも名詞だけ取り出しています。
- 文で検索 MECAPI版:小飼弾です
- 文で検索 WebMA版:小飼弾です
前者だと、「飼弾」という謎な語が取り出されてしまいます。
後者には、ちゃんと「小飼」という固有名詞が登録されていることが
分かります。
■関連記事:
- ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開:
ニュース - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20351038,00.htm
- CodeZine:Yahoo!、異質なWeb API「日本語形態素解析Webサービス」を
公開(Webサービス)
http://codezine.jp/a/article/aid/1461.aspx
第一弾は日本語形態素解析APIです。
ヤフーのいろんなところに使われている WebMA という
形態素解析エンジンのAPIです。
- Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語形態素解析
http://developer.yahoo.co.jp/jlp/MAService/V1/parse.html
MECAPI の仕様に似ていますが、まあそういうものです。
(MECAPI https://maapi.net/)
で、先日 MECAPI で作った「文で検索」[2007-04-03-1]の
WebMA 版を作ってみました。「文で検索2」です。「2(ツー)」ですよ!
- 文で検索2
http://yapi.ta2o.net/bundekensaku/
(ソースはこちら:
http://yapi.ta2o.net/bundekensaku/bunsearch2.txt)
ちなみに MECAPI 版は
http://yapi.ta2o.net/bundekensaku/ で「MECAPI」を選択。
(ソースはこちら:
http://yapi.ta2o.net/bundekensaku/bunsearch.txt)
ソースを見比べてみると分かると思いますが、
変更箇所は、MecapiWrods() の代わりに WebmaWords() を呼んでるところ
くらい。この二つの関数を違いを見てみて!(ま、ほぼ同じだけどね)
さて、MECAPI(MeCab) と WebMA の違いですが、なんといっても後者は
語彙が豊富です。ウェブに現れる語彙をじゃんじゃん追加しているので、
特に固有名詞なんかには強いです。
どちらかというとマイナーな苗字「小飼(こがい)」で比べてみましょう。
どちらも名詞だけ取り出しています。
- 文で検索 MECAPI版:小飼弾です
- 文で検索 WebMA版:小飼弾です
前者だと、「飼弾」という謎な語が取り出されてしまいます。
後者には、ちゃんと「小飼」という固有名詞が登録されていることが
分かります。
■関連記事:
- ヤフー、文章を解析できるAPI「日本語形態素解析Webサービス」を公開:
ニュース - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20351038,00.htm
ヤフーの日本語処理技術部がYahoo! JAPAN研究所と共同で開発を進めてき
た形態素解析エンジン「Web MA」を社外の開発者向けにAPIとして公開す
るもの。
- CodeZine:Yahoo!、異質なWeb API「日本語形態素解析Webサービス」を
公開(Webサービス)
http://codezine.jp/a/article/aid/1461.aspx
日本語文を形態素に分割し、品詞、読みがなの付与や、「文章内である
単語が何回使われたのか」といった統計情報を取ることができるWeb API。