本棚が届きました。さっそく組み立て。しかし、一部の部品に不良品があこれを形態素解析し、名詞だけ取り出します。
り一段だけ固定できません。本棚への道は険しいです。今週中に部品交換
に行ってきます。
それぞれの単語が代表キーワード候補で、その出現数(左端の数)が TF% chasen a.txt|grep '名詞'|sort|uniq -c|sort -nr 2 本棚 ホンダナ 本棚 名詞-一般 2 部品 ブヒン 部品 名詞-一般 1 不良 フリョウ 不良 名詞-形容動詞語幹 1 品 ヒン 品 名詞-接尾-一般 1 道 ミチ 道 名詞-一般 1 中 チュウ 中 名詞-接尾-副詞可能 1 組み立て クミタテ 組み立て 名詞-一般 1 今週 コンシュウ 今週 名詞-副詞可能 1 交換 コウカン 交換 名詞-サ変接続 1 固定 コテイ 固定 名詞-サ変接続 1 一部 イチブ 一部 名詞-副詞可能 1 一段 イチダン 一段 名詞-一般
use LWP::Simple; sub get_num { # 検索ヒット数獲得 by Yahoo! API my ($key) = @_; # UTF-8 $key =~ s/([^0-9A-Za-z_ ])/'%'.unpack('H2',$1)/ge; my $url = "http://api.search.yahoo.com/WebSearchService/V1/". "webSearch?appid=YahooDemo&query=$key&results=1"; my $c; ($c = get($url)) or die "Can't get $url\n"; my ($num) = ($c =~ /totalResultsAvailable="(\d+)"/); return $num; }
(ref. 「本棚」の DF <http://api.search.yahoo.com/WebSearchService/% perl -e 'print 2*log(19200000000/2771),"\n"' 31.5024251422343
形態素解析 + 特徴語抽出
任意のテキストに対して形態素解析を行い、Bulkfeeds の
記事データベースの統計データをもとに特徴語を抽出します。
お店 | 場所 |
吉野家 六本木4丁目店 | 六本木4丁目9-4 |
マクドナルド | 六本木5丁目2-6 |
サブウェイ 六本木東店 | 六本木5丁目16-1 |
カレーショップPOT&POT | 六本木6丁目1-2 |
吉野家 六本木6丁目店 | 六本木6丁目1-6 |
ウェンディーズ | 六本木6丁目1-24 |
バルチックカレー | 六本木7丁目8-7 |
モスバーガー | 六本木7丁目14-6 |
ファーストキッチン | 六本木7丁目14-11 |
松屋 | 六本木7丁目14-12 |
ここにシカ
ないナラ!