たつをの ChangeLog : 2007-03-13

3月に滋賀で行われる言語処理学会全国大会で、グーグルが
特別セッションをやるそうです。大規模日本語データについて。

Google: 大規模日本語データ公開に関する特別セッション
http://www.google.co.jp/events/anlp2007.html
グーグル株式会社では、日本語の言語処理研究推進のため大規模日本語
データの公開を検討しています。つきましては仕様を決定するにあたり、実際
にデータを御利用頂く研究者 / 技術者の皆様の「生の声」を是非お伺い
したく存じます。今回、言語処理学会様の御好意により、下記のとおり
データ仕様に関する特別セッションを設けて頂ける事になりました。
日時: 2007年3月20日(火) 18:30 〜 19:00
会場: 龍谷大学 瀬田学舎 言語処理学会全国大会 A会場 3-106

こうやって大規模な言語リソースが入手しやすくなっていくのは、
自然言語処理研究のためには非常に良いことだと思います。


追記070314: 一応追記。研究利用向けデータ提供ならヤフーもいろいろ
やっています。例えばこれ。

- 国立情報学研究所、「Yahoo!知恵袋」を情報関連技術研究コミュニティー
  に無償提供インターネット-発表資料:IT-PLUS
  http://it.nikkei.co.jp/internet/news/release.aspx?i=154754

追記070321: 参加者の詳細なレポートです。ありがたし。

- 聞いてきました:Googleの大規模日本語データ公開に関する特別セッション
  http://d.hatena.ne.jp/uchiuchiyama/20070321/
  further_details_about_google_special_session_in_nlp2007


ネタつまりすぎです。文庫だけど厚さは2.5cm。
先週末から読みはじめてやっと読了。

グレッグ・イーガン, 山岸真 / 万物理論


最初は「星を継ぐもの[2001-08-31-1]みたいな話かと思っていたら、ハリウッド映画的な展開にもなりつつ、最後はアレ系ですね。
ネタバレになるから言えないけどアレ系。

ハードSFだなんだとか言われてびびってたのですが、気楽に読めますね。
ジェットコースター的に楽しめるドタバタエンターテイメントSFです。
この記事に言及しているこのブログ内の記事

ヤフー検索の「関連検索ワード」がちょっとリニューアルしていました。

超規模データから価値を生み出そう!〜関連検索ワードの濃い世界 -
Yahoo!検索 スタッフブログ
http://blogs.yahoo.co.jp/yjsearchblog/45257145.html
関連検索ワードは、Yahoo!検索を御利用頂いている皆様が入力したキーワー
ドや、その組み合わせを機械的に収集・処理した結果を元に、検索キーワー
ドの組み合わせなどを自動的に表示し、再検索を補助する機能です。

ユーザの入力キーワードの組み合わせを統計処理したものが「関連検索
ワード」なのです。で、今までは「カレー」に対する関連検索ワードとして、
「カレー レシピ」「カレー 作り方」などのスペース分割された組み合わ
せが出ていたのが、「スープカレー」「カレーうどん」などの分割なしの
ものも出るようになったとのこと。また同義語や表記のゆれにも対応して
いるそうです。

これらの改修の結果、上の"カレー"の例以外にも、以下の出力が可能とな
りました。

キーワード「時刻」から「時刻表」を出力。
キーワード「かまぼこ」から「笹かまぼこ」を出力。
キーワード「鮨」から「回転 寿司」を出力。
キーワード「伊予柑」から「いよかん カロリー」を出力。
キーワード「取組」から「環境問題 取り組み」を出力。

内部で形態素解析処理して単語分割&ノーマライズ(同義語・表記ゆれ)
してから統計を取っているわけですね。

ref. [を] ヤフーは何かを知ろうとしている[2007-02-14-1]

たつをの ChangeLog
Powered by chalow