古い記事
ランダムジャンプ
新しい記事
「Introduction to Information Retrieval」の輪講の第13回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回は六本木ヒルズの Baidu の会議室を使わせて頂きました。
ありがとうございました。百度!百度!
Baidu IIR

最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080907/1220796559)。
前章の確率ネタの解説。これは結構大変。お疲れさまです。

そして、今回の輪講は第12章
「Language models for information retrieval」。
この章は、前章に続いて確率・統計の話。
言語を確率分布で表現する「言語モデル」についてです。
内容の難易度や分量は前章や次章と比べると控えめ。
今回の内容(言語モデル)を適用したハックもどうぞ→[2008-09-07-3]

次回はナイーブベイズ(Naive Bayes)です。
内部ベイズではありません。

夏休みの宿題


前回から1ヶ月あいていたので「夏休みの宿題」(任意)がありました。
IIR に関係する何かをやる、という課題。
輪講終了後に何人かが発表を行いました。
こんなのがありました。

(1) RSS から言語モデルを得て、ランダムな文を生成するハック / 私
  (see [2008-09-07-3])
(2) ナイーブベイズによるテキスト分類体験アプリ / sleepy_yoshi
  (http://d.hatena.ne.jp/sleepy_yoshi/20080907/p1)
(3) 5章の圧縮を行う Perl Module「Array::Gap」 / id:naoya
  (http://d.hatena.ne.jp/naoya/20080906/1220685978)
(4) II簡単実装環境 / id:naoya
(5) Wikipedia データで Variable Byte Code の評価 / yamada

発表は、次回へと続きます。

今日の関連書籍


Introduction to Information Retrieval

(ref. [2008-08-05-2])
輪講の本。関連書籍というよりも主役書籍。

荒木雅弘 / フリーソフトでつくる音声認識システム - パターン認識・機械学習の初歩から対話システムまで

(ref. [2007-10-09-4])
今日の言語モデルの話の基礎をカバー。

徳永健伸 / 情報検索と言語処理

(ref. http://d.hatena.ne.jp/naoya/20080906/1220685978)
東工大の徳永先生による定番本。11章の復習・補足に。
この記事に言及しているこのブログ内の記事