「Introduction to Information Retrieval」輪講第14回 (たつをの ChangeLog)

「Introduction to Information Retrieval」輪講第14回

2008-09-28-2 [IIR]

「Introduction to Information Retrieval」の輪講の第14回です。

- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

前回に引き続き今回も
六本木ヒルズの百度の会議室を使わせて頂きました。
ありがとうございます。
BAIDU! BAIDU!

最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080928/1220796559)
前章の言語モデルネタの解説。お疲れさまです。

今回の輪講は第13章「Text classification & Naive Bayes」。
文書分類とは何か？的な話と、それを行う一手法としての
ナイーブベイズ(Naive Bayes)についてです。
この章はページ数が多くてくじけてしまいそうになりがちですが、
扱っている内容は前章、前前章をふまえればそれほど難しくありません。
文書分類技術はスパム判定はじめ、
あらゆる場面で適用できる使い道の多い便利なツールです。
こまった場面でささっと取り出せるようになると良いですね。

なお、今回は章の途中で時間切れ。
次回に続きをやります。

用語メモ

この章の冒頭には今後も使われる重要キーワードが
どんどん出てくるので、メモ。
それぞれが何かぱっと説明できればok。

1. document space
2. labeling
3. class (category, label)
4. training set (training data) [⇔8]
5. learning method (learning algorithm)
6. classifier (classification function)
7. supervised learning [⇔un-]
8. test set (test data) [⇔4]

今回の内容に関係する記事

13.5.1 の Mutual informatin （相互情報量）
については、下記の記事の私の資料が参考になるかも、ならないかも。
- [を] Blog Hackers Conference 2005[2005-05-27-1]

13.5.2 の χ^2 Feature selection （カイ２乗）
については、下記の記事が参考になるかと。
- [を] カイ二乗値で単語間の関連の強さを調べる[2007-09-19-1]

今回の内容に関係する書籍

■北研二 / 確率的言語モデル

今回というか、前回の内容に関係する本。

■Introduction to Information Retrieval

これは欠かせない！