「Introduction to Information Retrieval」輪講第14回
2008-09-28-2
[IIR]
「Introduction to Information Retrieval」の輪講の第14回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
前回に引き続き今回も
六本木ヒルズの百度の会議室を使わせて頂きました。
ありがとうございます。
BAIDU! BAIDU!
最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080928/1220796559)
前章の言語モデルネタの解説。お疲れさまです。
今回の輪講は第13章「Text classification & Naive Bayes」。
文書分類とは何か?的な話と、それを行う一手法としての
ナイーブベイズ(Naive Bayes)についてです。
この章はページ数が多くてくじけてしまいそうになりがちですが、
扱っている内容は前章、前前章をふまえればそれほど難しくありません。
文書分類技術はスパム判定はじめ、
あらゆる場面で適用できる使い道の多い便利なツールです。
こまった場面でささっと取り出せるようになると良いですね。
なお、今回は章の途中で時間切れ。
次回に続きをやります。
この章の冒頭には今後も使われる重要キーワードが
どんどん出てくるので、メモ。
それぞれが何かぱっと説明できればok。
1. document space
2. labeling
3. class (category, label)
4. training set (training data) [⇔8]
5. learning method (learning algorithm)
6. classifier (classification function)
7. supervised learning [⇔un-]
8. test set (test data) [⇔4]
13.5.1 の Mutual informatin (相互情報量)
については、下記の記事の私の資料が参考になるかも、ならないかも。
- [を] Blog Hackers Conference 2005[2005-05-27-1]
13.5.2 の χ^2 Feature selection (カイ2乗)
については、下記の記事が参考になるかと。
- [を] カイ二乗値で単語間の関連の強さを調べる[2007-09-19-1]
■北研二 / 確率的言語モデル
今回というか、前回の内容に関係する本。
■Introduction to Information Retrieval
これは欠かせない!
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
前回に引き続き今回も
六本木ヒルズの百度の会議室を使わせて頂きました。
ありがとうございます。
BAIDU! BAIDU!
最初に恒例の「前章の復習 by id:naoya」
(http://d.hatena.ne.jp/naoya/20080928/1220796559)
前章の言語モデルネタの解説。お疲れさまです。
今回の輪講は第13章「Text classification & Naive Bayes」。
文書分類とは何か?的な話と、それを行う一手法としての
ナイーブベイズ(Naive Bayes)についてです。
この章はページ数が多くてくじけてしまいそうになりがちですが、
扱っている内容は前章、前前章をふまえればそれほど難しくありません。
文書分類技術はスパム判定はじめ、
あらゆる場面で適用できる使い道の多い便利なツールです。
こまった場面でささっと取り出せるようになると良いですね。
なお、今回は章の途中で時間切れ。
次回に続きをやります。
用語メモ
この章の冒頭には今後も使われる重要キーワードが
どんどん出てくるので、メモ。
それぞれが何かぱっと説明できればok。
1. document space
2. labeling
3. class (category, label)
4. training set (training data) [⇔8]
5. learning method (learning algorithm)
6. classifier (classification function)
7. supervised learning [⇔un-]
8. test set (test data) [⇔4]
今回の内容に関係する記事
13.5.1 の Mutual informatin (相互情報量)
については、下記の記事の私の資料が参考になるかも、ならないかも。
- [を] Blog Hackers Conference 2005[2005-05-27-1]
13.5.2 の χ^2 Feature selection (カイ2乗)
については、下記の記事が参考になるかと。
- [を] カイ二乗値で単語間の関連の強さを調べる[2007-09-19-1]
今回の内容に関係する書籍
■北研二 / 確率的言語モデル
今回というか、前回の内容に関係する本。
■Introduction to Information Retrieval
これは欠かせない!