「Introduction to Information Retrieval」輪講第15回
2008-10-18-1
[IIR]
「Introduction to Information Retrieval」の輪講の第15回です。
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回は、
初台の DeNA (http://www.dena.jp/) の会議室で行われました。
会場提供、ありがとうございます。
DeNA! DeNA!
恒例の「前章の復習 by id:naoya」は
id:naoya 氏がお休みだったので無しでした。
また次回。
さて、今回の輪講は、まずは
第13章「Text classification & Naive Bayes」の続きで、
文書分類の評価についての話。
そして第14章「Vector space classification」を最後まで。
線形と非線形の2種類の分類について。
Rocchio と k Nearest Neighbor。
非線形分類器である kNN は普通の検索エンジンを
利用できるので、実装は超ラクラク!
13章。
1. Performance ⇔ Effectiveness
2. Macro average ⇔ Micro average
14章。
1. Contigunity hypothesis
2. Centroid, Prototype
3. Any-of ⇔ One-of classification
4. Confusion matrix
なお、前の方の章でもでてきた「Rocchio」の
読み方/カタカナ表記について議論があったので、
グーグルで出現頻度を調べたら下記の結果に。
少ないからあまり参考にはならないかも。
13.6 で出てくる macro + micro average については、
実例入りの解説記事をあとで書く予定です。
とりあえずはこちら:
- [を] マクロ平均とマイクロ平均を混乱しがち[2006-12-12-3]
■Introduction to Information Retrieval
- Introduction to Information Retrieval
http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html
今回は、
初台の DeNA (http://www.dena.jp/) の会議室で行われました。
会場提供、ありがとうございます。
DeNA! DeNA!
恒例の「前章の復習 by id:naoya」は
id:naoya 氏がお休みだったので無しでした。
また次回。
さて、今回の輪講は、まずは
第13章「Text classification & Naive Bayes」の続きで、
文書分類の評価についての話。
そして第14章「Vector space classification」を最後まで。
線形と非線形の2種類の分類について。
Rocchio と k Nearest Neighbor。
非線形分類器である kNN は普通の検索エンジンを
利用できるので、実装は超ラクラク!
用語メモ
13章。
1. Performance ⇔ Effectiveness
2. Macro average ⇔ Micro average
14章。
1. Contigunity hypothesis
2. Centroid, Prototype
3. Any-of ⇔ One-of classification
4. Confusion matrix
なお、前の方の章でもでてきた「Rocchio」の
読み方/カタカナ表記について議論があったので、
グーグルで出現頻度を調べたら下記の結果に。
キーワード | 検索結果数 |
---|---|
ロッキオ | 250 |
ロッチオ | 15 |
少ないからあまり参考にはならないかも。
今回の内容に関係する記事
13.6 で出てくる macro + micro average については、
実例入りの解説記事をあとで書く予定です。
とりあえずはこちら:
- [を] マクロ平均とマイクロ平均を混乱しがち[2006-12-12-3]
今回の内容に関係する書籍
■Introduction to Information Retrieval