古い記事
ランダムジャンプ
新しい記事
「Introduction to Information Retrieval」の輪講の第15回です。

- Introduction to Information Retrieval
  http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html

今回は、
初台の DeNA (http://www.dena.jp/) の会議室で行われました。
会場提供、ありがとうございます。
DeNA! DeNA!

恒例の「前章の復習 by id:naoya」は
id:naoya 氏がお休みだったので無しでした。
また次回。

さて、今回の輪講は、まずは
第13章「Text classification & Naive Bayes」の続きで、
文書分類の評価についての話。
そして第14章「Vector space classification」を最後まで。
線形と非線形の2種類の分類について。
Rocchio と k Nearest Neighbor。
非線形分類器である kNN は普通の検索エンジンを
利用できるので、実装は超ラクラク!

用語メモ


13章。
1. Performance ⇔ Effectiveness
2. Macro average ⇔ Micro average

14章。
1. Contigunity hypothesis
2. Centroid, Prototype
3. Any-of ⇔ One-of classification
4. Confusion matrix

なお、前の方の章でもでてきた「Rocchio」の
読み方/カタカナ表記について議論があったので、
グーグルで出現頻度を調べたら下記の結果に。

キーワード検索結果数
ロッキオ250
ロッチオ15

少ないからあまり参考にはならないかも。

今回の内容に関係する記事


13.6 で出てくる macro + micro average については、
実例入りの解説記事をあとで書く予定です。
とりあえずはこちら:
- [を] マクロ平均とマイクロ平均を混乱しがち[2006-12-12-3]

今回の内容に関係する書籍


Introduction to Information Retrieval