古い記事
ランダムジャンプ
新しい記事
「Introduction to Information Retrieval」[1]の第二章
(次回の輪講の範囲)の2.2.2に出てくるストップワード (stop word) の
話題をまとめました。

§

ストップワード (stop word) とは、
検索にほとんど役に立たないためインデックス作成時に除外する
単語のことである。

検索対象文書に出現するすべての単語をインデックスとするのは
無駄な面が多い。
例えば、「て」「に」「を」「は」などの助詞や
英語の冠詞・前置詞 (a, the, in, of) はほぼすべての文書に出現する。
そのため、
postings list が巨大になり格納スペースや処理時間に悪影響を与え、
その上、
検索結果も大量となり検索要求を満たす結果を得るのが困難となる。
そこで効率化のために、
これらの語(ストップワード)を検索インデックスから外すという
措置を取ることが多い。

ウェブ検索では、
ストップワードを含む表現を漏れなく検索できるように
一般にストップワードに対してもインデックスを行っている。
ただし、ユーザ入力インタフェース部分で
デフォルトでストップワードをはじく処理を行っていることがある[1]。

なお、ストップワードのリストをストップリスト (stop list) を呼ぶ。
ネットで入手できるストップリストとして SMART [2]のものがある[3]。


参考文献:
[1] Christopher D. Manning, Prabhakar Raghavan and Hinrich Schu"tze:
  Introduction to Information Retrieval, Cambridge University Press, 2008.
  (http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html)
[2] G. Salton: The SMART retrieval system. Prentice-Hall, 1971.
  (未チェック)
[3] SMART stop list
  http://jmlr.csail.mit.edu/papers/volume5/lewis04a/
  a11-smart-stop-list/english.stop


その他のストップリストの例:
- DBIx::FullTextSearch::StopList
  http://bulknews.net/lib/doc-ja/StopList.pm
- Stop List
  http://www.thebananatree.org/stoplist.html
- Marvin Humphrey / Lingua-StopWords - search.cpan.org
  http://search.cpan.org/~creamyg/Lingua-StopWords/
  ↑追記。情報感謝!

(間違いや補足などありましたら下記フォームからご連絡頂けると幸いです)
この記事に言及しているこのブログ内の記事