「Introduction to Information Retrieval」[1]の第一章[2008-01-12-1]
の転置インデックスまわりの用語と検索手順などの解説です。
ちょっと前に書いた
『ウェブ検索を「本の索引」で説明する試み』[2007-06-17-6]
という記事の続きでもあります。
「転置インデックスによる検索システムを作ってみよう!」 [2007-11-26-5]もご参考に。
§
転置インデックス (inverted index または inverted file) は、
dictionary と postings の二つの部分から構成されます。
dictionary は索引語 (term) の集合です。
term が登場する文書の ID を posting と呼びます。
ある term の posting のリストが postings list (または inverted list)、
postings list の集合が postings と呼ばれています[1]
(posting と postings がちょっとややこしいのですが、
IIR[1]の記述に従いました)。
これらの関係を図に示しました。