古い記事
ランダムジャンプ
新しい記事

Bulkfeeds

2004-02-04-1
Bulkfeeds: Similarity Search リリース
<http://blog.bulknews.net/mt/archives/000763.html>
やっぱり長い文だと特徴語の抽出が難しいかな。
類似文書検索用の特徴語として、
「他の文書にも現れるんだけど現れすぎない語」
みたいのが取れれば良いのだけど、まあこれはこれで悩ましいか。
リソースがふんだんにあれば巨大ベクトルでどばっとやれば済むけど、
節約生活だと大変。工数もかかるしね。
namazu ベースだと特徴語の取り方を工夫していくしかないか。