古い記事
ランダムジャンプ
新しい記事
このBlogで私がよく使うフレーズを、SUFARYを使ってさくっと
調べてみました。自分マイニングです。
調査対象期間:2000年1月から今朝まで。
100回以上出現し6文字以上の文字列のみリストアップ:
順位出現回数フレーズ
1204ということで
2116というわけで
3116たんだけど、
4116インストール
5110っています。
6104インターネット

ということで、1位は「ということで」でした。「わけ」より「こと」が
好きみたい。この結果をふまえると私の典型的な文章はこんな感じかな:
ということで、結局インターネットというわけで、なんだったんだけど
インストールしちゃっています。

ところで、今回使ったSUFARY は私が学生時代に作っていた
高速文字列検索エンジンです。[2003-09-29-4][2004-04-28-2]を参照。
近年はあまり需要もなさそうなので今後もひっそり使っていきます。

最後に今回の手順の解説。UNIX系な人はお試しあれ。
SUFARY のページ <http://ta2o.net/tools/sufary/>
からダウンロードし、configure, make, make install で完了!
今回使ったのは mkary と sang のみ。
私の Blog は chalow なので cl.itemlist のみを対象にすればOK
(そうでないBlogは、例えば、月別アーカイブをくっつけて1ファイルに
したもので良いかと。文字コードはEUC)。
まず以下でインデックスを作成。
mkary -J cl.itemlist
そして、以下でいろいろ N-gram (部分文字列)を出してみただけ。
sang -t 100 -n 12 cl.itemlist
sang -t 100 -n 14 cl.itemlist
sang -t 100 -n 16 cl.itemlist
こういう用途ならあきれるほど高速です。


追記050122-: 「自分マイニング!」しているみなさん
<http://www.ringolab.com/note/daiya/archives/002867.html>
<http://yowaken.dip.jp/tdiary/20050120.html#p01>
<http://tokuhirom.dnsalias.org/~tokuhirom/cl/2005-01-19-2.html>
<http://www.area51.gr.jp/~rin/diary/?date=20050118#p09>
<http://blog.livedoor.jp/digdagdom/archives/12644571.html>
<http://nao.s104.xrea.com/td/?date=20050118#p05>
<http://jarp.jin.gr.jp/diary/200501c.html#200501235>
<http://www5.big.or.jp/~seraph/mt/000070.html>
<http://www.dm4lab.to/~usa/ruby/d/200501c.html#id20050125_P2>
<http://www.jmuk.org/d/?path=2005/01/25#d25t05>