/ / たつをの ChangeLog
/
Yahoo!ブックマークに登録 あとで読む

このBlogで私がよく使うフレーズを、SUFARYを使ってさくっと
調べてみました。自分マイニングです。
調査対象期間:2000年1月から今朝まで。
100回以上出現し6文字以上の文字列のみリストアップ:

順位出現回数フレーズ
1 204 ということで
2 116 というわけで
3 116 たんだけど、
4 116 インストール
5 110 っています。
6 104 インターネット

ということで、1位は「ということで」でした。「わけ」より「こと」が
好きみたい。この結果をふまえると私の典型的な文章はこんな感じかな:

ということで、結局インターネットというわけで、なんだったんだけど
インストールしちゃっています。


ところで、今回使ったSUFARY は私が学生時代に作っていた
高速文字列検索エンジンです。[2003-09-29-4][2004-04-28-2]を参照。
近年はあまり需要もなさそうなので今後もひっそり使っていきます。

最後に今回の手順の解説。UNIX系な人はお試しあれ。
SUFARY のページ <http://nais.to/~yto/tools/sufary/>
からダウンロードし、configure, make, make install で完了!
今回使ったのは mkary と sang のみ。
私の Blog は chalow なので cl.itemlist のみを対象にすればOK
(そうでないBlogは、例えば、月別アーカイブをくっつけて1ファイルに
したもので良いかと。文字コードはEUC)。
まず以下でインデックスを作成。

mkary -J cl.itemlist

そして、以下でいろいろ N-gram (部分文字列)を出してみただけ。

sang -t 100 -n 12 cl.itemlist
sang -t 100 -n 14 cl.itemlist
sang -t 100 -n 16 cl.itemlist

こういう用途ならあきれるほど高速です。


追記050122-: 「自分マイニング!」しているみなさん
<http://www.ringolab.com/note/daiya/archives/002867.html>
<http://yowaken.dip.jp/tdiary/20050120.html#p01>
<http://tokuhirom.dnsalias.org/~tokuhirom/cl/2005-01-19-2.html>
<http://www.area51.gr.jp/~rin/diary/?date=20050118#p09>
<http://blog.livedoor.jp/digdagdom/archives/12644571.html>
<http://nao.s104.xrea.com/td/?date=20050118#p05>
<http://jarp.jin.gr.jp/diary/200501c.html#200501235>
<http://www5.big.or.jp/~seraph/mt/000070.html>
<http://www.dm4lab.to/~usa/ruby/d/200501c.html#id20050125_P2>
<http://www.jmuk.org/d/?path=2005/01/25#d25t05>

Referrer (Inside): [2006-04-24-2]
一言メッセージ送信: 私宛の一言メッセージをこっそり送信できます(非公開)
最近トラックバックを頂いた記事