たつをの ChangeLog : 2006-02-25

コクヨ100周年限定商品で20個20色のカドケシのセット!!!
カドケシです、20周年の限定版です申し訳ありませんが20個(20色)セットですカド消しゴム 【送料無料】コクヨ 消しゴム<カドケシ>限定20色セット[ケシ-U700C]
ref. [2005-01-10-4][2004-08-16-5][2003-08-20-2]

こんなのもありました。純金のカドケシ。すごい…:
- コクヨ ニュースリリース || 『純金製「カドケシ」などが当たる
  キャンペーン』を実施
  <http://www.kokuyo.co.jp/press/news/20051227-518.html>
  純金カドケシ

Q: Perl の xs 関連で、/usr/local/lib に so があるのに use XXX する
   とエラーになる。
A: /etc/ld.so.conf に /usr/local/lib を追加して /sbin/ldconfig

茶筌ネタ。
半角アルファベット・数字を文字単位に区切らないようにするには?

デフォルトだとこうなってしまいます:
% chasen
第26回Wiki小話
第 ダイ 第 接頭詞-数接続
2 ニ 2 名詞-数
6 ロク 6 名詞-数
回 カイ 回 名詞-接尾-助数詞
W ダブリュー W 記号-アルファベット
i アイ i 記号-アルファベット
k ケイ k 記号-アルファベット
i アイ i 記号-アルファベット
小話 コバナシ 小話 名詞-一般
EOS
そこで chasenrc を ~/.chasenrc にコピーして、
;(COMPOSIT_POS ((名詞 数))
; ((記号 アルファベット)))
のコメント(行頭のセミコロン)を取ります。
するとアルファベット・数字連続が一単語として認識されます。
% chasen
第26回Wiki小話
第 ダイ 第 接頭詞-数接続
26 ニロク 26 名詞-数
回 カイ 回 名詞-接尾-助数詞
Wiki ダブリューアイケイアイ Wiki 記号-アルファベット
小話 コバナシ 小話 名詞-一般
EOS

MeCab[2006-02-25-4]の場合はデフォルトでOK。

NAISTの後輩のスーパーハカー taku-ku 氏作の形態素解析エンジン MeCab。
解析スピードは ChaSen より速いし、なにより今もメンテされてるのが
素晴らしい。20%ルール!?

Perlモジュールもあって、しかも使い勝手も良いので Text::ChaSen [2006-02-24-3]は止めて、こっちを使っていこうかと。

MeCab: Yet Another Part-of-Speech and Morphological Analyzer
<http://mecab.sourceforge.jp/>

以下を取ってきてすんなりインストール。何のバッドノウハウもなし。
- mecab-0.90rc9.tar.gz
- mecab-ipadic-2.7.0-20051110.tar.gz
- mecab-perl-0.90rc9.tar.gz

サンプル。こういう使い方ができるのが便利。
#!/usr/bin/perl
use MeCab;
my $m = new MeCab::Tagger ("");
my $n = $m->parseToNode ("今日もしないとね");
while ($n = $n->{next}) {
   printf("%s\t%s\t%d\n",
	  $n->{surface},          # 表層
	  $n->{feature},          # 現在の品詞
	  $n->{cost}              # その形態素までのコスト
	 );
}
実行結果:
今日   名詞,副詞可能,*,*,*,*,今日,キョウ,キョー 3848
も     助詞,係助詞,*,*,*,*,も,モ,モ 5145
し     動詞,自立,*,*,サ変・スル,未然形,する,シ,シ     10333
ない   助動詞,*,*,*,特殊・ナイ,基本形,ない,ナイ,ナイ  4386
と     助詞,接続助詞,*,*,*,*,と,ト,ト   5401
ね     助詞,終助詞,*,*,*,*,ね,ネ,ネ 9129
 BOS/EOS,*,*,*,*,*,*,*,*        8169

読了!

ジェームズ・スロウィッキー / 「みんなの意見」は案外正しい


フランシス・ゴールトンの調査の話から始まります。
見本市で、一番近い値を予想した人に商品が与えられるという
雄牛の重量当てコンテストがあって、参加者は800人で、
で誰かが商品をゲットしたんだけどそれは置いといて、
ゴールトンが投票用紙から推測値を集めて平均値を出してみたら
なんと実際の値とほぼぴったり! 実際は1198ポンド、予測は1197ポンド。

なるほど「みんなの意見」ってすごいなあ、
と思うもののちょっとまゆつば。
ということで実験してみました。
私の2006年1月のアフィリエイト(AdSense、Amazon、楽天、等)収入合計
を推測して下さい。みなさんの推測値の平均と実際の値との誤差が
10%以内だったら負けを認めます。結果は読了後の記事にて!
([を] 集団の知恵(THE WISDOM OF CROWDS)に挑戦![2006-02-14-5])

今日までの「みんな」の投票結果(推測値)を平均すると、X円。
実際の値と比べると、その差は10%をちょっとだけ越えています。
惜しい! でも、かなり良い推測値だと思います。
このくらいの精度なら十分実用的!
あの人やあの人のアフィリエイト収入も推測してもらおうかな♪

グラフ
全部で92件ありました。ありがとうございます。
推測値の分布です。1〜3万円、と推測する人が多かったです。
最頻値で見ると正解からずれますが、全体の平均を取ると
正解に近くなる。面白いですよね。

§

本書の主張:
専門家を追いかける代わりに、集団に答えを求めるべきなのだ(集団の中
には天才的な専門家も含まれているかもしれないが)。
 集団は答えを知っているのだから。(p.11)

本書では集団知を三種類の問題に絞って説明しています(pp.14-15)。
(1)「認知」。明解な答えがどこかの時点で存在する問題。
  「この新しいプリンタは次の三ヶ月で何台売れるか」
  「このクスリが商品医薬品局の認可を得られそうか」
  「新しく公共プールをつくる最適な場所はどこか」など。
  Googleのページランクや予測市場(IEM)などの話も。
  ポイントの一つは、多様な意見が混じることが重要、ということ。
  先ほどの収入推測でも「最頻値」より多様な意見の集約である
  「平均」の方が近かったってのものこれかな。
(2)「調整」。集団のメンバーが同じような行動を取るときどうすれば
  良い結果を得られるのかという問題。市場、地下鉄の乗客、企業経営、
  交通渋滞など。「習慣」も「調整」の大きなポイント(p.109)。
(3)「協調」。「利己的で、不信感いっぱいの赤の他人同士が一丸となっ
  て何かに取り組む」とう問題。難題!税金、公害、適正な報酬額など
  など。

本書の後半はこれらの実例。渋滞の調整、科学とオープンさ、小さな
チームの硬直、企業経営、ストックオプション、株式市場とバブル、
政治、民主主義などなど、興味深いテーマがいっぱい。
一つだけ引用。企業経営がらみ。
集合的な意思決定は合意形成といっしょくたに考えられることが多いが、
集団の知恵を活用するうえで合意は本来的には必要ない。合意形成を
主眼に置くと、誰かを刺激することもない代わりに誰の感情も害さない
ような、どうでもいい最大公約数的なソリューションになりやすい。
合意志向のグループは慣れ親しんだ意見ばかり大事にして、挑発的な
意見は叩き潰すからだ。(p.219)
がんばれ、某社。

§

オススメの一冊です。梅田本[2006-02-08-4]とともにどうぞ。

たつをの ChangeLog
Powered by chalow