たつをの ChangeLog : 2008-01-10

読んだから、ということで頂きました。ツイてる!

神足裕司 / 5分で身につく! 超売れ筋ビジネス書101冊


有名ビジネス本を図解しているムックです。
TOPPOINT もそうですが、
さくっと概要が分かるってのはありがたいですよね。

101冊のうち、私が読んだことのあるものは30冊でした。
ロングセラーものの既読率は高いのですが、
新しめのものに関しては低すぎ。
今年は新しいものもさくさく読んでいきたいな。
この記事に言及しているこのブログ内の記事

Wikipedia 日本語版のXMLデータからキーワードを抽出するツール群
「WkipeJaGo」[2007-12-30-1]をアップデートしました。

- /lang/perl/misc/wikipejago - CodeRepos::Share - Trac
http://coderepos.org/share/browser/lang/perl/misc/wikipejago

人名を取り出すスクリプト (ext-wpj-person.pl) は、
今までは日本人の名前だけを対象としていたのですが、
その制限を取り払いました。
うまく抽出できてるっぽかったので CodeRepos にコミット。
最初からこれでよかったかも。

なお、Wikipedia にはいろんなものの一覧ページ[2007-11-27-1]があり、
そこには様々なカテゴリの人名一覧ページもあります。
しかし、フォーマットがいろいろあるのでそこから人名を抽出するのは
ちょっと手間です。一覧を一つ一つ見ていかなくちゃならないので。
そんなわけで、ext-wpj-person.pl は Wikipedia の全データ (XML) を
スキャンして人名を取り出すという、一見無駄なロジックを採用しています。
時間はかかりますが、下記で30分くらいなので、
それほど問題にならないレベル。
bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ./ext-wpj-person.pl
それに実装がむちゃくちゃシンプルになるしね!

たつをの ChangeLog
Powered by chalow