WikipeJaGo の人名抽出部分を修正 (たつをの ChangeLog)

WikipeJaGo の人名抽出部分を修正

2008-01-10-2 [Programming][Maintenance]

Wikipedia 日本語版のXMLデータからキーワードを抽出するツール群
「WkipeJaGo」[2007-12-30-1]をアップデートしました。

- /lang/perl/misc/wikipejago - CodeRepos::Share - Trac
http://coderepos.org/share/browser/lang/perl/misc/wikipejago

人名を取り出すスクリプト (ext-wpj-person.pl) は、
今までは日本人の名前だけを対象としていたのですが、
その制限を取り払いました。
うまく抽出できてるっぽかったので CodeRepos にコミット。
最初からこれでよかったかも。

なお、Wikipedia にはいろんなものの一覧ページ[2007-11-27-1]があり、
そこには様々なカテゴリの人名一覧ページもあります。
しかし、フォーマットがいろいろあるのでそこから人名を抽出するのは
ちょっと手間です。一覧を一つ一つ見ていかなくちゃならないので。
そんなわけで、ext-wpj-person.pl は Wikipedia の全データ (XML) を
スキャンして人名を取り出すという、一見無駄なロジックを採用しています。
時間はかかりますが、下記で30分くらいなので、
それほど問題にならないレベル。

bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ./ext-wpj-person.pl

それに実装がむちゃくちゃシンプルになるしね！