WikipeJaGo の人名抽出部分を修正
2008-01-10-2
[Programming][Maintenance]
Wikipedia 日本語版のXMLデータからキーワードを抽出するツール群
「WkipeJaGo」[2007-12-30-1]をアップデートしました。
- /lang/perl/misc/wikipejago - CodeRepos::Share - Trac
http://coderepos.org/share/browser/lang/perl/misc/wikipejago
人名を取り出すスクリプト (ext-wpj-person.pl) は、
今までは日本人の名前だけを対象としていたのですが、
その制限を取り払いました。
うまく抽出できてるっぽかったので CodeRepos にコミット。
最初からこれでよかったかも。
なお、Wikipedia にはいろんなものの一覧ページ[2007-11-27-1]があり、
そこには様々なカテゴリの人名一覧ページもあります。
しかし、フォーマットがいろいろあるのでそこから人名を抽出するのは
ちょっと手間です。一覧を一つ一つ見ていかなくちゃならないので。
そんなわけで、ext-wpj-person.pl は Wikipedia の全データ (XML) を
スキャンして人名を取り出すという、一見無駄なロジックを採用しています。
時間はかかりますが、下記で30分くらいなので、
それほど問題にならないレベル。
「WkipeJaGo」[2007-12-30-1]をアップデートしました。
- /lang/perl/misc/wikipejago - CodeRepos::Share - Trac
http://coderepos.org/share/browser/lang/perl/misc/wikipejago
人名を取り出すスクリプト (ext-wpj-person.pl) は、
今までは日本人の名前だけを対象としていたのですが、
その制限を取り払いました。
うまく抽出できてるっぽかったので CodeRepos にコミット。
最初からこれでよかったかも。
なお、Wikipedia にはいろんなものの一覧ページ[2007-11-27-1]があり、
そこには様々なカテゴリの人名一覧ページもあります。
しかし、フォーマットがいろいろあるのでそこから人名を抽出するのは
ちょっと手間です。一覧を一つ一つ見ていかなくちゃならないので。
そんなわけで、ext-wpj-person.pl は Wikipedia の全データ (XML) を
スキャンして人名を取り出すという、一見無駄なロジックを採用しています。
時間はかかりますが、下記で30分くらいなので、
それほど問題にならないレベル。
それに実装がむちゃくちゃシンプルになるしね!bunzip2 -c jawiki-latest-pages-articles.xml.bz2 | ./ext-wpj-person.pl