Webとコーパス 第四回「カタカナから英語スペルを調べる『うろぼえ』」
2007-10-03-2
[WebAndCorpus]
Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いています。
今回はカタカナから英語スペルを調べるサイト「うろぼえ」を紹介します。
なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。
- 第四回「カタカナから英語スペルを調べる『うろぼえ』」
- Sanseido Word-Wise Web [三省堂辞書サイト]
http://dictionary.sanseido-publ.co.jp/wp/
§
■ウェブコーパス徹底活用 第四回
「カタカナから英語スペルを調べる『うろぼえ』」
英文を書くときに悩むのが、英語のスペルです。
ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。
しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。
そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。
uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/
仕組みは、
Yahoo!ウェブ検索APIを使用し、
調査対象のカタカナ語でネットを検索し、
検索結果に含まれるアルファベット表記の単語(頻繁に共起する単語)
を取り出す、というものらしいです。
カタカナ表現の近くにそれのアルファベット表現がありがちであろう、
という仮説に基づいたデータマイニングですね。
下図は「サドンデス」の綴りを調べた例です。
複数の候補が出てきますが、
その中にちゃんと正解である「Sudden Death」も含まれています。
そうでないものもたくさん出てきてしまいますが、
自分の目でフィルタリングしましょう!
うろぼえは、
特に時事ニュースの人名の綴りを調べるときに威力を発揮します。
われわれにはちょっとなじみの薄いアラブ、アフリカの人名や、
漢字表記・カタカナ表記は見慣れているけど英語表記をどうしたらいいか
困ってしまう中国、韓国系の人名などなど。
例えば「ゴルバチョフ」「アラファト」「毛沢東」「金正日」などで
調べてみて下さい。
もちろん、仕組み上、精度は完璧ではありません。
的外れな結果が出てくることも多々あります。
しかし、ネットユーザの力を利用するという
Web 2.0的なアプローチが未来を感じさせます。
いろいろと調整が行われれば、
広範囲の分野で実用的に利用できるサービスに成長していくと思います。
というテーマでブログ記事を書いています。
今回はカタカナから英語スペルを調べるサイト「うろぼえ」を紹介します。
なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。
- 第四回「カタカナから英語スペルを調べる『うろぼえ』」
- Sanseido Word-Wise Web [三省堂辞書サイト]
http://dictionary.sanseido-publ.co.jp/wp/
§
■ウェブコーパス徹底活用 第四回
「カタカナから英語スペルを調べる『うろぼえ』」
英文を書くときに悩むのが、英語のスペルです。
ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。
しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。
そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。
uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/
仕組みは、
Yahoo!ウェブ検索APIを使用し、
調査対象のカタカナ語でネットを検索し、
検索結果に含まれるアルファベット表記の単語(頻繁に共起する単語)
を取り出す、というものらしいです。
カタカナ表現の近くにそれのアルファベット表現がありがちであろう、
という仮説に基づいたデータマイニングですね。
下図は「サドンデス」の綴りを調べた例です。
複数の候補が出てきますが、
その中にちゃんと正解である「Sudden Death」も含まれています。
そうでないものもたくさん出てきてしまいますが、
自分の目でフィルタリングしましょう!
うろぼえは、
特に時事ニュースの人名の綴りを調べるときに威力を発揮します。
われわれにはちょっとなじみの薄いアラブ、アフリカの人名や、
漢字表記・カタカナ表記は見慣れているけど英語表記をどうしたらいいか
困ってしまう中国、韓国系の人名などなど。
例えば「ゴルバチョフ」「アラファト」「毛沢東」「金正日」などで
調べてみて下さい。
もちろん、仕組み上、精度は完璧ではありません。
的外れな結果が出てくることも多々あります。
しかし、ネットユーザの力を利用するという
Web 2.0的なアプローチが未来を感じさせます。
いろいろと調整が行われれば、
広範囲の分野で実用的に利用できるサービスに成長していくと思います。
この記事に言及しているこのブログ内の記事