Webとコーパス 第二回「英語例文検索 EReK」
2007-09-03-1
[WebAndCorpus]
Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いています。
今回は手前味噌ながら EReK (http://erek.ta2o.net/)を取り上げます。
なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供しています。そちらでもお楽しみ下さいませ。
- ウェブコーパス徹底活用 第二回「英語例文検索 EReK」」
- Sanseido Word-Wise Web [三省堂辞書サイト]
http://dictionary.sanseido-publ.co.jp/wp/
§
■ウェブコーパス徹底活用 第二回「英語例文検索 EReK」
ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。
それを思い出して私が作ったサービスが
「英語例文検索 EReK」(http://erek.ta2o.net/)です。
米 Yahoo! が提供している Web API (ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。
実際の検索例を挙げておきます。"made from" で調べた結果です。
なお、ブラウザの幅は「最大」にして使うことをオススメします。
EReK のポイントは二つあります。
まず一つめは、KWIC と呼ばれる表示方式です。
KWIC とは "KeyWord In Context" の略で、
中心に検索キーワード、左右に前後の文脈(コンテキスト)を配置することで、
複数の用例を見やすく並べることができます。
コーパス検索システムでよく採用されているインタフェースで、
言語の使われ方をブラウズするのに非常に便利です。
EReK ではキーワードの前後のコンテキストをそれぞれアルファベット順に
ソート(並び替え)でき、類似のコンテキストをまとめることができます。
「キーワードの後ろにどんな単語が来やすいのか」だけでなく
「キーワードの後ろにこの単語が来たら、次にどんな単語が来やすいのか」
といった要求にも答えることができます。
もう一つのポイントは、検索範囲の指定です。
例えば、医学系の単語・表現ならば、医学関連の英語サイトの中から
用例を検索すればノイズも減って良いですよね。
EReK では、将来はこのようなことができるように、
ユーザによる検索範囲指定カスタマイズ機能を用意する予定なのですが、
現在は未提供です。
そのかわり、最低限の範囲指定機能として、
下記の三つの中から選択できるようにしています。
(1) ウェブ全体、
(2) edu ドメイン(教育機関など)のサイトのみ、
(3) ニュースサイト(CNN,ABCなど)のみ。
ウェブ全体だと検索する表現によってはネイティブでない人のテキスト
がほとんどだったりすることもあります。
適宜選択して活用していただけると良いかと思います。
以上、EReK の二つのポイントでした。
ところで、先日、日本で働いている英語圏の方に意見をうかがったところ、
「日本語版も作って欲しい!私にとってはそっちの方が必要!」
との要望を頂きました。
カスタマイズ機能もそうですが、
じわじわと実装していきたいと思っておりますので、
今後ともよろしくお願いします。
次回も EReK のようにウェブ検索機能を活用した便利ツールを紹介します。
というテーマでブログ記事を書いています。
今回は手前味噌ながら EReK (http://erek.ta2o.net/)を取り上げます。
なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供しています。そちらでもお楽しみ下さいませ。
- ウェブコーパス徹底活用 第二回「英語例文検索 EReK」」
- Sanseido Word-Wise Web [三省堂辞書サイト]
http://dictionary.sanseido-publ.co.jp/wp/
§
■ウェブコーパス徹底活用 第二回「英語例文検索 EReK」
ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。
それを思い出して私が作ったサービスが
「英語例文検索 EReK」(http://erek.ta2o.net/)です。
米 Yahoo! が提供している Web API (ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。
実際の検索例を挙げておきます。"made from" で調べた結果です。
なお、ブラウザの幅は「最大」にして使うことをオススメします。
EReK のポイントは二つあります。
まず一つめは、KWIC と呼ばれる表示方式です。
KWIC とは "KeyWord In Context" の略で、
中心に検索キーワード、左右に前後の文脈(コンテキスト)を配置することで、
複数の用例を見やすく並べることができます。
コーパス検索システムでよく採用されているインタフェースで、
言語の使われ方をブラウズするのに非常に便利です。
EReK ではキーワードの前後のコンテキストをそれぞれアルファベット順に
ソート(並び替え)でき、類似のコンテキストをまとめることができます。
「キーワードの後ろにどんな単語が来やすいのか」だけでなく
「キーワードの後ろにこの単語が来たら、次にどんな単語が来やすいのか」
といった要求にも答えることができます。
もう一つのポイントは、検索範囲の指定です。
例えば、医学系の単語・表現ならば、医学関連の英語サイトの中から
用例を検索すればノイズも減って良いですよね。
EReK では、将来はこのようなことができるように、
ユーザによる検索範囲指定カスタマイズ機能を用意する予定なのですが、
現在は未提供です。
そのかわり、最低限の範囲指定機能として、
下記の三つの中から選択できるようにしています。
(1) ウェブ全体、
(2) edu ドメイン(教育機関など)のサイトのみ、
(3) ニュースサイト(CNN,ABCなど)のみ。
ウェブ全体だと検索する表現によってはネイティブでない人のテキスト
がほとんどだったりすることもあります。
適宜選択して活用していただけると良いかと思います。
以上、EReK の二つのポイントでした。
ところで、先日、日本で働いている英語圏の方に意見をうかがったところ、
「日本語版も作って欲しい!私にとってはそっちの方が必要!」
との要望を頂きました。
カスタマイズ機能もそうですが、
じわじわと実装していきたいと思っておりますので、
今後ともよろしくお願いします。
次回も EReK のようにウェブ検索機能を活用した便利ツールを紹介します。