古い記事
ランダムジャンプ
新しい記事
Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いていて、今回で5回目になります。
今回はリーズ大学の多言語コーパス検索サイトの話。
こういう活動は頭が下がります。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。

- ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第五回
「リーズ大学の多言語コーパス検索サイト」

この連載の第二回[2007-09-03-1]で紹介した拙作「英語例文検索 EReK」
(http://erek.ta2o.net/) は、
Web API (ウェブ検索API)を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。

今回は、普通のコーパス(ウェブだけではない大量のテキスト)
の検索についてです。

英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 http://corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。

Leeds collection of Internet corpora
http://corpus.leeds.ac.uk/internet.html
画像

上記 URL のページで前述の様々な言語のコーパスを検索できます。
下図は、日本語を指定して単語「けったい」を検索した結果例です。
KWIC (中心に検索キーワードを左右に前後の文脈を配置する表示方式)
で検索結果が表示されます。
ブラウザを最大化して、文字を小さくしてから見ると良いでしょう。

画像

各言語のコーパスは単語レベルの言語解析
(日本語だと「茶筌」による形態素解析)がされており、
コーパス検索結果の単語の上にマウスカーソルを乗せると、
品詞などの単語情報を見ることができます。
下図は、日本語と英語での例です。

例

例

また、品詞指定など検索時に細かい指定ができます。
Help ページ (http://corpus.leeds.ac.uk/help.html) をご覧ください。

ということで、
ウェブページそのものではなく、
しっかりと収集されたコーパスを検索できるサイトの一つとして、
リーズ大学の多言語コーパス検索サイトを紹介しました。
いろんな言語を同時に学びたい人にぴったりかもしれませんね。
この記事に言及しているこのブログ内の記事