たつをの ChangeLog

6 件 見つかりました。

1 2 [ 次へ ]

ウェブ上で使えるコーパスツールを紹介している連載ブログ記事、
今回で6回目になります。今回のテーマは対訳データです。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますが、そちらでの連載(転載)は今回で最終回となります。
今後は不定期でこのブログ「たつをの ChangeLog」で更新していきます
(たぶん年内の更新はないでしょう)。

- ウェブコーパス徹底活用 第六回「日英対訳文対応付けデータ」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第六回
「日英対訳文対応付けデータ」

「翻訳メモリ」と呼ばれる一連のソフトをご存じでしょうか。
これは、翻訳者の翻訳支援が主な目的で、
翻訳したい文をキーに過去の翻訳例で似たものを取り出すシステムです。
翻訳作業負荷の軽減、および、翻訳文の一貫性の確保など、
様々な利点があります。

翻訳メモリにとって、
翻訳例(これもコーパスと言えます)がどれだけあるかが重要です。
それも一文対一文の形式(対訳形式)になっていることが望まれます。
そういうデータって、
企業内では「過去のマニュアルの翻訳データ」という形であったりしますが、
オープンな環境ではなかなか入手できないんですよね。

前置きが長くなっていましたが、
今回はオープンな翻訳例(対訳)データの話です。

「プロジェクト杉田玄白」(http://www.genpaku.org) という、
著作権切れなどの英語テキストを
有志が日本語に翻訳するプロジェクトがあります。

情報通信研究機構では、
インターネットの力で作成された貴重なコーパスであるこの翻訳テキストを、
元のテキストと文単位でつきあわせて、対訳文データを作成し、
公開しています。

- 日英対訳文対応付けデータ
  http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html

検索機能も提供されています。
気になる単語や表現をキーに、
いろいろな翻訳者さんの翻訳例を調べることができるので、
英語の勉強にもなりそうです。

- 日英対応付けコーパスの検索
  http://www.kotonoba.net/~snj/cgi-bin/text-search/text-search.cgi
この記事に言及しているこのブログ内の記事

Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いていて、今回で5回目になります。
今回はリーズ大学の多言語コーパス検索サイトの話。
こういう活動は頭が下がります。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。

- ウェブコーパス徹底活用 第五回「リーズ大学の多言語コーパス検索サイト」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第五回
「リーズ大学の多言語コーパス検索サイト」

この連載の第二回[2007-09-03-1]で紹介した拙作「英語例文検索 EReK」
(http://erek.ta2o.net/) は、
Web API (ウェブ検索API)を使って、
「ウェブ全体を巨大な一つのコーパスとみなす」ことにより、
コーパス検索を可能にするサービスでした。

今回は、普通のコーパス(ウェブだけではない大量のテキスト)
の検索についてです。

英国のリーズ大学 (University of Leeds) では、
英語、中国語、フランス語、日本語などの様々な言語の
大規模コーパスを作成しています
(参考 http://corpus.leeds.ac.uk/list.html)。
ここでは、これらのコーパスを検索するインタフェースについて解説します。

Leeds collection of Internet corpora
http://corpus.leeds.ac.uk/internet.html
画像

上記 URL のページで前述の様々な言語のコーパスを検索できます。
下図は、日本語を指定して単語「けったい」を検索した結果例です。
KWIC (中心に検索キーワードを左右に前後の文脈を配置する表示方式)
で検索結果が表示されます。
ブラウザを最大化して、文字を小さくしてから見ると良いでしょう。

画像

各言語のコーパスは単語レベルの言語解析
(日本語だと「茶筌」による形態素解析)がされており、
コーパス検索結果の単語の上にマウスカーソルを乗せると、
品詞などの単語情報を見ることができます。
下図は、日本語と英語での例です。

例

例

また、品詞指定など検索時に細かい指定ができます。
Help ページ (http://corpus.leeds.ac.uk/help.html) をご覧ください。

ということで、
ウェブページそのものではなく、
しっかりと収集されたコーパスを検索できるサイトの一つとして、
リーズ大学の多言語コーパス検索サイトを紹介しました。
いろんな言語を同時に学びたい人にぴったりかもしれませんね。
この記事に言及しているこのブログ内の記事

Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いています。
今回はカタカナから英語スペルを調べるサイト「うろぼえ」を紹介します。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。

- 第四回「カタカナから英語スペルを調べる『うろぼえ』」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第四回
「カタカナから英語スペルを調べる『うろぼえ』」

英文を書くときに悩むのが、英語のスペルです。

ワードをはじめ、
多くのエディタソフトには英語のスペルチェック機能がついており、
だいたいの綴りが分かれば正しい綴りが分かったりします。
「Lだっけ、Rだっけ?」程度の曖昧さなら、
とりあえず入力してみれば何とかなります。

しかし、全体的に曖昧な綴りってありますよね?
発音は分かるんだけど英語で書こうとすると、
まったく分からなくなる単語ってありませんか?
英語から見ての外来語などの多くがこれですね。
そういう単語って「発音」が頭の中にカタカナ化されて格納されているので、
英語で書こうとするときにものすごく悩みます。

そういうときに便利なのが「うろぼえ」です。
「うろぼえ」はカタカナ表記から元の英単語スペルを調べるサービスです。

uroboe うろぼえ - うろおぼえなカタカナ単語から英単語のスペルを探すよ
http://uroboe.seewee.net/

仕組みは、
Yahoo!ウェブ検索APIを使用し、
調査対象のカタカナ語でネットを検索し、
検索結果に含まれるアルファベット表記の単語(頻繁に共起する単語)
を取り出す、というものらしいです。
カタカナ表現の近くにそれのアルファベット表現がありがちであろう、
という仮説に基づいたデータマイニングですね。

下図は「サドンデス」の綴りを調べた例です。
複数の候補が出てきますが、
その中にちゃんと正解である「Sudden Death」も含まれています。
そうでないものもたくさん出てきてしまいますが、
自分の目でフィルタリングしましょう!

画像

うろぼえは、
特に時事ニュースの人名の綴りを調べるときに威力を発揮します。
われわれにはちょっとなじみの薄いアラブ、アフリカの人名や、
漢字表記・カタカナ表記は見慣れているけど英語表記をどうしたらいいか
困ってしまう中国、韓国系の人名などなど。
例えば「ゴルバチョフ」「アラファト」「毛沢東」「金正日」などで
調べてみて下さい。

もちろん、仕組み上、精度は完璧ではありません。
的外れな結果が出てくることも多々あります。
しかし、ネットユーザの力を利用するという
Web 2.0的なアプローチが未来を感じさせます。
いろいろと調整が行われれば、
広範囲の分野で実用的に利用できるサービスに成長していくと思います。
この記事に言及しているこのブログ内の記事

Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いています。
今回は英文校正サイト NativeChecker を取り上げます。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますので、そちらでもお楽しみ下さい。

- 第三回「英文校正サイト NativeChecker」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

ちなみに Sanseido Word-Wise Web によれば、明日19日は、
子供向けかと油断すると結構エグいサバイバル小説「蝿の王」[2004-06-15-4]
著者ウィリアム・ゴールディングの生誕日だそうです。

§

■ウェブコーパス徹底活用 第三回「英文校正サイト NativeChecker」

今回は、英作文に役立つ英文校正ツールの紹介です。

英作文で一番やっかいなのは on, with, for, of などの前置詞です。
受験勉強で散々やった超基本的な表現でもときどき悩んでしまいます。
例えば「木製」の訳が「made of wood」なのか「made from wood」なのかなど。

こういうときはウェブ検索サイトが便利で、
前置詞を置き換えたパターンで次々と検索していけば、
検索ヒット数で確からしさが分かります。
しかし、「of」か「from」かなどの二択ならともかく、
候補が曖昧なときには試行回数が増え、
どう考えても面倒くさいです。

このような作業を自動化したのが、
浜本階生さんによる「NativeChecker」です。

英文校正サイト [NativeChecker]
http://native-checker.com/

前置詞だけでなく、
スペルミスや時制などの文法チェックや、
類義語の提示なども行ってくれます。
今年の春から夏にかけて開催された、
Yahoo!JAPAN WEB APIコンテストで賞を取っているすぐれものです。

基本的な使い方を簡単に説明しておきます。
入力サンプルにもある "made by wood" で見てみましょう。
「made by wood」と入力すると、
ウェブでの出現頻度と、
「made (過去分詞) by (前置詞/従属接続詞) wood (名詞(単))」と
品詞が振られてものが表示されます(スペルミスがあれば波線が引かれます)。

ここで、
前置詞の部分を様々なバリエーションに換えて出現頻度を調べたい場合、
「by」をクリックして出てくるメニューで「その他の表現」を選択します。
すると図1のように、
いろいろな前置詞によるパターン(とその出現頻度)が表示されます。

画像

また、
「made」をクリックすると、
「類義語」や「活用形」などのバリエーションが選択できます。
図2は、made の類義語を展開したパターンで出現頻度を調べたものです。

画像

ウェブでよく現れる表現ほど自然な英語表現に近いとみなす、
つまり、ウェブをコーパスとみなすことにより、
ここまで便利なツールができてしまうとは驚きです。
可能性のある英語表現を片っ端から自動で調べてみるという大胆な方法が、
この用途にぴたっとはまっていますね。
この記事に言及しているこのブログ内の記事

Web上のテキストデータをコーパスとして見る、
というテーマでブログ記事を書いています。
今回は手前味噌ながら EReK (http://erek.ta2o.net/)を取り上げます。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供しています。そちらでもお楽しみ下さいませ。

- ウェブコーパス徹底活用 第二回「英語例文検索 EReK」」
- Sanseido Word-Wise Web [三省堂辞書サイト]
http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第二回「英語例文検索 EReK」

ウェブ検索で英単語や英語表現を検索し、
実際の使われ方を調べるという行為は、
ウェブ検索が登場した当初から盛んでした。
私も90年代中ごろ、英語論文と格闘するときによくやってました。

それを思い出して私が作ったサービスが
「英語例文検索 EReK」(http://erek.ta2o.net/)です。

米 Yahoo! が提供している Web API (ウェブ検索API)を使っています。
ウェブ全体を巨大な一つのコーパスとみなして、
入力された英語表現(キーワード)の実際の使われ方を提示するサイトです。

実際の検索例を挙げておきます。"made from" で調べた結果です。
なお、ブラウザの幅は「最大」にして使うことをオススメします。

画像

EReK のポイントは二つあります。

まず一つめは、KWIC と呼ばれる表示方式です。
KWIC とは "KeyWord In Context" の略で、
中心に検索キーワード、左右に前後の文脈(コンテキスト)を配置することで、
複数の用例を見やすく並べることができます。
コーパス検索システムでよく採用されているインタフェースで、
言語の使われ方をブラウズするのに非常に便利です。

EReK ではキーワードの前後のコンテキストをそれぞれアルファベット順に
ソート(並び替え)でき、類似のコンテキストをまとめることができます。
「キーワードの後ろにどんな単語が来やすいのか」だけでなく
「キーワードの後ろにこの単語が来たら、次にどんな単語が来やすいのか」
といった要求にも答えることができます。

もう一つのポイントは、検索範囲の指定です。
例えば、医学系の単語・表現ならば、医学関連の英語サイトの中から
用例を検索すればノイズも減って良いですよね。

EReK では、将来はこのようなことができるように、
ユーザによる検索範囲指定カスタマイズ機能を用意する予定なのですが、
現在は未提供です。
そのかわり、最低限の範囲指定機能として、
下記の三つの中から選択できるようにしています。

(1) ウェブ全体、
(2) edu ドメイン(教育機関など)のサイトのみ、
(3) ニュースサイト(CNN,ABCなど)のみ。

ウェブ全体だと検索する表現によってはネイティブでない人のテキスト
がほとんどだったりすることもあります。
適宜選択して活用していただけると良いかと思います。

以上、EReK の二つのポイントでした。

ところで、先日、日本で働いている英語圏の方に意見をうかがったところ、
「日本語版も作って欲しい!私にとってはそっちの方が必要!」
との要望を頂きました。
カスタマイズ機能もそうですが、
じわじわと実装していきたいと思っておりますので、
今後ともよろしくお願いします。

次回も EReK のようにウェブ検索機能を活用した便利ツールを紹介します。

1 2 [ 次へ ]

たつをの ChangeLog
Powered by chalow