古い記事
ランダムジャンプ
新しい記事
ウェブ上で使えるコーパスツールを紹介している連載ブログ記事、
今回で6回目になります。今回のテーマは対訳データです。

なお、この記事は「三省堂辞書サイトのブログ」へも転載という形で
提供していますが、そちらでの連載(転載)は今回で最終回となります。
今後は不定期でこのブログ「たつをの ChangeLog」で更新していきます
(たぶん年内の更新はないでしょう)。

- ウェブコーパス徹底活用 第六回「日英対訳文対応付けデータ」
- Sanseido Word-Wise Web [三省堂辞書サイト]
  http://dictionary.sanseido-publ.co.jp/wp/

§

■ウェブコーパス徹底活用 第六回
「日英対訳文対応付けデータ」

「翻訳メモリ」と呼ばれる一連のソフトをご存じでしょうか。
これは、翻訳者の翻訳支援が主な目的で、
翻訳したい文をキーに過去の翻訳例で似たものを取り出すシステムです。
翻訳作業負荷の軽減、および、翻訳文の一貫性の確保など、
様々な利点があります。

翻訳メモリにとって、
翻訳例(これもコーパスと言えます)がどれだけあるかが重要です。
それも一文対一文の形式(対訳形式)になっていることが望まれます。
そういうデータって、
企業内では「過去のマニュアルの翻訳データ」という形であったりしますが、
オープンな環境ではなかなか入手できないんですよね。

前置きが長くなっていましたが、
今回はオープンな翻訳例(対訳)データの話です。

「プロジェクト杉田玄白」(http://www.genpaku.org) という、
著作権切れなどの英語テキストを
有志が日本語に翻訳するプロジェクトがあります。

情報通信研究機構では、
インターネットの力で作成された貴重なコーパスであるこの翻訳テキストを、
元のテキストと文単位でつきあわせて、対訳文データを作成し、
公開しています。

- 日英対訳文対応付けデータ
  http://www2.nict.go.jp/x/x161/members/mutiyama/align/index.html

検索機能も提供されています。
気になる単語や表現をキーに、
いろいろな翻訳者さんの翻訳例を調べることができるので、
英語の勉強にもなりそうです。

- 日英対応付けコーパスの検索
  http://www.kotonoba.net/~snj/cgi-bin/text-search/text-search.cgi
この記事に言及しているこのブログ内の記事