古い記事
ランダムジャンプ
新しい記事

文対応付け

2002-10-17-1
古い話でなんだけど、文アライメントの論文 "A Program for Aligning
Sentences in Bilingual Corpora" (Gale and Church, 1993,
<http://citeseer.nj.nec.com/gale93program.html>) の Appendix の C
プログラムは Linux で実行すると落ちる。以下の箇所を修正すれば ok。

- regions[i] → &amp;regions[i]
- hard_regions1[0] → &hard_regions1[0]
- hard_regions2[0] → &hard_regions2[0]
- soft_regions1[prevx] → &soft_regions1[prevx]
- soft_regions2[prevy] → &soft_regions2[prevy]

サンプルファイルがなく、使い方がよくわからなくて苦労した。不親切だ。
ということで、最初の2ユニットが交差する例を作ってみた。

% gcc alisen.c -lm
% ./a.out -V -D '.PARA' -d '.EOS' test-e.txt test-j.txt
% cat test-e.txt
This
is
a
pen
pen
pen
pen
pen
pen.
.EOS
I
am
you.
.EOS
Thank
you!
.EOS
.PARA
% cat test-j.txt
私は
あなた
です。
.EOS
これは
ペン
ペン
ペン
ペン
ペン
ペン
です。
.EOS
どうも
ありがとう。
.EOS
.PARA
Gale & Church 論文の内容は岩波「自然言語処理」(p.522-)に日本語の
解説あり。