統計的機械翻訳

宮尾 祐介(情報科学科 助教)

近年,多くのポータルサイトで翻訳機能が提供されており,実際に利用したことがある人も多いだろう。英日や仏日翻訳では突拍子もない訳が出ることが多いが,欧米の言語間ではほぼ実用レベルに達しており,幅広く利用されている。これら現代の機械翻訳システムにおいて中心的な技術が,統計的機械翻訳である。

人間はどのように翻訳を行っているだろうか。たとえば英日翻訳なら,1)英文を読んで意味を理解し,2)その意味を表す日本語文を作成する,というステップが考えられる。機械翻訳においても,1)英文を解析して意味構造を計算し,2)その意味構造から日本語文を生成する,という技術が中心的に研究されてきた。

これに対し,統計的機械翻訳はまったく異なる考え方で翻訳を行う手法である。アイディアはとても単純で,英文eを日本語文jに翻訳する確率p(j|e)を考え,この確率が最大になるjを出力する。この確率を変形すると,

となり,p(e|j)を翻訳確率,p(j)を統計的言語モデルと呼ぶ。直感的には,p(e|j)jeに翻訳される確率,p(j)jが文として出現する確率,すなわち「文らしさ」を表す。p(e|j)p(j)は実際の翻訳例やテキストから推定することができる。

この手法では意味構造や翻訳規則をまったく用いない。しかし,実際にはこの手法の方が従来手法より良い訳を出すことがわかってきた。その理由のひとつは,p(j)により「日本語として自然な文」が出力されることである。大量のテキストを用いることでp(j)をより精密に推定できるため,たとえばGoogleはインターネットのテキスト約2兆語を用いてp(j)を推定し,2006年の機械翻訳コンペティションで優勝している。これは,機械翻訳では意味構造を扱うより自然な文を出力する方が重要であったということを示唆している。

ただし,この手法が成功しているのは欧米の言語など単語や文の構造が比較的似ている言語間の翻訳である。英日翻訳などはまだ実用には遠く,また,近年アジアの言語がさかんに研究されるにつれ,統計的機械翻訳の限界が見えて来ている。理学部情報科学科辻井研究室では,統計的機械翻訳をベースとして,そこにさまざまな構文・意味情報を追加することで,英日など「遠い」言語間の翻訳の性能を上げる研究を行っている。