新しいグーグル翻訳と翻訳者の失業

仕事が一段落したので、話題の新Google翻訳を試してみる。まずは古典的な例文を投入。上が入力、下が出力(以下同様)。

1) He saw a woman in the garden with a telescope.
彼は望遠鏡で庭の女性を見た。

おー。

2) He saw a woman with a hammer.
彼はハンマーで女性を見た。

あー。

3) 彼は世界中に友達がいる。
He has friends all over the world.

おー。

4) 彼は日本中に友達がいる。
He has a friend in Japan.

あー。

フランス人翻訳者の日仏翻訳をチェックしていると、ときどき連体修飾節に関する判断を誤っているのに出くわす。たとえば、「サリンが分解した物質」という日本語文で、「分解する」を他動詞と判断し、「サリンが分解した」と「物質」の関係を内の関係ととらえてしまう。でもこれは実際は「サリンが分解した結果生じた物質」、つまり自動詞かつ外の関係なのである。ここには二重の曖昧性がある。グーグル翻訳ではどうなるか。

5) サリンが分解した物質
Substance decomposed by sarin

失敗だ。もうひとつ試してみよう。

6) 彼は新聞を買ったお釣りを落とした。
He dropped the fishing that bought the newspaper.

「お釣り」が「フィッシング」とされている。で、その「フィッシングが新聞を買った」。一見なんの変哲もない文だけれど、じつは曖昧であることが機械にかけるとはっきりする。

訳文で直訳的な構文を採用した場合において、その構文が成り立つうえで必須の情報が原文に欠けているときも、人手で誤訳の可能性が高まる。たとえば、いわゆる「主語の省略」のある日本語文を仏語や英語に訳す場合、非熟練翻訳者は物理的に近いところにある名詞を無理やり引っ張ってきて訳文の主語に据えたりする。5のような外の関係も、場合によっては情報の欠落したケースと考えることができるかもしれない。次の例は内の関係と解釈できるけれど、動作主情報が欠落している。どうなるか。

7) 抱かれたい男
The Man Who Wants to be Embraced

原文で「(女性がその男に)抱かれたい」という意味が、訳文では「(その男が誰かに)抱かれたい」という意味に変わってしまった*1。文にしてみる。

8) 今年の抱かれたい男は斎藤さんです。
Saito is the man that I want to embrace this year.

「斎藤は今年私が抱きたい男です」。主語として「I」が補充された。あと、「抱かれたい」が「抱きたい」になっている。つまり受身が能動態に訳されている。

9) 今年抱きたい男は斎藤さんです。
Saito is the man that I want to embrace this year.

上とまったく同じ訳文が生成された。「れる・られる」は能動態に訳されがち? いや、そういうわけではないようだ。

10) 猫に足を噛まれた。
The cat was bitten by my feet.

受動態。ただし、噛む・噛まれるの関係がひっくりかえってる。「猫が私の足に噛まれた」。不条理だ。似たような文を入れてみる。

11)猫に足を噛まれる。
Cats are bitten by a cat.

「猫」が分裂した。こうした分裂は「斎藤さん」文のバリエーションでも起きる。

12) 一昨日、本年の抱かれたい男が斎藤氏に決定した。
The day before yesterday, Mr. Saito decided Mr. Saito to be embraced this year.

よく分からない。

現状、機械翻訳は文単位のペアで学習しているということなので、先験的な話だと思うけれど、文間の結束性や照応、文より広い文脈は考慮されない(この点については2016年9月27日付のGoogle Research Blogでも指摘されている)。でもいちおう試す。夏目漱石は欧文脈の比較的シンプルな文章を書く。「道草」の一節を訳してもらおう。

13) 彼は途々自分の仕事について考えた。その仕事は決して自分の思い通りに進行してい なかった。
He has always thought of his work. The work never progressed as I intended.

1文目の「自分」は「his」と正しく訳されているが、2文目の「自分」が「I」になってしまった。

次は「吾輩は猫である」から、有名な出だしの部分。

14) 吾輩は猫である。名前はまだ無い。
I am a cat. There is no name yet.

一昔前の翻訳ソフトで、実際にこう出力するものがあったらしい。これなんか、翻訳結果を日本語に訳し戻して、

15) I am a cat. There is no name yet.
私は猫です。名前はまだありません。

となるのを確かめて、「完璧?」とか思う人もいたりして。

英仏翻訳も試してみる*2Google Research Blogで、英仏は高い精度が掲げられている(人手評価)。まずは従来型のシステムでもある程度うまくいきそうなものから。Noam ChomskyのSyntactic StructureのPrefaceの冒頭の2行。

16) This study deals with syntactic structure both in the broad sense (as opposed to semantics) and the narrow sense (as opposed to phonemics and morphology). It forms part of an attempt to construct a formalized general theory of linguistic structure and to explore the foundations of such a theory.
Cette étude traite de la structure syntaxique à la fois au sens large (par opposition à la sémantique) et au sens étroit (par opposition à la phonémie et à la morphologie). Elle s'inscrit dans une tentative de construire une théorie générale formalisée de la structure linguistique et d'explorer les fondements d'une telle théorie.

かなりいい感じである。原文の「(in) the narrow sense」が、きちんと「au sens étroit」と訳されている。また、2文目の主語代名詞(Elle)の性が、1文目の主語(Cette étude)と偶然にも一致している。

では、英仏語間で逐語訳ができないような文はどうだろう。たとえばフランス語は、能動態の文で間接補語になる要素を主語にして受動態の文を作ることができない。だから、英語の「He was laughed at.」のような簡単な文でも訳すのに工夫がいる。

17) He was laughed at.
On le riait.

Onを主語にして能動文に直すのはいいとして、rireは自動詞または間接他動詞だから、この文は無理(On riait de luiとかならいい)。

18) He was laughed at by all of his classmates.
Tous ses camarades de classe se moquaient de lui.

成功。ただし、受動態を能動態に直しているので、単独の文なら問題ないけれど、文章に組み込まれると流れが悪くなる場合もあるだろう。

19) Thomas was laughed at by everybody.
Thomas se moquait de tout le monde.

こちらは失敗。「トーマスはみんなに笑われた」が「トーマスはみんなのことを笑っていた」になっている。

20) The doctor was sent for.
Le médecin a été envoyé pour.

これも失敗。受動態のまま逐語訳するとこういう感じになる。フランス語文として破綻。

別の構文も試そう。フランス語は、英語と違い、間接補語には基本的に前置詞を付けなければならない。だから英語の二重目的語構文のように名詞を並べることができない。

21) Thomas sold Mary his car.
Thomas vendit à Mary sa voiture.

22) Thomas sold Alfred his car.
Thomas a vendu Alfred sa voiture.

メアリーに売るのは成功、アルフレッドに売るのは失敗。同じ構文でも結果が違ってくるのは、ニューラルネットワークを使った機械翻訳では統辞構造を考慮しないという話だから、当然といえば当然なのだろう。

最後、仏英翻訳は精度が高いということなので、少し長めのフランス語文を英語に訳し、それをさらに日本語に訳してみる。

23) Secteur prospère, qui ne pâtit pas d'un environnement politique consternant, la beauté développe des dispositifs très divers pour convaincre de ses talents une clientèle essentiellement féminine, mais où l'homme prend une place grandissante : les codes des aménagements intérieurs, comme ceux des aspects graphiques et de flaconnages intègrent désormais cette dimension.
A prosperous sector, which does not suffer from an appalling political environment, beauty develops very diverse devices to convince its talents of a predominantly female clientele, but where man takes a growing place: codes for interior fittings, such as those for Graphic and flask aspects now integrate this dimension.

24) A prosperous sector, which does not suffer from an appalling political environment, beauty develops very diverse devices to convince its talents of a predominantly female clientele, but where man takes a growing place: codes for interior fittings, such as those for Graphic and flask aspects now integrate this dimension.
悲惨な政治環境に苦しんでいない繁栄した部門は、優秀な女性顧客の才能を納得させるために非常に多様なデバイスを開発していますが、人間が成長を続ける場所:グラフィックやフラスコのような内部装備のコード 今この次元を統合する。

まず仏英の段階で原文の2つの目的語の関係が入れ替わってしまった(「convaincre A de B」→「convince B of A」)。英日の後半部は支離滅裂。拙訳は下のとおり。

ショッキングな政治情勢にも動じることなく、繁栄を続ける化粧品業界。この業界は、さまざまなやり方で、自分たちの魅力を消費者に訴えている。主なターゲットは女性客。だが、男性客も増加傾向にある。それゆえ、グラフィック・デザインや容器のみならず、内装のコンセプトにおいても、いまや男性客が意識されている。

新しいGoogle翻訳では、「今年の抱かれたい男は斎藤さんです。」と「今年抱きたい男は斎藤さんです。」が同じ英文に訳される。「トーマスはみんなに笑われた」という意味の英文が「トーマスはみんなのことを笑っていた」という意味の仏文に訳される。注意力が散漫な人みたいだ。人間の翻訳者が原文をざっと流し読みして、あとは記憶だけに頼って訳文を作ったらこうなるのではないかというような。記憶だから当然、モレがある。細かいつながりも忘れている。「おおまかな訳」という意味で使われる「意訳」に近いといえるかもしれないけれど、大意の把握だとか、内容を理解した上での要約だとか、そういうのとは違う。もっとふわっとしたもの。そんな印象。

以上、現状確認。

ところで、このあいだ、こういうタイトルの仏語ブログ記事を見つけた。「テクノロジーが翻訳者を失業させる?

ただし、2015年2月24日付の記事なので、統計的機械翻訳の話が中心。2人の研究者の言葉が紹介されている。まずはモントリオール大学で自然言語処理を研究しているPhilippe Langlais教授。この人はこう言っている。「(コンピュータが人間の翻訳者と同じくらい有能になるのは)不可能だと思う。そんなことができるとすれば、人工知能の問題も解決している」。

もう一人、モントリオール理工科大学のMichel Gagnon教授によれば、統計的機械翻訳でも「80%、いや90%のスコアも達成できるだろう。残念ながら、あと10%がアルゴリズムでは難しい。そして多くの場合、この10%が理解の肝になるのだ」

その一方で、こういう事実もまた厳としてある。「西洋史を見れば、80パーセントなり90パーセントなりのそこそこの翻訳が文化を動かしてきたと言って過言ではありません」(柴田元幸「翻訳――作品の声を聞く」『知の技法』p. 64。原文は「そこそこ」に傍点)。

きっと近い将来、ニューラルネット機械翻訳を使えば、だれでも外国語の内容が「そこそこ」分かるようになる。文化的、経済的、その他もろもろ、インパクトがないわけがない。

翻訳の仕事はどうなる? ちゃんとしたエージェントの場合、むしろ増えるのではないかという気がする。これは和訳の話だけれど、お金を払って翻訳の仕事を発注する人っていうのは、大抵「そこそこ」原文が読める。ものすごく読める人もいる。まったく読めないと発注できない。Google翻訳のおかげで、「そこそこ」読める人が増える。発注者予備軍が増えるということだ。「そこそこ」読んでしまえば、きちんと読みたくなる。それが人情というものだ(?)。



例文の画面キャプチャはここにまとめた。

*1:ちなみに「女性が抱かれたいと思っている男」で試すと「A man who wants to be held」となり、「女性」が訳されない。こうした「訳漏れ」が起きることも2016年9月27日付のGoogle Research Blogに書いてある

*2:仏日・日仏はまだ稼働していない