複雑系翻訳論

※ 以下の文章には高野和明『ジェノサイド』についてのネタバレが含まれます。


機械翻訳についてきちんと勉強したいなあ、と思いつつ、なかなかまとまった時間が取れないので、文献だけ集めて木村屋アンドーナツ食べながらパラパラ拾い読みしているのだけれど、『言語の科学入門』(岩波書店)という本の後ろのほうに、「言語そのものが『複雑系』である」(p.164)とあるのを見つけて、そうだよなあ、複雑系だよなあ、と思いつつ、高野和明『ジェノサイド』を読んでいたら、次のような記述があった。

アキリは指を使って足下の地面に小さな円を描き、落ちていた木の葉を拾って体を起こした。それから腕をいっぱいに伸ばして葉を掲げると、何かを計るように円の周りを動き回り、指を開いて葉っぱを落とした。ひらひらと宙を舞った木の葉は、アキリが地面に描いた円の中にぴたりと着地した。

つまりこの「アキリ」という名前の人は、どのポイントでどんな具合に指を開けば木の葉が円の中に落下するかを極めて短い時間のうちに正確に計算したわけです(かつ計算の結果を実現するだけの身体制御能力も持っている)。でも、こういうことは、吉永良正『「複雑系」とは何か』によると、人間にはちょっと無理なんですね。

舞い落ちる枯葉の軌跡を、確実に予測できる人がいるだろうか。原理的には、初期条件と運動方程式がわかっていればそれは可能なように思える。しかし、現実には枯葉は空気の分子に小さなゆらぎを生じさせるだろうし、そのゆらぎがもとになって分子間の非線形な相互作用が一瞬にして目に見えるほどのマクロな変化を引き起こすかもしれない。

百歩譲って、そのような分子間の相互作用までもコンピュータで瞬時に計算できたとしてみよう。だが、どうやって計算するのか? その計算量たるや、かぎりなく無限に近いにちがいない。どんな高速のスーパーコンピュータでも、一回の演算にはなにがしかの時間がかかる。瞬間点のかぎりなく小さな近傍の時間内に無限に近い回数の演算を行うことは、数学的には可能でも物理的には非現実的なのだ。
(p.30)

でも「アキリ」には、これができる。つまり、「アキリ」は人間以上の存在です。その計算能力は、「スーパーコンピュータ」さえ凌いでる。ちなみに、この「アキリ」、まだ三歳です。こわいですね。

さて、複雑系とは、「『「複雑系」とは何か』」の明快な説明によれば、「無数の構成要素から成る一まとまりの集団で、各要素が他の要素とたえず相互作用を行っている結果、全体として見れば部分の動きの総和以上の何らかの独自のふるまいを示すもの」(p.15)です。木の葉の動きはこうした複雑系の一例ですが、言語のふるまいも、この定義に相当あてはまる*1

では、言語のどこが複雑系なのか。それを考える上でちょっと注意が必要なのは、「言語」という言葉の多義性です。たとえば吉本隆明は、その主著『言語にとって美とはなにか』に対する言語学者時枝誠記ら)の批判を受けて、次のようなことを語っています。

(こうした批判が)ちっとも焦点が合わないと思うのは、表現としての言語というふうに僕が扱っているにもかかわらず、それを要するに言語の芸術としての文学というふうに扱っている、そういうふうに理解しているからだと思うんです。
(『改訂新版共同幻想論』p.23)

これは、『共同幻想論』の序として置かれたインタビューからの引用ですが、何を言っているのか大変わかりにくい。ここで吉本は「表現としての言語」と単なる「言語」を分けているのですが、えー、もう一か所、引用しましょう。

言語学者が言語を扱うという場合に、(中略)言語というものがなにか言語としてある、そういう扱い方をするわけです。しかし僕の考えでは、言語というようなものはないのです。つまり表現されなければそれはないのです。
(同p.20)

ようするに、吉本隆明は、潜在的な言語の存在を否定している。つまり、ソシュールの用語でいう「ラング」の存在を否定しているわけです。そんなものはない、言語として存在していると言えるのは、顕在的な表現としての「パロール」だけだと。

だから、たとえば『言語にとって美とはなにか』中の「言語の意味とは意識の指示表出からみられた言語の全体の関係だ。」というような独得の言い回しに現れる「言語」を、「全体」だとか「関係」だとかの言葉に引きずられて、潜在的な言語体系、すなわち「ラング」の意味にとってはいけない。この「言語」は、あくまで個々の「エノンセ(言表)」を意味します。「全体」も「関係」も、この「エノンセ」の次元の話。

で、「言語が複雑系」という場合の「言語」も、「ラング」ではなくて、この「エノンセ」です。あるいは、「エノンセ」の集積としての「ディスクール(言説)」。「表現としての言語」のふるまいが複雑性を持っているということ。

発話であれ文章であれ、「表現としての言語」が人間どうしの間に生起するという、この現象こそが複雑性の事象であると言えましょう。エノンセの最小単位は、ふつう形態素と呼ばれるものですが、この形態素どうしが結び付き、それが語や文を構成し、さらに複数の文がディスクールや談話や作品と呼ばれる一個の全体を織りなすとき、これを表現として見た場合の意味や価値は、全部の形態素を足し算した以上のものになっている。つまりは複雑系。そういうことです。

はい。ここで機械翻訳の話に移ります。機械翻訳には、いろいろなやり方があるようですが、現在主流の方式は、「Rule-based Machine Translation」(ルール・ベース機械翻訳)というやつ。これは大雑把に言えば、辞書と文法ならびに構文の解析に基づいて機械的に訳文を生成するものです。しかしながら、言語が複雑系であるのなら、このやり方は、うまくいきっこありませんね。なぜなら、複雑系の解析は「物理的には非現実的」であるからです。

ていうかね。身も蓋もないことを言いますと、そもそも、翻訳なんてこと自体、無理なわけですよ。だって、言語は複雑系でしょう。んで、翻訳っていうのは、その複雑系の解析を前提とするわけでしょう。無理ですね。ぜったいに。夢のまた夢。超夢。

――あんた、仕事何してんの?
――翻訳やってます。
――やってんじゃん、翻訳。
――ええ、やってますね、翻訳。
――てことは、あんたら、「アキリ」と同じか? 超人類か?
――なわけないです。ふつうに人類ですね。
――どういうことよ。

こういうことです。人類は、人類である限り、いまだかつて一度も翻訳に成功したことはない。ていうか、人間は、人間である限り、言葉の意味を正確に言い当てることはできない。「舞い落ちる枯葉の軌跡を、確実に予測できる人がいるだろうか」ってことですよ。他人の発する言葉を見たり聞いたりして、その言葉が意味するものを正確に理解する、なんてのは、この予測と同じです。そんなこと、無理なんです。もっと言えば、人間は、誰一人、自分の語る言葉の意味を、ちゃんとわかっていない。というのも、それができるのは、「舞い落ちる枯葉の軌跡を、確実に予測できる」人だけだからです。オイラできる。そんな人がいたら、身の危険を感じて下さい。あなたは「新種の生物」(高野和明『ジェノサイド』)ですから、「バーンズ大統領」(同)に「駆除」(同)されてしまいます。さもないと「全人類が絶滅の危機にさらされる可能性がある」(同)。

もうひとつ言えることがあります。もし「翻訳」が人類には不可能であるとしたら、古今東西「翻訳者」と呼ばれる無数の人間たちによる「翻訳」と呼ばれる無数の活動、そしてその無数の成果物は、そのどれもが全部ことごとく欠陥を抱えている、ということです。奇蹟が起きた場合を除いて、誰ひとり満足な仕事をしていない。翻訳者は全員詐欺師みたいなもん。で、あらゆる翻訳は欠陥翻訳。「翻訳」を「言語を超えた意味の保存」ないし「起点言語と目標言語との間における意味的な等価の実現」と考えている限り、これが事実であることは揺るぎません!

それはさておき、機械翻訳の分野では、見たような「rule-based」のやり方には限界があることがわかって、近頃、「Corpus-Based Machine Translation」(コーパス・ベース機械翻訳)、とりわけ「統計的機械翻訳」というやり方が注目されているようです。こちらの方式では、辞書のクオリティや規則の記述や構文の解析ではなく、その名の通り、「コーパス」と呼ばれる対訳資料体の質と量が死活的に重要になります。「統計的機械翻訳」は、大量の対訳データに基づいて、確率的に訳文を確定するという方式だからです。

これは、解析というプロセスを省いているのであれば、とても賢明なやり方だと思われます。でも、この機械も、やっぱり欠陥翻訳以外の訳文をアウトプットしないでしょう。

だって、この方式のベースとなる対訳データを作ったのはだれですか? 言うまでもなく、人間でしょう。統計的翻訳機械のパラレル・コーパスは、人間が過去に行ってきた翻訳の集積なのです。けれど、人間はいままで一度も翻訳に成功したことはないのでしたね。ていうことは、この方式を使った機械翻訳でも、正確な翻訳にはならないっていうことです。

いや、別に「正確な」翻訳でなくてもかまわない、人間レベルの翻訳でじゅうぶんだ、という考え方が当然可能ですね。ていうか、人間レベル上等です。文明は、この人間レベルの不完全な翻訳によって、それなりにうまく回ってきたわけですから。

けれど、この統計的機械翻訳でも、人間的翻訳の水準には、まず到達しないと思われます。なぜでしょう。

まず言えるのは――これは「rule-based」の機械翻訳についても当てはまることですが――「初期条件」の問題についてです。

どういうことかと言うと、人間の翻訳者は、翻訳の際、翻訳対象のテキストだけを見て翻訳しているわけではない、ということです。その文章が誰によって、誰に向けて、何のために書かれたのかというメタ情報を参照している。たとえば、このテキストは法律の文章だから、この「article 34」は「品目34」ではなくて「第34条」に違いない、というような推論を無意識的に行っている(←あまりいい例ではない)。参照先は、関係する他の文書であったり、自分の過去の経験や知識であったり、あるいは一般常識であったり、いろいろでしょうが、とにかく人間は、テキストそれ自体には書かれていないこと――広い意味での文脈――を参照しながら翻訳します。けれど、自動翻訳機には、それができません。材料は、インプットされた原文のテキストだけですから。

人間が作成する文章は、その多くが、意識的にであれ、無意識的にであれ、対象者を限定しています。その帰結として、対象者にとって自明なことは、くだくだと書かれない。仲間内でしか通用しない符丁や略号が使われたりすることも少なくない。

たとえば、ある文章に「PNB」という略号が出てきたとします。これはふつう、「Produit National Brut」(国民総生産)である確率が高い。けれど、この略号が銀行の決算書に出てきたのなら、それと並んで、「Produit Net Bancaire」(業務粗利益)*2という可能性が浮上する。

これに関しては、原文だけではなく、文章に関するメタ情報(ジャンル等)を翻訳機にインプットできるようにすれば改善される(けれどこの場合、「全自動翻訳機」とは言えなくなる)でしょうし、あるいは、狭義の文脈(翻訳対象テキストに含まれる情報)から確率的に判断することができるのかもしれません。けれど、確率は低いかもしれませんが、「PNB」が銀行の決算書以外の場面で「Produit Net Bancaire」の略号として、あるいは逆に、銀行の決算書において「Produit National Brut」の略号として使われることもある。この場合、人間は、あらゆる文脈を動員することによって、確率の低い訳語を選ぶことができます。けれど、統計的翻訳機械は、定義上、確率の低い訳語を選ぶことができません。

あるいは、「participation à la pollution」という表現があったとします。統計的翻訳機械は、ほぼ100%の確率で、これを「汚染への寄与」と訳すはずです。というのも、人間の翻訳者も、99%の場面において、そう訳すはずだから。つまり、この訳文の出現確率は極めて高い。けれど、人間の翻訳者は、原文を文脈と常識に照らすことによって、1%の場面において、この表現が少々舌足らずな言い方をしているだけで、本当は「汚染削減への寄与」と言いたいのだな、と判断できる。

ようするに、ほとんどの文章は、その文章を読んだだけで完全に理解できるようには作られていない。テキストは、テキストだけで完結していないのです。けれど、翻訳機械は、与えられたテキストをそれだけで完結したものと見なさざるを得ない。

さらに言えば、たとえ統計的機械翻訳であれ、言語の解析過程は、まったく不要というわけではないでしょう。統計的機械翻訳の肝である対訳データを作成する場面において、この解析という作業が絶対行われているはずなのです。起点言語のある要素と目標言語のある要素を対応させるには、こうしたツイニングの前提となる要素の切り出しが欠かせません。言表や言説のどこで区切るか、何と何を対応させるか、ということ。連続体としての言語活動に切れ目を入れるこの切断は、翻訳のアウトプットの場面で、その逆の過程、つまり連結というプロセスを必要とします。そして、この切断と連結、分析と総合の過程において、統計的機械翻訳は、必ずや複雑系的な複雑さに触れることになる。なぜなら、切断と連結という過程は、そのためどんなに鋭利な刃物を使ったとしても、たとえ数ミクロンの厚さでしかないとしても、言語の身体の一部を取り去ってしまうからです。つまり、corpus(資料体)は欠損したcorpus(身体)なんです。そして、この目に見えない数ミクロンの欠損による二つのcorpus間の差異が、複雑系である言語においては、その意味作用の場面で指数関数的に増大し、さらには訳文と原文との間に途方もない差異を作り出すかもしれないのです。

繰り返しになりますが、この単位の確定作業は、統計的機械翻訳において不可避です。なぜなら、単位を切り出さなければ、パラレル・コーパスには、過去に人類が作成したあらゆる文章と将来に人類が作成するであろうあらゆる文章を収めておく必要があるからです。「バベルの図書館」のように。

『ジェノサイド』に出てくる新人類は、複雑系のふるまいを計算できるほど知能が発達しています。そんな頭のいい彼らですから、その使う言語も、とても複雑です。日本語をもとにした人工言語を使うシーンがありますが、その言語は、なんと非線状性を持っている。つまり、自然言語のように、発話を構成する語群が時間軸に沿って一直線に並んでいない。言葉の中にxyz座標の指定が組み込まれていて、その指定に従って、三次元空間を自由に行き来することができるのです。彼らは、こうした3D言語を使い、その名も「複雑論理」と呼ばれる新たな公理系で推論する。たぶん自動翻訳機を実現するには、こうした「複雑論理」の習得が必要になる。でも、こんな論理やこんな言語を使いこなすのは、「我々の脳では無理?」(『ジェノサイド』)。


関連エントリ自動翻訳機が実現しない理由、エッセンスのナンセンス、物語に拮抗する文体――平野啓一郎×西垣通×前田塁「テクノロジーと文学の結節点」を読む - 翻訳論その他

*1:吉永良正によれば、複雑系に取り組む上で「要素的な部分を独立させることが可能であるという見方と、部分の重ね合わせから全体が出てくるという見方」、すなわち「線形思考」(p.174)がネックとなる。つまり、「全体は部分の総和ではない」(p.107)という認識が大事であるということですが、ほぼ同じことを、別宮貞徳が、直訳批判の場で指摘しています。「そもそも原文を一語一語の末までバラバラに分解して、それぞれの意味をつなぎなおすという方法自体がおかしい」(『翻訳と批評』の「第一章 直訳の迷妄」の「三 全体は部分の集合ではない」、講談社学術文庫p.34)。

*2:字義的に訳すと「銀行純利益」となります。また、経済フランス語辞典(白水社)にも「銀行純利益」と出ています。けれど、「銀行純利益」という訳語を見た業界関係者の多くは、これを誤って「業務純益」の意味で受け取ると思われます。しかしながら、「Produit Net Bancaire」の定義を読むと、むしろ日本語で「業務利益」と呼ばれる概念に近いことが分かります。