2017年2月16日木曜日

Google翻訳、すげぇ

定期試験

僕はGoogle翻訳を定期的にテストしています。早晩、機械翻訳が実用レベルに達すると確信しているからです。さっき、翻訳を試したら、あまりに高い精度なので、びっくりしました。

機械翻訳の勃興

機械翻訳を初めて目にしたのは、Microsoft Developer Network (MSDN)のサイトです。ソフトウェアの開発にかかわる人は、開発環境に関する様々な情報が必要です。インターネットが今ほど発達していない時代、そのような情報を得るのは、とても骨の折れることでした。1990年ころなら、専門書が数冊、1000ページ以内でよかったのですが、Windowsが出てきて、 それが一気に10倍くらいになりました。最悪なのは、それがおよそ2年で陳腐化するのです。そして、ほとんどの情報が最初は英語なのです。
開発環境の劣化は、開発者の減少を招くので、Microsoftは開発環境の整備を精力的に行いました。その取り組みのひとつがMSDNです。最初のMSDNは書籍として提供されました。総重量20Kgくらいありました。あまりにあほらしい量なので、次からは、CDでの提供になりましたけど。
その総重量20Kgの書籍が全部翻訳なわけです。ページ数にして、5万とか10万とかになるので、1ページ1000円で翻訳したとしても億単位のお金がかかります。開発環境なんて、そんなにたくさん売れませんから、コストが回収できません。しかも、時間がかかります。すぐに、翻訳に1年、2年かかるようになりました。開発環境は2年くらいで刷新されるので、開発環境の刷新サイクルと、マニュアル類の刷新サイクルが完全にずれてしまいました。日本語訳の提供は限定され、多くは英語のまま提供されるようになりました。
それでも追いつかなくて、そのうち、Webでの情報提供になりました。Webで順次日本語への翻訳を進めることで、最善の努力で日本語訳が得られるようになりました。しかしながら、それでも追いつかないので、ほとんどの項目は英語でした。
2000年ごろだったかなぁ、突然、日本語訳が多くなりました。しかも、へんてこな日本語でした。翻訳コストをケチって、非日本人に翻訳を外注したのかな、なんて思いました。でも、下の方をよく見ると「このページは、機械翻訳されました」とありました。
その頃は、機械翻訳は意味不明なことが多かったので、英語の原文で内容確認するのが普通でした。もちろん、重要な部分は、優先的に人力で翻訳されてました。ところが、2010年を過ぎたあたりから、すべてのページが、素人翻訳レベルになりました。つまり、機械翻訳がある程度の実用レベルに達したのです。開発環境のマニュアルという限定された対象だと、文法や用語がかなりしぼられるので、翻訳の質を上げやすいという事情があります。さらに、2015年頃には、すべてのページが機械翻訳になりました。
おそらく、これの経緯が機械翻訳の実用レベルで運用の最初の例だと思います。

Google翻訳

コンピュータサイエンスの世界では自然言語の翻訳はとても人気のある研究分野です。古くから多くの研究があります。GoogleはWebから利用できる翻訳サービスを何年も前から提供しています。
結構な精度を達成していて、ちゃんとした日本語を入力すると、ちゃんとした英語に直してくれました。逆に、英語を日本語に翻訳すると、ちょっと違和感がありました。僕らは日本語を母語としているので、日本語のニュアンスの違いに敏感だというのが理由のひとつです。もう一つの理由として考えられるのは、開発者に英語を母語とする人が多いので、英語のちょっとした違いを敏感に修正できるので、必然的に他言語⇒英語の翻訳の開発が先行することです。実際、ロシア語⇒日本語の翻訳は全然ダメです。ロシア語⇒英語、英語⇒日本語はそれぞれそこそこの精度です。でも、ロシア語⇒日本語の場合、ロシア語⇒英語⇒日本語と処理していて、誤差が蓄積するのだと推測されます。
状況が変化したのは、2016年の秋です。GoogleがAI翻訳を導入しました。導入時に試しましたが、そんなにすごいとは思いませんでした。しかし、さっき試して、びっくりしました。精度が極端に上がってる!!

今日の結果

僕のフェイスブックの最近のエントリーでGoogle翻訳を試しました。
https://www.facebook.com/yukihiro.nishikawa.14/posts/1173999572714281?notif_t=like&notif_id=1486083991260932

入力:
こうなってることは、事故直後から様々なデータが暗示していたので、驚きはしません。個人的には滴り落ちた水が心配です。
気になったのは、読売新聞の記事にある「数メートル離れると、推定放射線量は10分の1以下に下がった」の一文。これが観測されるためには、ほぼすべての線源が530Sv/hの付近に密集していなければなりません。ということは、ほぼ全ての核燃料が落下していることを意味します。放射能の封じ込めという点では悪いニュースですが、廃炉作業場所が限定されるという点では、良いニュースです。

出力:
It is not surprising that this kind of data was suggested from immediately after the accident. Personally I am worried about dripping water.
What I became concerned is a sentence in the article of the Yomiuri Shimbun "A few meters away, estimated radiation dose fell below 1/10". In order for this to be observed, almost all sources must be dense near 530 Sv / h. That means that almost all nuclear fuel is falling. Although it is bad news in terms of containment of radioactivity, it is good news in that the location of the waste furnace work site is limited.

これはかなりすごいです。英語と日本語の感性の違いがあるので、ちょっとした違和感は残りますが、十分に理解できます。ちゃんとした文書だと修正が必要ですが、日常会話なら通用します。というか、僕が英語でしゃべるより上手かも?

ロシア語⇒日本語もためしました。こちらはからっきしでした。なんでだろう?

Google翻訳の実力は?

Google翻訳はクラウドサービスなので、時々刻々進歩します。ですが、現時点ですら、大学入試のレベルをかるく凌駕すると、僕は思います。僕の学生で、これほどの英語を書けるのは見たことがありません。少なくとも、語彙はリッチですね。

前節の文例では、that this kindo of data was suggested...に違和感があります。それは日本語の原文があいまいだからだと思われます。because many data, even just after the accident, has suggested this situationというのが本来のニュアンスですが、Google翻訳のような読み方も理論的には可能です。でも、そのレベルのあいまいさが重要になるくらいにまで、到達しているわけです。
後の部分は、違和感はありますが、間違いではない気がします。少なくとも、会話では通じると思います。

さらに、英語にした文章を即座に読み上げる機能もあります。翻訳して、読み上げるということは、writingとspeakingのスキルをコンピュータがやってくれるということです。英語⇒日本語の精度はもう少しな感じですが、時間の問題でしょう。すると、readingも肩代わりしてくれるということです。残るlisteningは、これはすでにかなり良いのです。というのも、英語圏の人々は日常的にスマホに語り掛けているからです。

listening/speaking/writing/readingという4つの言語スキルをすべてコンピュータで代替できる時代が、思っていたよりも早く来そうです。要するに、英語を勉強しなくてよいのです。その代り、僕たちには、英語に自動変換可能な「完璧な日本語を書くスキル」が必要になります。学生の書いたヘボイ日本語は、不正確な英語にしかなりません。あいまいで不完全な文章では、どんなに優秀な翻訳家でも翻訳できないのが道理です。

日本における英語教育は、早急に方針転換すべきだと僕は思います。

関連記事:日本人は英語ができない

0 件のコメント: