まず、機械翻訳の研究の世界では、どのようなことが起こっているのか、教えてください。
隅田英一郎・NICTフェロー(以下、隅田):今、AI(人工知能)の時代ということで、自動翻訳の世界でもニューラルネットワークを使うのが主流になっています。人間の脳の働きを機械に置き換える、深層学習とも言われるものですね。例えば、日本語で「あ、い、う」と言ったら、英語で「A、B、C」になりますよといった翻訳例文をどんどん覚えてさせていくと、少しずつ賢くなっていきます
(関連記事:深層学習AIで自動翻訳にパラダイムシフト)
覚えさせる例文が多ければ多いほど、正確に訳せるようになるというわけですね。
隅田:そうです。こんな単純な仕組みで、どうして翻訳が上手くいくのか不思議に思われるかもしれませんが、この仕組みで翻訳精度が飛躍的に向上しています。
例えば、次のような日本語の文章を従来の方法で翻訳すると、いかにも機械が翻訳したような感じの、よろしくない文章になるんです。
■日本語(原文)
近年のNMTの進展により、従来は自動翻訳が非常に困難だった日本語文章の英語への自動翻訳精度が飛躍的に向上した。
■従来技術(統計翻訳=SMT)で英訳
The Development of NMT in recent years, conventional automatic translation was very difficult to machine translation accuracy of Japanese sentences in English has improved
ところが、これをニューラルで翻訳すると、すごく流暢な訳文になります。
■AI時代の技術(ニューラル翻訳=NMT)で英訳
With the recent development of NMT, the automatic translation accuracy of Japanese sentences that had previously been very difficult to translate has improved significantly.
ただし、ニューラルによる翻訳にも欠点があって、100%の答えを出せるわけではないんです。この例文では、ニューラルによる翻訳だと「英語への」というフレーズが抜け落ちてしまっています。正確に訳すのなら、「translate into English」といったフレーズが入らないとダメですよね。
これが時々重要な単語が抜け落ちてしまうという、ニューラルの典型な誤りです。それが今、大きな課題になっていて、世界中の研究者がこの問題を解決すべく競争しています。
覚えさせるデータを増やせばいいという問題ではないのですか。
隅田:アルゴリズムをもうちょっと整理していく必要があると思います。覚えさせる量が増えればより流暢になるのですが、たくさん覚えさせても、こういう誤りは起きてしまいます。そこは、アルゴリズムの改良が必要と思われています。
ただし、それでも非常に良い翻訳ができるようになったことは事実です。NICTの音声翻訳システムもニューラルに移行したことで、タクシーや買い物などで使った時に意味が通じる翻訳をする率が2割くらい向上しました。非常に効果が出ています。
いただいたコメント
コメントを書く