機械翻訳「問題」について現時点での私見

「画像生成AIはオリジナルをほぼそのまま出力してしまうことさえあるし、ChatGPTもオリジナルをそのまま出力という話は聞かないが(同じGPTが使われてるGitHub Copilotがそのまま出力した例はあるが)デタラメを平気で出力したりするから注意が必要だし、役立てるにはかなりのテクニックが必要。少なくとも『魔法のツール』では無い」と私は思ってますが、「機械翻訳」は問題ないと考えています(あるいはいた)。それについては理由も含めて以下の記事に書いてます。

そのため「生成AI」規制派の人で「機械翻訳も問題」という意見に関しては「それは違う。機械翻訳まで問題と言い出したらそれこそ(あらゆるAIを否定する藁人形のハズの)『反AI』になってしまう」と思ってました。
しかし、そう主張するために上記記事で例に挙げた「人民の人民による人民のための政治」の原文( Government of the people, by the people, for the people )をDeepL翻訳とGoogle翻訳にかけたところ、それがそのまま出力されてしまいました(上記記事執筆時に一応翻訳にかけた時は確か「人民政府」という訳だったと思います)。

画像
Government of the people, by the people, for the people

上記記事中にも書いたように、「人民の~」の場合は有名なため「パターン分析」しかして無くても出力できる可能性はあります。あるいは最初にそう翻訳した人(が誰かはわかりませんが)の著作権が切れたからこの言葉はこう訳すと手動で設定しても問題ない可能性もあります。

とは言え確かに問題がある可能性もあるので現時点での私見を書きます。

まず「機械学習」とは

一口に「機械学習」と言っても色々あります。と言っても私も別にすべて網羅してるとかでは無いですが、基本的に「パターン分析」と言っていいと思います。
例えばスパムフィルターなら「楽して大金GET!!!」「セフレ募集」のようにほぼパターンが決まってるので「どういう単語が含まれてるか」などで分類できます。今のX(Twitter)はそれすら(意図的に?)やって無いですが。
「クレジットカードの不正利用検知」も、普段Amazonで千~三万円程度の買い物しかしてない人がイキナリ化粧品専門通販サイトで20万円の買い物をするとか、「それまでのパターンとは違う行為」を検出する感じになってるハズです (実際にクレジットカード会社でそういうシステムを作ってるとかでは無いので詳細はわかりませんが)。
「AI」と「機械学習」の違いについては、上記記事にも書いたようにそもそも「AI」のハッキリした定義が無いという問題がありますが、(「AI」を「遍く生命から苦痛を取り除く」とか主張する人々を除けば)2023年現在では以下のスライドのように基本的に深層学習という手法を用いたものを指すと思います。

一口に「AI(深層学習を用いたもの)」と言っても「囲碁AI」のように絶対問題を起こさないもの(下手な手を打っても誰かが損害を被る訳では無いし、棋譜は著作物では無く日本将棋連盟などを除けば著作物であるべきと考える人々もいない)もあります。また、それらがやってる事も「パターン分析」の一種と言える可能性もあります。
現在の「機械翻訳」も深層学習を用いてますが、それが「(既存のより優れた)パターン分析」しか行なってないなら問題ないと思います。(特に画像)「生成AI」がオリジナルをそのまま出力してしまうレベルで「データセット」をblender(ミキサー)してるだけのとは違い、「機械翻訳」は大量の文書を読み込んで「こういう文章はこう訳される場合が多い」などの「パターン」を〔学習〕している(だけのハズ)。それこそ「生成AIの〔学習〕は人間の〔学習〕と同じ!」という詭弁とは違い、AlphaGoなどと同じく自律的に〔学習〕(人間とはやり方が違うにせよ)しているので、例え「学習元」が著作物でも「人間も著作物を真似て〔学習〕している」という主張が本当に成立するハズです。

しかし「人民の~」のように「本当にパターン分析しか行なって無いのか?」と疑問が出てくる出力もあります。語学専攻とかでは無いので「英語の名訳」は「人民の~」のような誰でも知ってるものしか知らないので、他の「名訳」もそのまま出力しているかはわかりません。
余談ですが、深層学習が流行る前の「機械翻訳」では、「カナダでは英語とフランス語が公用語で憲法や公文書も両方が用意されているからそれを比較することで従来より正確な翻訳ができるようになった!」とかやってたと大学の講義で聞きました。そうした〔学習〕に関しては(例え公文書のように著作権が無いもの以外だとしても)「パターン分析」の一種で問題ないと考える方が多いのではないか、と思います。

結局「機械翻訳」は問題なのか

しかし現在の最新の翻訳アルゴリズムやソースコードとなると流石に知りません。それでもそれが「パターン分析」の一種なら例え著作物を無断〔学習(パターン分析)〕してても問題ないと思います。
また、以下の検証(と言うと大げさですが)記事にも書いたように、掛け言葉など「機械的」に処理できない翻訳は現在でもできないことを確認しています。

機械翻訳が問題を起こすとすれば、それは「パターン分析」以外の(問題となる)行為を行なっている場合だと思います。「パターン分析」しかして無くても〔学習〕を行なうデータセットが少なすぎて「創作性のある名訳」をそのまま出力してしまったら問題でしょう。ただ画像生成AIと違い翻訳家が「(著作権が切れていない)自分の行なった翻訳がそのまま出力された」と抗議した例は(大手メディアだけでなく個人のTwitter上などでも、私の知る限りは)無いのでおそらく大丈夫だと思います。
ただ以前「翻訳家が職業人生をかけ習得した『この構文はこう訳せ』という指南書をコンピュータに読み込ませれば簡単に真似れる」のようなツイートを見た記憶があります。本当にそういう事例があったのかは知りませんし、人間もその指南書を一度買えば一生それを真似れますが、著者はコンピュータによる利用を想定してないと思うので、もし実際にそういう事例が存在するのなら、「本を(『パターン分析』ではなく)直接参考にした場合はその旨を明記しロイヤリティを払え」のような法整備が必要だと思います。
また、表にあまり出てこないだけで翻訳家も問題視していると言う話も聞きましたが、SNS上の短文など一般利用などまでは反対されて無いそうです。実際それらの翻訳をプロに依頼する人はほぼいないと思うので誰かの不利益に繋がる事は無いのではないかと思います。

結論としては:

  • 機械翻訳の〔学習〕が「パターン分析」しかして無く、それがSNSやWeb上の短文など一般利用のみなら問題ない

  • もし(不正な)〔学習〕をしているなら問題であり、法整備など何らかの対応が必要

  • 現時点では掛け言葉などを考慮したプロの翻訳家のような翻訳ができないのは確か(ただしそれは不正を行なっていたとしてもできないであろう)

なお、DeepL CEOは多くのプロ翻訳者もDeepLを役立てている(から翻訳家を搾取している訳ではない)と主張しています(アンケート調査データなどは載ってませんが)。

もう一つ、「例え不正でない〔学習〕をしていても翻訳家の仕事を奪うなら問題ではないか」という意見もあると思いますが、不正が無ければそれは「自動車が馬車を置き換えた」などと同じ「これまでも新技術は人間の仕事を奪ってきた」であり、それに反対するのはラッダイトと同じという(「生成AI」では成り立たない)主張が成立してしまうと思います。ただ、Wikipediaを見ると機械翻訳に通じることも載っています。

児童労働低賃金などの労働問題や、粗悪品の量産への抗議のパフォーマンスとして、工場の機械を破壊した[3]
(中略)
カール・マルクス資本論でこのラッダイトを批判しており、労働者は「物質的な生産手段」ではなく、「社会的な搾取形態」を攻撃すべきだとした[55]
(中略)
テッド・チャンも、「ラッダイト」の「反技術」のレッテルとしての用法に対して、歴史的な事実に対する誤情報に基づくものとして批判している。(中略)繊維産業全体の信頼を低下させる粗悪品の量産への抗議の側面もあった。(中略)そして現代では、このような史実を無視して、相手を非理性的で無知であると印象付ける中傷に使われていると用法を批判している[3]

ラッダイト運動 - Wikipedia

機械翻訳に置き換えれば、低品質な「翻訳」であるにも関わらずほとんどの人はそれに気づけないため「悪貨は良貨を駆逐する」のごとく翻訳家だけでなく社会全体が不利益を被る、つまり「不正な〔学習〕」を行なってなくても「生成AI」と同じくアタリショックを引き起こす可能性があるとは言えるでしょう。また、ラッダイト運動の時代と違い後期資本主義の現代では「新技術により既存の仕事が無くなっても新しい仕事が生まれる」が成立しない可能性もあるでしょう。
とは言えこれ以上は完全に専門外なのでここまでにします。


いいなと思ったら応援しよう!

Lamron サポートいただけると記事を書く時間や質問に回答できる時間が増えます。

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
買うたび 抽選 ※条件・上限あり \note クリエイター感謝祭ポイントバックキャンペーン/最大全額もどってくる! 12.1 月〜1.14 水 まで
機械翻訳「問題」について現時点での私見|Lamron
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1