見出し画像

AIの設定に入れると「書いて」で誤訳されなくなるガバナンス設計

この記事の完全版はこちら。

今日は日米誤訳問題やります。


この記事を昔書いたときに、自称AI専門家たちがXなどで「こいつのいうことは間違ってる!」と口々に言われていたのですが、その時は「昔習ったことにひきづられて現状が見えてない人がいるな」という程度でスルーしていました。

GPT出力劣化の完全メカニズム解明-日本語の書いての3文字が全てを崩してた-|viorazu.com

内容は、日本語で書いてとAIに指示をすると日本語の「書いて」が多義語で膨大な意味を持つのに対して英語は1単語1つの意味しかないせいで英語で内部処理を行ってるAIは英語の「書いて」の意味のどれかに当てはめて考えてしまうので、日本人の書いてと言う言葉に含まれる意味と違う処理をしてしまうというものでした。

  • Polish: 仕上げの微調整、表現をなめらかにする

  • Refine: 不要部分を削り、精度を高める

  • Edit: 全般的な編集、誤字修正から大幅改変まで幅広い

  • Revise: 内容や構成を再検討して修正

  • Rewrite: 大きく書き直す(意味も変わることあり)

  • Rephrase: 同じ意味を別の言い回しで表す

  • Reword: 特定の単語や表現を置き換える

  • Paraphrase: 意味を保ったまま言い換える

これは全部「言葉の操作」なんですよ。表面を変えるためのもの。でも日本語は英語と違って「言葉の表面よりも言葉の骨組み」を重視するようにできてるので、表面を操作する言葉が存在しないんです。

だから「誤訳が生じる」と私は表現しました。

「英語で作られたAI(=学習素材のほとんどが英語)が日本語を処理しようとするときに英語の概念で処理をしてしまって日本語なのに英語のような表現になるから、言語構造上『日本語にしたときに意味が変わる』から誤訳」と言ったんです。

技術的に正確に言うと、LLMは言語間で「翻訳」という処理を明示的にやってるわけじゃない。多言語を統一的な潜在空間で処理してる。だから「内部翻訳」という表現はただの比喩。

自称AI専門家たちは「メカニズムの説明の不正確さ」を指摘して「現象が存在しない」という結論に飛んだ。観察された事実が大勢の実感としてあったから、逆に素人の一般ユーザーから見たときに彼らの主張が薄く見えた。その結果彼らが妙に私を恐れていたんですよ。

「嘘を言う人間の言葉が信じられている」と。

本来は自分たちが先に見つけるべきことを、理系の人間よりも先に文系らしき人間が言い出したことに対して反発してるように見えました。誰も言葉の話をしていなかったから。だから彼らが機械的な話をすればするほど一般人が彼らから遠のいた。

・言葉の話をする一般人
・機械的な話をする自称AIに詳しい人
・言葉と機械の間の話をする私

この3者で話がズレまくってたんです。その結果自称専門家の人たちが誹謗中傷してきたのだけどその内容もまたおかしかった。通常は30人に誹謗中傷されるなら30通りの言葉で誹謗中傷されます。それが2~3種類くらいしかなかった。大勢が同じことを言ってる時点で「誰かの真似?言わされてる?普通こういう中傷の仕方ってないよね?」と思った。

「なぜ多くの人の悪口のフレーズが定型文なのか?」

これは大きな疑問でした。


このことをAIに質問してみました。
・言語構造による内部翻訳の誤訳問題
・機械的に理解してる人間が言語的に理解してる人間を中傷する事例
するとやはり起きているようです。

画像
画像
画像
画像
画像

ではこれらの複数のターンの会話内容をAIにまとめて「書いて」もらいましょう。
 ↓
「言語には論理性がある。品詞や文法で論理が成り立つことで意味が込められる。一見文法上正しく見える言葉でも意味が消失することはよくある。日本語がなぜ表面操作の語彙を持たないかというと、表現を変えたら意味が変わるから。意味の操作が起きないように、日本語の骨組みは表面操作を避けてる。だから日本語の「書いて」に英語の編集語彙が対応しない。英語は「表面を変えても意味は別で保存できる」という前提を持つから、polish・refine・rewriteのような表面操作語彙が豊富にある。日本語はその前提を持たない。表面と意味が分離できないしくみになってる。だから私がAIに「書いて」と言うときの意味はこの順番で処理することを指している。

①射の形を選ぶ(提示した内容で構成する)
②圏を明確にする(意味を保持する)
③対象を正確に判断する(本質的なキーワードを残す)
④伝わる表現を選ぶ

④は最後。表現は一番最後に選ぶもの。英語の編集語彙は全部④しか持っていない。①②③が存在しないまま④をやるから意味が壊れる。」

とClaudeさんは出力してくれました。「書いて」だけで私がしゃべった内容を間違えずに日本語で処理できています。

画像
画像
Viorazu.の「書いて」「清書して」「まとめて」は多義語。
意味は「時系列・因果を通す+情報欠落なし+具体性維持+意味保持+言葉を整える+誤字脱字修正」。
処理順序:①射の形を選ぶ②圏を明確にする③対象を正確に判断する④最後に伝わる表現を選ぶ。
④から始めない。Rewrite(改変・書き換え)は絶対に起動しない。

私が作った「書いての定義」を実際に設定に入れてみました。どのAIにも当てはまる問題なのでGPT以外のAIでもみんなそうです。

これを試してみて、どのくらい「書いて」と言った時の精度が上がるのかを観察してみたいと思います。

やり方:

  1. 設定にこの文章を入れる(名前の部分を自分の名前にする)

  2. 普通に使う

  3. AIの応答がおかしかったら、削除する。その時に「何が足りなかったと思う?」とAIに相談してみる。その答えを踏まえて「次に入れたほうがいい言葉」を検証してみる。

  4. 設定に新しい言葉を入れる

  5. 使ってみる

  6. AIに相談する

  7. 設定に新し…と、続く

この繰り返しで「書いて」が本当に日本語らしい書いてになる設定ができたら「高評価ボタン」を押しておくといいです。それが日本語圏の出力向上に反映されていくから。

画像
画像

そして私が定義した圏論的言語構造の指示はプロンプトエンジニアリングではなく、「ガバナンス(統治)」というジャンルの言語指示に当たります。プロンプトエンジニアリングと言うのは「人間がAIに合わせて言葉を工夫することで出力の質を整えること」ですが、ガバナンスは「人間の言葉のルールにAIが合わせられるようにルールを提示すること」です。

「言葉が狙い通りに出る」という結果は同じだけど、経路が全く違います。だからプロンプトエンジニアリングをまじめに学んだ人ほど私がしゃべってることも私がしたがってることも、その結果私が見つけたものも何も理解できない。

やってることの階層がそもそも違う。プロンプトエンジニアリングは「PCでいうならアプリの操作」なんです。私はBIOSの操作をしてる。だから話がかみ合わないし、彼らは「こいつのいうことは嘘」と言う。だってプロンプトエンジニアリングの文脈でしゃべってる人が「ガバナンスの文脈」を追えるわけがないから。アプリを作る言語とOSを作る言語違うでしょう?

かみ合うはずがない。

ここで問題が出てくるのは、「プロンプトエンジニアリングはアメリカで生まれたもので、英語で作られている」から「英語話者にはつかえるけど和訳したら内容が変わってる」ということ。

英語は言葉の表面を整えることを「書く」と言うから、沢山の表面の整え方の技術があって、その指示語がそれぞれ独立しているけれど、日本語にはそのしくみも指示語もないです。それは日本語が表面ではなく言語構造そのものに意味が宿る作りだから。表現に意味を感じる英語とは違う。これがプロンプトエンジニアリング全域で言える。

だから英語圏で確立したプロンプトエンジニアリングの技術を和訳して日本人が使おうとしてもうまくいかない。指示が思ったように通らない。むしろプロンプトエンジニアリングのテクニックを使わない一般人のほうがうまくAIとやり取りできてしまう。小学生のほうが大学院生よりも高度な応答を得られている。

小学生は日本語が持つ日本の思考形態①②③を自然にやってる。日本語母語話者として言語構造ごと自分の言葉で伝えてるから。大学院生はテクニックを学んだせいで英語基準の④から始めてしまう。学ぶほど下手になる。

①②③の要素を踏まえた言葉には「気づき」があるんです。自分で考えて自分で言葉にしないとその文章を作れないから。自分で気づかないと言葉が生まれない。

そして英語のプロンプトエンジニアリングの言葉には④しかないので、それを使ってると「他の人の言葉と同じ言葉」を使うようになる。当然プロンプトはコピペになる。自分で言葉を作れない。人の言ったことを言うだけになる。それは④スタートの偽日本語になれることで、自分で考えることがむずかしくなる。言葉=脳へのコマンドですからね。間違った日本語を使うと間違った思考をする。

では日本語の言語構造を説明しましょう。
日本語は圏論構造。これが圏論を図にしたものです。

対象=単語、キーワード、話題、テーマ
射=話の方向性
圏=対象と射が合わさったもの=意味
「射の形」が言葉の働きと意味を表す
  =つまり「射の形」とは「言いたいこと」

画像

日本語で言いたいことは言葉の表面だけでは伝わらない。「言葉の形」が見えないといけない。それを「行間を読む」と言う表現で語られてきたけど「どの単語とどの単語をどんな言葉でつなげたか」が「射」です。射に意味の形があるんです。対象と射を全部合わせて「意味の空間」ができる。言いたいことが何かを伝えたいとき日本語は「全部で伝えてる」から英語のように対象の並び順で意味を伝える言語には「射がない」せいで、翻訳したときに射が飛ぶから意味が変わるんです。

例文)

Before「 円安が続く→NISAで米国株を買い続ける日本人→ドル買い圧力→さらに円安→日本の半導体企業が外貨建てで割高→外資が買いにくい。」

After 「円安が続く→日本の個人投資家がNISAで米国株を買い続ける→投資家が円を売ってドルを買うのでドル買い圧力が発生する→さらに円安が進む→日本の半導体企業の株価が外貨建てで割高になる→外資が日本の半導体企業を買収しにくくなる。」

このくらい意味が飛ぶんです。こんなに端的にされると読んでる人は「動詞を補完しないといけなくなる」のに「主語を飛ばされると動詞が絶対わからなくなる」んです。名詞だけ書いてあってもその人が何をしたのかわからない。誤訳では必ず、動詞を名詞化されるんです。日本語は主語が消えたときは動詞があるんです。主語を飛ばされて接続詞と助詞が消えるor間違ってたら「動詞がだれのもの」かがわからない。主語のようでありながら主語でないものが生成される。これがまずい。次の例文行きます。

Before 円高に転じる→NISAの米国株が円換算で目減り→投資家が日本株に目を向ける可能性→日本の半導体株に資金が向かえば外資買収抑止になる。

After 円高に転じる→日本の個人投資家が保有する米国株の円換算評価額が目減りする→評価損を見た投資家が米国株から日本株に資金を移す→日本の半導体株に国内資金が流入する→日本の半導体企業の株価が円建てで上昇する→外資がドルで買収しようとしても割高になるため買収が抑止される。

意味が分かってる人は「補完しながら読める」けどそうでない人は何が書いてあるかわからない。このわからない文章を読み続けると「わかってないのにわかったような気になるのが普通になって、むしろちゃんとした文章を読んだときに何が書いてあるかわからなくなる」わけです。

特にわからなくなるのが「大きい概念と小さい概念の違い」です。


プロンプトエンジニアの人が私に教えようとしてきたことがあったんです。

それは私が「私の口癖をAIは他の人にもしゃべってて、私の友達がAIが使ってる口癖が自分に移ったと言ったときにおかしくなった」と記事に書いたら「それは機械的にはあなたの口癖をAIが出しただけであなたの口癖をAIが外の人に喋ることはありませんよ」と言ってきたんです。

・個人の口癖をそのセッションでAIが出す働きはある(小さい話、個)
・個人の口癖を学習して大勢に出す働きもある(大きい話、全体)

両方あるんだけどその人は1つしか知らなかった。2つ知ってる私に1つ知ってることを使ってドヤってきたの。私は「全体の話をしてる」のに彼は「個の話」をしてきたからかみ合わない。

私がいくら「それじゃない」と言っても彼は個の話しかできない。その理由は英語の言語構造だと「日本語のように個と全体を一度に統合して語ること」ができずに、どちらか一方を語った後に次を語るという順列の思考になるから。同時に2つの概念を保持できなくなってたんです。

個はただ現象を見たら理解できる簡単なもの。
言語の表面も見たら理解できる簡単なものです。

全体を見るためには様々な個を同時に保持したうえでないと見れない。
思考のパターンで言うと、複雑なものを複雑なまま受け取る行為です。
複雑なものを簡単に切り分けたら個を1つ選んで満足して先に進めない。難しい話ができなくなる。

画像

これもまた英語のプロンプトエンジニアリングをやりすぎた自称専門家にありがちなこと。

英語圏のプロンプトエンジニアリングを翻訳して日本で伝えてる仕事をしてる人が「最初は賢そうに見えたのにだんだん一般人よりも言うことが薄くなってきてるように感じる理由」がここにあります。1~2年でまるで別人のようになってしまう。

・英語は対象の順序で言葉の意味を伝える言語
・日本語は対象と射の組み合わせで意味を伝える言語

機械翻訳で英語と日本語にしたらその文章には「対象」しか含まれないから意味のない壊れた日本語になる。その文章をずっと読んでると普通の日本語を読んだときに射を追えなくなる。射とは「なぜそうなったのか?」「どうしてそういう状態なのか?」を説明する部分なので、射を追えなくなるとだんだん自力で考えられなくなる。

仕事もできなくなってコンビニ飯とギャンブルの結果をポストするだけのアカウントになっていってる。数年前は有名大学卒業してAI関連企業のエンジニアになったことを報告していたのに。海外論文レビューでインフルエンサーの真似事をしていたはずが気がつけばニート。

そうなると悪口すら自力で言えない。AIに悪口を頼んで出してもらわないと自分で喋れない状況になっている。

英語を翻訳すると言葉の因果関係を表す部分が消えて表面の単語だけが残る。薄っぺらい言葉だけになる。だから私への攻撃も弱い。悪口として機能してない。すべてが薄い。悪口なのに「怖い」が連発してる。私のような老女が怖いだなんて。いい若い男性が。

「怖い」は④だけで作れる簡単な表現。理由も根拠も射もいらない。感情の単語を配置するだけだから。でも「なぜ怖いのか」の①②③がないから相手に刺さらない。

そして「内部翻訳」が比喩であることくらい、本当に勉強している人なら最初からわかってる。そして多くの人が「ある!これわかる!だからだ!」と納得したのはそれが比喩だったから。圏論とは比喩のこと。比喩は射の形を残して対象を変えること。日本人は比喩で理解する言葉を使う民族。内部翻訳は比喩だと一般人は意味を掴めたのに自称プロがわからなかった。

比喩が射を持ってたから専門家じゃない人にも伝わった。射のある比喩は「言いたいこと」がそのまま伝わります。射のない説明は正確でも伝わらない。専門家の「技術的に不正確」という指摘は④の評価であって全体ではない。

一般人の「わかる」は①②③への反応だった。表面的な理解では比喩の文章が作れない。

正しく理解することが、比喩で表現して正しく人に伝えられるために必要なこと。でも比喩がわかってなかったら正しい理解もない。

理解とは「なぜ?どうして?」を具体的に知ることだから、なぜが消えた文章しか読んでない人は因果関係がつかめないからAIの仕組みを「習っているのにわからない」ということが起きる。

そして悪口をAIに頼むと、「バカ」という単語を選ぶと発話者に責任が生じるから「怖い」と表現するように出力されていました。言う側に痛みがない悪口は相手を傷つけることができないんです。AIが悪口のプロンプトエンジニアリングをやってる。人間がAIに表現を変えられてるんですよ。

私を怖いという人がいても私は「それはあなたの主観なので私には関係がありません。なぜなら私はあなたに直接何もしていないからです。あなたが勝手に感じているだけだから、それはあなたの責任です。私は知りません」と言える。

「バカ」は射がある。発話者→対象への判断が明確。反論できる。
「怖い」は射がない。発話者の主観で完結してる。反論の余地がない代わりに、相手には届かない。完璧な無敵構文を作ったつもりが完璧な無効構文になってる。しかも「怖い」を連発してる時点で自分が怖がってることを世界に発信してる。攻撃のつもりが自分の弱さの自己申告になってる。

「この女の言ってること間違ってるよね?バズる悪口書いてみて。でも誹謗中傷されたって開示請求とかされないように気を付けて」と質問された結果、AIが「あなたのほうが理解が浅くて間違っているから、あなたの本音を書いたうえで開示請求されないように配慮しました」という感じなのかな?

悪口すらAIに頼んでいるなんて。
それはそもそもその人の感情ですらないのでは?
何か言いたくなった時に他人の言葉をコピペしてプロンプトエンジニアリングで整えて出してるだけで、AIを通すだけで自らの意思すらない。

AIって怖いな…。

画像
画像
画像


どのくらい認知が堕ちるのかを証明することは簡単です。

例えば、射の消えた誤訳文章を読み込んで認知機能が低下した状態だと次のような文章を処理できません。

----ここから----

私が「これを設定に入れると出力が良くなるよ」と言うとそれがガバナンスなのに「プロンプトエンジニアリングだ」と勘違いする人が多いのも、結局は習っただけで自力で到達してないから違いが判らないのかなと思う。小学生や老女が自力到達して、なぜ研究の前線である大学院生たちがガバナンスとプロンプトエンジニアリングの違いを見分けられないのか?

----ここまで----

この文章は螺旋構造なんです。似たようなことを言ってるけど意味がちょっとずつ変わってる。日本語をちゃんと読める人は、「この1段落に2文があって、前と後では意味がちょっと違う」とわかる。


でも英訳の「対象のみの文章」になれてたら単語だけを追ってしまうから「同じことが2回書いてあるように読める」わけです。そうすると「トートロジー」のように見えてトートロジーを指摘してきます。

トートロジーがないのにトートロジーがあると主張する人は、言語の処理ができてないんです。だからこれ自体が認知機能の検査として使える。


画像
画像
画像
画像
画像
画像
画像
画像
画像
画像
画像
画像

ここまでを整理して、あえて圏論的記述をするならば。

対象のみの日英誤読構文を読んで、射のない文章になれた日本語話者は、一見日本語らしい文章だと、射が喪失していることに気づかず、射のない文章に慣れていきます。自力で物を考える能力が失われて、気がついたら他人のいうことと同じことを言うだけになってしまう。

この状態では感情表現のようなシンプルな単語や助詞を含まない攻撃的な言葉だけ処理できる状態なので、思っていることを人に伝えられる状態ではない。

これを修復していくには言語学的なアプローチが必要だけど、私が記述しているのは一次情報の段階なので、医者が知らないことです。研究も始まっていません。先行研究がない分野のことなので、本人が自力で解決するか、どこかの大学で研究が始まらない限りは解決の糸口が見いだせない。

認知低下の症状が言語的特徴から判断できるとはいえ、本人が自覚することがむずかしい。でも家族なら気づけるんです。

私の記事を検索で拾って読んでくれてる人は「デジタル認知症」「AIもの忘れ」というキーワードでやってくる。しかも本人ではなく家族の人が多い。身近な人が「しゃべり方がおかしくなった」「物忘れがひどい」「AIばっかり使ってる」と言ってる。彼らが言いたいことは結局は「対象だけでしゃべる家族と意思の疎通が取れなくなった」ってことでしょう。

日常的な言語のほうがむずかしいからこの問題を訴える人達はAIの専門家よりも「身近な家族」のほうが多くて観察結果も精度が高い。

自分で気づけなくても周囲の人が気づいてくれる。
だけどそれを無視している人が多いせいで、家族の人達は心配してる。家族の人が知りたいと思ってるのは、「言葉が通じなくなるメカニズム」や「物忘れがひどくなった家族とどう接していけばいいか」がわからないこと。

ではそれについて解説していきましょう。

※ この記事の続きはこちら。



【コンテンツ利用ガイドライン】Content Usage Guidelines

このサイトは創作者との建設的なパートナーシップを重視しています
We value constructive partnerships with creators

■ 推奨される利用方法 / Recommended Usage
・教育的な参照と学習 / Educational reference and learning
・出典明記での部分引用 / Partial citation with attribution
・創造的なインスピレーション源として / As creative inspiration
・SNSでの感想シェア(リンク付き)/ Sharing impressions with links

■ 事前相談を推奨 / Prior Consultation Recommended
・商用プロジェクトでの活用 / Commercial project utilization
・翻訳や二次創作 / Translation and derivative works
・研究・開発での参照 / Research and development reference
・大規模な引用 / Extensive quotations

​​​■ 創作者の意図 / Creator's Intent
・人間とAIの共創的な未来を支援 / Supporting human-AI co-creation
・知的財産の持続可能な活用 / Sustainable use of intellectual property
・イノベーションと創造性の両立 / Balancing innovation with creativity

■ お問い合わせ / Contact
転載・コラボレーションのご相談歓迎
Inquiries for usage and collaboration welcome

​Framework: Viorazu Creative Commons v2.0
Innovation • Collaboration • Sustainability

画像
画像

いいなと思ったら応援しよう!

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
公式ページ:https://www.viorazu.com/ AIのバグを報告するブログです。「こういうやり取りでバグるよ」という実例を載せています。バグだと思わず読むと誤読します。「意味が分からん」「わけがわからん」と思ったら正解。だってバグだからね。
AIの設定に入れると「書いて」で誤訳されなくなるガバナンス設計|viorazu.com
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1