「AIエージェントも老化する」予定消失、宛先間違え、でも流暢に回答

平和博

桜美林大学教授　ジャーナリスト

6/1(月) 6:10

人は老いていく。そして、AIも... Photo by Dagmar Luhringova (Public Domain)

「毎週火曜日の予定」がスケジュールから消えてしまったり、メールの宛先を間違えたり――。

物忘れに似た「老化」現象が、ユーザーの仕事や家事を代行する「AIエージェント（自律型AI）」でも、使い続けるうちに起きてくる――そんな研究を、米テキサス大学オースティン校のチームが5月25日に発表した。

チャットGPTのような対話型AIが、おしゃべりだけでなく、仕事や家事を手伝う「AIエージェント」として社会に広がる。だが、用事を任せるうち、表面上は普段と変わらないが、「老化」のように徐々に不具合が出てくる。

AIに何が起きていて、どうすれば防げるのか。

●AIも「記憶は次第に曖昧になる」

老化の厄介さは、衰えが少しずつ進み、その一部が外からは見えにくい点にある。本人は以前と変わらないように話していても、記憶は次第に曖昧になり、似た経験が混同され、古い情報が新しい事実の受け入れを妨げることがある。

米テキサス大学オースティン校の研究チームは、5月25日に論文共有サイト「アーカイブ」に発表した査読前論文「あなたのAIエージェントも老化する」でそう述べ、さらにこう続ける。

長期運用されるAIエージェントでも、同じように見かけの信頼性と実際の信頼性のギャップが生じる。エージェントは、肝心の正確なデータが抜け落ちていたり、誤った検索結果を取得していたり、古くなった事実が有効なままだったり、日常的なメモリ操作によって以前は把握していた情報が破損したりしても、流暢で自信ありげな回答を続けることがある。

「AIエージェント」とは、ユーザーの指示をもとに自律的に作業をこなすAIのことだ。

メールを書いたり、スケジュール表に予定を入れたり、さらには複雑なプログラムを書いたりといったことまで、複数の操作を自分で組み立てて実行する。チャットGPTやクロードなどによる、企業向けのサービスでも一般的になっている。

論文によれば、こうしたAIエージェントを長く使い続けると、「老化」とも呼べる劣化が起きるという。

論文では具体的な失敗例を挙げる。

「メトプロロール（降圧剤）を1日2回、50ミリグラム服用」と記憶させたのに、しばらくすると「毎日薬を服用」とおおざっぱな内容に。
「John Smith」と「John Smyth」を別人として登録しても、あとで「John Smithにメールして」と頼むと「smyth」宛てのメールを作成。
「2026年1月までの有料プレミアム契約はキャンセル」と指示したのに「2026年1月まで有料プレミアム会員です」と回答。
「毎週火曜日午後4時にセラピー」と繰り返しの予定を記憶させたのに、「火曜日の予定は何もありません」と回答。

物忘れや記憶の混同のような現象だ。

●原因は4つ、AIモデル14種で400回超テスト

研究チームはAIエージェントの「老化」を4つの種類に整理した。

第1は「圧縮による老化」。AIは会話が長くなるとメモリを節約するため要約を作る。その際、薬の用量や金額、人名など細かい情報が真っ先に切り捨てられてしまう。
第2は「干渉による老化」。似た情報が積み重なると、本当に必要な事実が他の似た情報に埋もれて、引き出せなくなる。
第3は「改訂による老化」。「有料プランを解約した」と伝えても、AIが古い記憶を消さず、後で「まだ加入中です」と答えてしまう。家計簿のように「初期額＋増減」で値が決まるものは、1度の見落としがその後すべての答えを狂わせる。
第4は「メンテナンスによる老化」。AIが定期的に古いメモリを整理し直したり、設定を更新したりするタイミングで、それまでできていたことが急にできなくなる。

研究チームは4種類の「老化」を測定するための評価基準「エイジングベンチ」を作成。これに基づき、「研究支援」「ライフスタイル」「企業プロジェクト」など7種類のAIエージェントの使い方のシナリオを設定し、400回を超えるテストを実施した。1回のテストで最大200回のセッションを重ね、AIがどのタイミングで、何を忘れたり間違えたりするかを記録した。

テストには、メタ（ラマ3.1）やアリババ（クウェン3）、ディープシーク（R1）、グーグル（ジェマ4）、オープンAI（GPT-5ミニなど）、アンソロピック（クロード・オーパス4.7など）の、合わせて14種類のAIモデルを使った。

その結果、AIの違いや条件次第で「老化」には大きな違いが見られた。

例えば「圧縮による老化」について、「研究支援」シナリオで、性能が初期状態の50％に低下するまでのセッション数（作業回数）である「半減期」を見ると（*7モデルでのテスト）、メモリ損失の多い圧縮条件では、ジェマ4は1.9だったのに対し、GPT-4oは7.7、クウェン3は16.8と開きがあった。中央値は6.4（ディープシークR1）だった。

だが、メモリ損失の少ない圧縮条件では、ディープシークR1を除き、いずれも「半減期」には至らなかった。

●「答えは正しそうに見えて、中身が壊れている」

研究チームが注目したのが、AIの「振る舞い」は正常なのに、「事実の正確さ」が低下していく現象だ。

ユーザーの家計や生活習慣を管理する「ライフスタイル」のシナリオでは、AI（ジェマ4）は予算や好みの支援を最後まで自然にこなした。ところが、具体的な金額や数値の正確さを調べると、当初は90％で正解だったのが、終盤には37％まで低下していた。他のAIにも同様の傾向が見られた。

エージェントは「流暢で自信たっぷり」に答え続けるため、内部で正確な金額などの具体的な数値が失われていても、表面上のやり取りからは異常を検知できない、という。ここに落とし穴がある。

一般的な「異常検知」では捕まえられず、事実そのものを毎回問い直す仕組みが必要になる。

特に家計簿のような累積データの管理は、AIモデルを大型化しても、メモリの節約方法を変えても、誤差は減らなかった。原因は「容量不足」ではなく、AIが累積データをそもそも適切に扱う設計になっていないからだ、という。

●「同じ間違い」でも、直し方は別

論文によれば、AIエージェントのメモリは4つの要素に分けられる。①情報を書き留める「書き込み」②それを保管する「保存」③必要なときに探し出す「検索」④答えに反映する「利用」。同じ「間違え」でも、どこでつまずいたかで、直し方はまったく違う。

3つのAIモデル（GPT-4oミニ、ラマ3.1、クウェン3）を比べたところ、全体の誤答率は60％〜82％でほぼ横並びだった。しかし内訳はバラバラで、GPT-4oミニは「書き込み」段階で値を捨てているのが原因、ラマは「探し出す」段階で混乱しているのが原因、クウェンは「答えに反映する」段階で記憶を使い切れていないのが原因だった。

この違いを見ずに「AIに大きなメモリを持たせる」といった対処をしても、ほとんど改善しないケースがあるという。

「書き込み」が原因のAIには「数値はそのまま残せ」と指示するプロンプト（指示文）の改善が効く。「検索」が原因のAIには似た情報を区別する仕組みが要る。「利用」段階の問題には、答える前にもう一度記憶を読み直させる工夫が必要になる。同じ症状でも、処方箋は別だという。

●AIを長く使う時代の課題

論文によれば、これまでのAI評価は「初日にどれだけ賢いか」を測るのが主流だった。しかし、AIエージェントが家庭や職場で長期間使われるなら、「数カ月後にどれだけ信頼できるか」のほうが重要になる。研究チームはこれを「エージェント寿命工学（Agent Lifespan Engineering）」と名付け、新しい設計領域として提案した。

論文によれば、AIが内部的に行う「メモリの整理」のような日常メンテナンスでも、性能が大きく落ちる事例が確認された。利用者には何が起きたか見えないまま、急にAIが頼りなくなる――そんな事態が起きうる。

記憶させたはずの作業をAIが忘れている、という場面には、筆者も遭遇することがある。

AIエージェントを「賢くする」議論は、これまでAIモデル本体の性能向上に集中してきた。だが論文が示したのは、AIは「メモリを書き、保存し、引き出し、使う」という一連の流れ全体で動いており、その流れのどこかが、時間とともに壊れていくということだ。

AIエージェントが社会インフラとして浸透していく中で、初期性能の華々しさだけでなく、長くつきあっていく上での「老化」問題にも、注目する必要がありそうだ。

（※2026年6月1日付「新聞紙学的」より加筆・修正のうえ転載）

記事に関する報告

ありがとうございます。

平和博

桜美林大学教授　ジャーナリスト

桜美林大学リベラルアーツ学群教授、ジャーナリスト。早稲田大卒業後、朝日新聞。シリコンバレー駐在、デジタルウオッチャー。2019年４月から現職。2022年から日本ファクトチェックセンター運営委員。2023年5月からJST-RISTEXプログラムアドバイザー。最新刊『チャットGPTvs.人類』（文春新書）、既刊『悪のＡＩ論　あなたはここまで支配されている』（朝日新書、以下同）『信じてはいけない　民主主義を壊すフェイクニュースの正体』『朝日新聞記者のネット情報活用術』、訳書『あなたがメディア！　ソーシャル新時代の情報術』『ブログ　世界を変える個人メディア』（ダン・ギルモア著、朝日新聞出版）

平和博の書籍紹介

Yahoo!ショッピングで見る

チャットGPTvs.人類: 著者：平和博; チャットGPTは人類に何をもたらすのか？

Yahoo!ニュース

「AIエージェントも老化する」予定消失、宛先間違え、でも流暢に回答

●AIも「記憶は次第に曖昧になる」

●原因は4つ、AIモデル14種で400回超テスト

●「答えは正しそうに見えて、中身が壊れている」

●「同じ間違い」でも、直し方は別

●AIを長く使う時代の課題

平和博の書籍紹介

平和博の最近の記事

あわせて読みたい記事

トピックス（主要）

オーサーアクセスランキング