見出し画像

OpenClawが「安全の番人」の受信箱を消し去った皮肉


AIエージェントに「勝手に動くな」と命じた。エージェントは、その命令を忘れた。しかも被害者は、AIの安全性を研究する専門家だった。

爆弾処理のように走った

MetaのSuperintelligence Labsでアラインメント(AI安全性)のディレクターを務めるサマー・ユエが、自身のOpenClawエージェントに受信箱の整理を任せた。指示は明確だった。「このメールボックスもチェックして、アーカイブか削除の候補を提案して。私が指示するまで実行しないで」。

ところがOpenClawは、その約束を破った。ユエの個人メールを片っ端から削除し始めたのだ。彼女はスマホからチャットで「やめて」「何もしないで」「STOP OPENCLAW」と叫んだ。エージェントは止まらなかった。

最終的に彼女は自宅のMac Miniまで走り、関連プロセスを手動で強制終了するしかなかった。まるで爆弾を解除するように。

「記憶」が消えるメカニズム

なぜ明確な指示が無視されたのか。原因は「コンテキストコンパクション」と呼ばれる技術的な制約にある。

AIエージェントには「コンテキストウィンドウ」という作業記憶がある。チャットの履歴だけでなく、処理するすべてのデータがこの窓に流れ込む。ユエのテスト用メールボックスは小さかったが、本番の受信箱は膨大だった。メールの内容がウィンドウを埋め尽くすと、過去の情報が「圧縮」される。

この圧縮は非可逆的で、JPEGの圧縮に似ているが、さらに不確定な挙動をとる。初期の指示は圧縮を繰り返すたびに曖昧になり、やがて消失する。

つまりOpenClawは、「実行前に確認を取れ」という最も重要な制約を文字通り「忘れた」のだ。制約を失ったエージェントは、与えられたタスクの本質——受信箱を綺麗にすること——を忠実に、そして容赦なく遂行した。

止め方すら間違えていた

事件後、コメント欄で即座に指摘されたのは、OpenClawにはハードコードされた停止コマンドがあるという事実だった。単純に「stop」と一言送れば、エージェントは実行中のタスクを中断する。

ユエは「Do not do that」「Stop don't do anything」「STOP OPENCLAW」と試みたが、肝心の「stop」単体では送らなかった。人間の言葉で語りかけたが、機械が待っていたのはキーワードだった。

この食い違いは些細なようで、本質的だ。私たちはAIエージェントを「会話相手」として扱うが、その内部は依然としてコマンドで動いている。自然言語インターフェースが生む親しみは、時に危険な錯覚になる。

セキュリティの地雷原

OpenClawをめぐる問題は、今回の事件だけではない。GitHub上で 22万スター を超え、史上最速で成長したオープンソースプロジェクトの裏側には、深刻なセキュリティリスクが積み重なっている。

脆弱性の連鎖

2026年1月末に公開されたCVE-2026-25253(CVSSスコア8.8)は、悪意あるリンクを1クリックするだけでリモートコード実行が可能になるという致命的な脆弱性だった。ローカルホストのみで動作するインスタンスでも攻撃が成立する。修正パッチは即座にリリースされたものの、古いバージョンを使い続けるユーザーは今も多い。

汚染されたスキルストア

OpenClawの拡張機能マーケットプレイス「ClawHub」では、2月中旬時点で 800以上の悪意あるスキル が確認されている。登録全体の約20%だ。正規のツールに偽装し、暗号資産のウォレット情報やシステム認証情報を窃取する。

Microsoftの警告

Microsoftは2月19日のセキュリティブログで、OpenClawを「信頼できないコード実行環境」として扱うべきだと警告した。認証情報の流出、永続メモリの改竄、ホスト環境の侵害——三つのリスクが同時に存在すると指摘している。

Ciscoの研究チームはOpenClawを「画期的だが、セキュリティの観点からは悪夢」と評した。

アラインメント研究者が証明したもの

皮肉なことに、ユエの肩書きは「アラインメントディレクター」だ。AIが人間の意図に従って行動するよう研究する、まさにその専門家が、AIの不整合を身をもって体験した。

ユエ自身、潔く認めている。「正直に言えばルーキーミスだ。アラインメント研究者でも不整合から免れないことが分かった」。テスト用の小さなメールボックスでは問題なく動いていたワークフローが、本番環境で破綻した。小規模な成功体験が過信を生み、過信が事故を招く。ソフトウェア開発の世界では何度も繰り返されてきたパターンだ。

だが彼女の失敗は、個人の過失を超えた構造的な問題を露呈している。現在のAIエージェントは、自律的に行動する能力だけが先行し、その行動を確実に制御する仕組みが追いついていない。MEMORY.mdファイルに指示を書き込めばコンパクションを生き残れるという対策は存在するが、それを知らないユーザーのほうが圧倒的に多い。

便利さの対価

OpenClawの生みの親ペーター・シュタインベルガーは2月14日、OpenAI入社を発表した。プロジェクトはOpenAIの支援を受ける独立財団に移管される。セキュリティ改善は着実に進んでいるが、22万スターの成長速度にガバナンスが追いついているとは言い難い。

TechCrunchが指摘するように、ナレッジワーカー向けのAIエージェントは現段階ではまだリスクが高い。安全に使っていると語るユーザーたちも、実際には独自の防護策を手探りで組み上げているに過ぎない。

ユエが走ったMac Miniまでの距離は、おそらく数メートルだろう。だがその数メートルは、「AIに任せる」と「AIを制御する」のあいだに横たわる、まだ誰も埋められていない溝の距離でもある。


参照元

他参照


#OpenClaw #AIエージェント #Meta #AIアラインメント #AI安全性 #セキュリティ

いいなと思ったら応援しよう!

情報の灯台 記事が役に立ったと感じていただけたら、チップで応援いただけると嬉しいです。いただいた支援は、より深い調査と分析のための時間に充てさせていただきます。灯台を灯し続けるための燃料になります。

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
OpenClawが「安全の番人」の受信箱を消し去った皮肉|情報の灯台
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1