多分これから起きること
自分で自分を改良する自己書き換え型エージェンティックAI、sikiをちまちま開発するのにハマっている(公開はしているがまだ安定していないので遊んでみるのはお勧めしない)。
結構答えはいい線いくのだが、いかんせん最初の反応が鈍い。
まあこれはGeminiでもChatGPTでも同じくらい最初の反応というのは遅いんだけど、快適になってくるとすぐ何か反応が欲しい。
LiquidAIによるLFM2.5-thinking-1.2Bが思ったより出来がいいので、sikiのオーケストレーターをgpt-oss-20bからLFM2.5に変えてみることにした。
すると、応答は早くなるのだが、やはり全体的に少し間抜けというか、サブエージェントとしてgpt-oss-20bを呼ぶべきところをオーケストレーターが自分で解決しようとしてしまい、あまりうまくいかない。そこでシステムプロンプトをいじる。やはりオーケストレーターがバカだとまともな動きができないので、LFMにはユーザーへの一次対応だけさせて、実際のオーケストレーションはgpt-ossにやらせるのが良さそうだ。
Claude codeと一緒に、「こうしたらもっとうまくいくんじゃないか」とか「この論文のアイデアを実装してくれ」とか言うのはとても楽しい。
と同時に、「このままいくと最終的にClaude codeは要らなくなるのでは?」という疑問も湧いてくる。Claude codeというか、クラウドの向こう側にあるほとんどのAI推論サービスはローカルエージェントに置き換えられる可能性がある。
というのも、Claude codeによってあまりにも多くのプログラムが作られ、それが大量にgithubにコミットされるようになった。多分人類が新しいプログラムを作り出すスピードは、一年前の10倍くらいになってるはずで、このままいくと、人類は想像しうるすべての種類のプログラムを作り出すことになる。
しかも、githubにコミットされたプログラムは、基本的には「動作する」ようになっているはずで、これは都度AIが生成するプログラムよりは「テストされている」ぶん、マシなはずである。
ということは、githubは巨大な「プログラム博物館」となり、コードを生成するよりも、githubの中から効率的に欲しいコードスニペットを検索してくる方が高品質で確実に動作が期待できる関数が手に入ることになる。
プログラミングという作業が、しばらくの間コードスニペットをコピー&ペーストして元の文脈になじませるというしょうもない作業だったことを考えると、ゼロからコードを作り出すクラウドのAIよりも、効率的にgithubを検索するローカルエージェントの方が役に立つ可能性がある。
今後、エージェンティックAIは自らを暇さえあれば拡張し、改造し、貪欲に成長していく存在になっていくことだろう。
センサー類としてのカメラやマイク、アクチュエータとしてのスピーカーやロボットハンド、無限軌道はいうに及ばず、身体性を獲得して最終的には3Dプリンタを自在に操作して、自分自身を拡張できるようになるはずだ。
先日訪問した新潟県長岡市の「ものづくりフェア」長岡高専の展示では、コーヒーメーカーで入れたコーヒーと、スターバックスのバリスタと同じ手法でロボットハンドで入れたコーヒーの飲み比べ体験というのをやっていて、これが非常に印象的だった。
実際に飲み比べてみると、確かにロボットハンドが慎重に入れたコーヒーの方が香りが立っているというか、コーヒーメーカーのコーヒーはべちゃっとした印象なのに対し、ロボットハンドの淹れたコーヒーはちゃんと商品になっているというか、香りがピンと立っているような印象を受けた。
これはエージェンティックAIそのものではないが、ロボットが運動を伴うことで環境(この場合はコーヒーの味)が変化するということは、エージェンティックAIが、環境との相互作用によって従来よりもいい結果を生み出すことを意味する。例えば、これがコーヒーではなくて3Dプリンタで部品を印刷してそれをロボットハンドを使って組み立てるといったことに応用していくと、エージェンティックAIは、文字通り自己増殖し、自己改良を続ける人工生命の完成形へと向かっていくことになるだろう。このようなものを人間がとてもたどり着けない場所、深い海底や小惑星帯や遠い宇宙の果てに身体化したエージェンティックAIを送り込めば、我々人類が到達する前に、現地の居住化をしてくれるようになるだろう。
機械そのもの、ロボットそのものの形状や設計も、エージェンティックAIが自律的に行った方がより理想的な形になる可能性が高い。例えば中村政義のanlifeのようなシミュレーションか、その先に、人工生命が環境に自動的に適応していくビジョンを想像することができる。
ゲームはどう変わるだろうか。
ゲームプログラミングの世界では四半世紀前から「ゲームエンジン」というものに開発の中心が移っていて、ビジネスの世界でも「フレームワーク」だとかに移っている。ほとんどのプログラムはゲームエンジンまたはフレームワークへのわずかな差分として表現され、ゼロから何かを表現するということは実際にはほとんど起きない。
AIを除けば、ソフトウェアの進歩はもう四半世紀は止まっている。
少なくともユーザーインターフェースという点で、ほぼ進歩していない。
VR/ARはまだ進歩の途上にあるが、決定的に普及するところまでいかない。
物心ついてから、発売される大型予算のゲームが何らかの続編かリメイクしかないという今の若者たちの心情を想像することは難しい。
こないだ、技研で鍋をやっていたら、「時のオカリナ! 3DSですよね」と20代の子に言われて面食らった。いやNintendo64だよ。
AAAタイトルは、突然生まれたわけではない。
何もない世界、真っ黒い画面の世界から、人々のイマジネーション、それは例えばその真っ黒い画面を地下牢に見立てるか、それとも草原に見立てるか、正面から見た時の主観的な視点なのか、それとも地図を見下ろしたような視点なのか。
実は映画の影響も大きくて、地図を移動するような表現はレイダース(インディジョーンズシリーズ一作目)だったり、主観的な視点はグーニーズやスターウォーズ、三人称視点にはトロンの影響が見られる。
そういう、映画のようなメディアと共進化してきたゲームは、最終的に今のAAAタイトルのような形を成していった。グーニーズやエイリアンの影響を受けたDOOMやQuakeがFPS(一人称視点)というひとつのゲームの様式を作り、そこから派生したTPS(三人称視点)へと発展していった。
現在、AAAタイトルと呼ばれるゲームのほぼ全ては、FPSかTPSのどちらかである。「S(シューター)」という言葉に違和感があるのであれば、ビューでも良い。
そしてこのように作られたものは、ほとんど共通するプログラムを持つので、それらを統合して動かすためにゲームエンジンとして洗練されていった。ゲームエンジンと最初に呼ばれたプログラムは、DOOMのそれである。
DOOMのような体験、つまりそこから派生する、全てのFPSはもちろん、ブレス・オブ・ザ・ワイルドのようなTPS(または三人称視点ビュー)のRPGも、表現されているものやバランスは別として、プログラムとしては大幅に変わるものではない。
そういえば、と思ってそれこそ10年ぶりくらいに映画「エンダーのゲーム」を見返してみた。
原作はアメリカの学校の教科書に引用されるほどの古典らしいのだが、原作を読んだ時の面白さと映画にしてみた時の退屈さの狭間を感じさせるような内容だった。
ただ、ここで描かれたような「ゲーム」のような複雑さや魅力を、今のゲームはほとんど失っていると感じる。
それはもちろん、あまりに複雑になると、エンターテインメントとして成立しないほど難易度が高くなってしまったり、そもそもそれが商品として成り立たなくなってしまったりすることから、かつて高校生が一人でコンピュータRPGの原型を作った時のような夢や希望、または誇大妄想めいた思想を表現する手段としてのコンピュータゲームといった文化を、我々は緩やかに失いつつある。
なぜ失うかといえば、儲からないからではなく、むしろガチャガチャみたいなゲームの方が過剰に儲かってしまうからだ。
一本1万円のゲームソフトが10万本売れたら大ヒットだった世界では、売り上げの上限はたった10億円に過ぎない。今では10億円は、ハイパーカジュアルゲームの一ヶ月の広告費として軽く消費されてしまう金額である。
毎月10億円消費して宣伝され、実際に遊ばれるゲームは特に頭を使うことも心を動かされることもないスリーマッチパズルやタワーディフェンスといったカビの生えたようなゲームに収斂してしまう。
今の子供達にとって「ゲーム」の向こう側に技術的なロマンを感じることはない。それは典型的であり、ときには退屈でさえある。
メイカーズながおかまつりに参加したときに、ふとそんなことを考えた。
朝6時に技研ベースでマスターの梱包したキットを受け取り、それを持ってタクシーに乗り込み、スキー客のごった返す中でグリーン車の一席を潰して筐体をハンドキャリーした。
今時めずらしい縦長の筐体と、連打しても壊れることのない業務用スイッチとレバーは、子供たちの興味を大いに惹きつけたようだ。
それは縦スクロール型シューティングゲームというゲームが本能的に持っている魅力が伝わりやすい形状を備えているからだろう。
次に、中学生たちがこのゲームにハマり始めた。彼らは会場を一周すると、何度もゲームに挑戦した。
この実験的な生成AIゲームでは、ボムを使った直後にキーワードを叫ぶとそのキーワードに応じたパワーアップをしたり、姿が変化したりする。パワーアップの内容は内蔵されたLLMがキーワードから導き出し、敵の攻撃や敵の画像そのもの、敵のボスの画像や攻撃パターンもその場で生成される。
彼らが色々なキーワードを試行錯誤しながらハイスコアを狙う様を見て、僕にとってのゲームとは本来こういうものだった、と思った。
僕にとってゲームとは、「どうすればもっとうまくできるか」「どうすればもっと先に行けるか」考えて、試行錯誤して対応することだった。
ゲームの起源は諸説あるが、基本的にはシミュレーションだったはずだ。例えば将棋にしろ囲碁にしろ、戦略や戦術を学ぶための教材だった。
それがいつしかただの暇つぶしの道具となり、ガムやアイコスやハイボールと変わらないものになった。いや、コンピュータゲームの起源は、酒場の片隅に置かれたピンボールやジュークボックスだったことを考えると、酒やタバコと似た性質を持っていることを即座に否定するのは難しいが。
言い方を変えれば、ある時点、たとえば80年代から90年代にかけて思春期を過ごした僕にとって、ゲームとはハイテクの見本市であり、アルゴリズムを体験できる教材であり、「考えるとは何か」を学ぶための教師でさえあった。
あの頃、名作とされたゲームは、必ずしも儲かったものばかりではない。ただ全て名作は想像力の拡張という点において他のどのエンターテインメントよりも優れていた。今のハイパーカジュアルゲームは、想像力を拡張してくれるだろうか。僕にはそうは思えない。
今、単に「ゲームを作る」と言って資金調達した場合、大抵は、ハイパーカジュアルゲームの利益率を求められる。ハイパーカジュアルゲームが当たるかどうかはほとんど運であり、なおかつ再現性が極端に低い。
しかしエージェンティックAIがこれほど進化する兆しを見せ、それがほとんどかつてのパーソナルコンピュータの出現と同じ意味を持つとすれば、その前提で動く遊び、エンターテインメント、何らかの楽しみ、例えばゲームは、必然的に進化する必要がある。
AIに知性があるのか、あるとすればそれはどのくらい「賢い」と言えるのか。それを直接知るためには、かつて黎明期のコンピュータゲーム開発者たちが取り組んだのと同じことをする必要がある。つまり、その小さな機械の能力を限界まで引き出して、その技術の拓く可能性を探るのである。
かつてゲーム開発とは、技術の可能性の探索とほとんど同義だった。
DOOMやQuakeを作ったジョン・カーマックが偉大だったのは、それまで全く不可能と思われていた空間表現を、当時の非力なハードウェアで成し遂げるためのアルゴリズムを開発し、実装し、それが実際に可能であることを示したからだ。
今は何だか置きにいったようなゲームしかない。その方が「儲かる」からである。ゲーム産業はかつてのような技術の見本市ではなくなり、緩やかな死を待つ衰退産業と、アルコールやタバコのような即物的な快感を与えるだけの見せかけの成長産業が危ういバランスの中で同居するようになった。
このまま行くとゲーム産業は(タバコや酒がそうであるように)死にはしないだろうが、人類の未来への影響力を決定的に失ってしまうだろう。
あるいは我々は、エージェンティックAIが遊ぶゲーム、またはエージェンティックAI"と"遊ぶゲームを真剣に考えるべき時が来ているのかもしれない。
人間同士が遊ぶゲームをAIと遊んでも基本的に勝ち目がない。
AI"と"人間が、対等に近い状況で遊べるようなゲームを考え出す必要がある。


