AIエージェントによってGUIは不要になる? 自然言語なら初心者にも使いやすい? 過去の議論の蓄積を踏まえて考えてみよう
GUIは死ぬ、これからはエージェントだ、とか気軽に言ってるAIに驚きがちな人は、インターフェイス論・HCIをもうちょっと勉強してみたほうがいい。手始めにこんな本からどうか。なお、有力HCI研究者にもGUI死ぬ派はいるみたいで、そこは徹底的な議論が必要ですね。https://t.co/uFDAp6GjbL
— 石橋秀仁 (@zerobase) March 4, 2025
GUIは死ぬ、これからはエージェントだ、とか気軽に言ってるAIに驚きがちな人は、インターフェイス論・HCIをもうちょっと勉強してみたほうがいい。手始めにこんな本からどうか。なお、有力HCI研究者にもGUI死ぬ派はいるみたいで、そこは徹底的な議論が必要ですね。
「AIエージェントはコマンドライン(CLI)の進化系で、GUIの限界を超える」的な議論を見ると、いやいや、その議論にはでっかい穴が開いてますよ、と言いたくなる。これは昔からそうで、べつに新しい話じゃない。それは前掲書「失敗の本質」を読めば分かる。
いまAIエージェントに全ベットして「GUIを超える」と主張してる人たち、自分が批判している当の「CLIの限界」を自ら体現してることに気づいてないんだよな。(ヒント:AI活用に熟達しすぎ)
……とツイートしたんだけど、詳しくは長くなるのでここに書いている(以下はSlackで社内向けに書いた文章)。
「自然言語だからやさしい」は本当か
さきほどのような主張をするAI推進派の人たちは、AIを使う態度として、「AIにできそうなこと/できなそうなこと」をあらかじめ自分の中で(もはや無意識に)切り分けて、AIができそうなことだけ依頼してると思うんだよね。それが現時点で「AI活用が上手い」ってことだし。
一方、まだAIに慣れてない初心者は、その切り分けがうまくできないから、なんでもかんでもAIに依頼する、つまり無茶振りして、「AIは役に立たないな」って思うわけよね。初心者に「いまのAIはなんでもできるから、なんでも頼んでみて」って言って渡したら、そういう結果になるわけじゃん? 「宿題かわりにやって」
それって「コマンドを熟知して使いこなす必要があるCLI」と何が違うの? って話なんですよ。
CLIを批判し、それを乗り越えるものとしてAIエージェントを位置付けているけれど、そこで盲点になってるのは「AIを使いこなしすぎている自分のリテラシーがあまりにも高すぎてAI初心者ユーザーが置いてけぼりになっている」ということなんですよね。
「AIによってUIの学習コストが低くなる」という話をしようとしているのに、おかしな話になってるわけ。
「ChatGPTを使い尽くす! 深津式プロンプト」とかね、大変有益だと思いますよ。でも、そういうテクニックを身につけないと活用できないのって、「UNIXコマンドは一通り覚えてからターミナル(CLI)にアクセスしてね」と何が違うの? 実質的に「コマンド」を覚えないと使えないUIになってるわけじゃん。「自然言語だからやさしい」とはならんのよ。
「小人さん」問題
この問題は『ユーザインタフェース開発失敗の本質』で「小人さん」として指摘されている失敗パターン。コンピューターの中に入っている、とても気がきく「小人さん」。初心者による具体性に乏しいプロンプトにも「いい感じ」で結果を返してくれる「小人さん」。そんなものはもちろん不可能。それを想定したシステムは、実現可能性が低い空理空論だと言わざるを得ない。
(こういうことが見抜けないベンチャーキャピタリストが「小人さん」ベースのテクノロジーに投資してベーパーウェアになっちゃうんだよなあ)
AIが「いい感じ」にやってくれることを前提にしたシステム設計。そんなものは上手くいかない。そんなにユーザーの状況を察して便利に動いてくれる「小人さん」はコンピューターのなかに入ってない。
AIが知り得るデータとは、人間が現実世界や自己の状況をデータ化して与えたものか、コンピューターが自らセンシングして取得したもの。それ以外の状況をAIは知りえない。AIが「いい感じ」に動くための前提となるデータは不足しがち。だから具体的な指示を与えないといけない。
マジカル・インストラクション
AIの中身に「小人さん」を期待することの問題って、人間に置き換えると、部下に「いい感じにやっといて」と指示する上司の問題に似ている。具体性のない指示の問題。
「いい感じにやっといて」で人が「いい感じ」に動いてくれるには、前提条件というものがある。十分な知識や能力や意欲の備わっている人間に、十分な情報や資源や権限を与えること。もし指示に具体性がなくても、それを補うための文脈や能力があればいい。「気がきく部下」は、優秀な学生として入社してきただけじゃなく、あなたの職場の状況をよく理解しているはず(AIにはそれが難しい)。その前提をすっ飛ばして「いい感じ」を指示しても、うまくいかない。
AIエージェントにうまく仕事をさせることは、仕事の指示をうまく出すことに似ている。仕事における言語化の議論は、「プロンプト・エンジニアリング」などのChatGPT活用法とも共通点が多い。そもそもAIが「人の似姿」を目指して開発されているのだから、様々な点で両者が似てくるのは当然だ。
余談だが、「指示(インストラクション)」は情報アーキテクチャ分野の重要なテーマ。情報アーキテクトという職業のパイオニア、リチャード・S・ワーマンは『理解の秘密 マジカル・インストラクション』という本を書いている。「理解」と「指示」は密接に関係している。よく理解させることは、よく指示することである。
AIエージェントは人間の部下に似ている。人を使うのは難しい。AIを使うのも難しい。それが簡単だと思える人は、自分が人類上位数%の特異な能力を持っていることを自覚しないといけない。普通の人にとっては難しいことなのだ。でなきゃ「言語化」うまくできない社会人がこんなに多いはずはない。『理解の秘密 マジカル・インストラクション』などという本が書かれることもない。
今後我々の仕事にもAIを組み込んだシステムの企画が増えてくることだろう。今回論じたようなことを踏まえておかないと、使い物にならないAIシステムを作ることになってしまう。うちは「ゼロベース」で前提から問い直すことで、AIにできることとできないことを切り分けて、きちんと使い物になるAIシステムを企画していきたい。
知覚と認知
具体的な指示を与えなくてもAIが「いい感じ」に動いてくれるためには、指示(プロンプト)に含まれない様々な文脈情報をAIに持たせる必要がある。それは知覚に関わっている。
最近ポシャってニュースになってる「虐待判定AI」も、AIの知覚の問題だったと言える。データを91項目も入力したのに判定精度が悪かった。より多くのデータを入力するのは業務負荷的に無理だった。
AI利用における「データ不足」と「データ入力コスト」のジレンマ。人間なら簡単に知りえる情報を、わざわざAIのためにデータ化してやらないといけない。
AIには身体がない。人間なら、そこにいるだけで多くの視聴覚情報を得られる。AIにはそれができない。だからわざわざデータ化してやらないといけない。
知覚においては、AIよりも人間のチームメイトの方がはるかに優秀。一緒に同じ場にいるだけで、さまざまな情報や文脈を共有できる。あとでわざわざ情報共有の時間や手間をかけずともいい。
GTP 4oの派手なデモも記憶に新しい。Be My Eyesの「バーチャル・ボランティア」として、視覚障害者の「目」の代わりになるというもの。これにも結構なインチキが含まれているんじゃないかと感じた。杞憂ならいいが。
『ユーザインタフェース開発失敗の本質』より:
こうしたシステムのデモには多くの場合特徴があり、システムの製作者(もしくは操作に十分習熟した人)がデモした場合には実に見事に動作する。あたかも人間が応対しているかのようだ。 そしてそうした「裏の構造」を知らない人が操作しようとした途端システムは動かなくなる。
マルチモーダルなGPT-4oは、「外界の状況を知覚できるコンピューター」という理想に向けた大きな前進に見える。しかし、あのデモは技術を実態以上に大きく見せる誇大広告(ハイプ)の予感がする。だとすればリリース後に人々の失望を買うことになるだろう(典型的ハイプ・サイクル)。
誇大広告と失望のアップダウンを繰り返しながら、少しずつ進歩していくのがIT業界。それは歴史が証明している。
GUIのアフォーダンス
AIのチャットUIは「ユーザーが何をやらせることができるのか」についての手がかりを与えない。そこがGUIとの大きな違い。
これは「アフォーダンス」の理論で分析できる。チャットAIの問題は、それが初心者ユーザーに「なにができるか」をアフォードしないことにある。一方、GUIなら初心者でも「なにができるか」が一目瞭然だ。
ただし、中級者なら「AIになにができるか」を知っているので、チャットUIを使いこなせる。空っぽの入力フォームを見て、「なにを入力すれば、どんな出力が得られそうか」を予期することができる。UNIXユーザーがコマンドをたくさん覚えてCLIを活用できるように。
同じ人工物であっても、ユーザーが知覚するアフォーダンスは、そのユーザーの能力に依存する。アフォーダンスとはユーザビリティ(利用可能性)の知覚であり、知覚できるユーザビリティとは「自分がそれをどう利用できるか」ということだから。
凡人とパルクール選手とでは、同じ壁を見ても「それによって自分ができること」として受け取る価値(壁のアフォーダンス)が違う。凡人は垂直な壁を見て「登れる」とは感じない。パルクール選手なら「登れる」と感じる。この違い。
凡人は「お手伝いできることはありますか?」という入力フォームだけ見せられても、自分がそれで何かできるとは思わない。あるいは、AIにできるはずもない無茶振りをして失望することになる。これが中級者ともなれば「深津式プロンプト」的な賢い指示を出すことができる。この違い。
ChatGPTのようなチャット型UIのAIには、アフォーダンスの問題がある。これは原理的な問題であり、いまの延長線上に解決策はなさそうだ。根本的にインタラクションの再設計が必要だろう。それはつまりGUIを使うということだ。アフォーダンスの点でGUIには圧倒的な優位性がある。
AIのチャットUI(プロンプト)とGUIを、対立と捉えるのではなく、「止揚すべき課題」として捉えないといけない。ぼくなりのビジョンについて、とあるスタートアップの社内勉強会で発表させてもらったことがある。それはまたいつか公開する機会があるかもしれない。
コメント
1生物は止揚する中で先を読むことでエントロピーを下げ生物体としての存在を維持しています。なので常に情報についても情報エントロピーを下げる行動は必然です。なので「止揚すべき課題」は、生物として存在する限り続くものであり、続けるべきものだと思っています。
逆に辞めた瞬間にその部分では生命捨てたも同然なのかと。
よって同意です。