見出し画像

AIエージェントによってGUIは不要になる? 自然言語なら初心者にも使いやすい? 過去の議論の蓄積を踏まえて考えてみよう

GUIは死ぬ、これからはエージェントだ、とか気軽に言ってるAIに驚きがちな人は、インターフェイス論・HCIをもうちょっと勉強してみたほうがいい。手始めにこんな本からどうか。なお、有力HCI研究者にもGUI死ぬ派はいるみたいで、そこは徹底的な議論が必要ですね。

「AIエージェントはコマンドライン(CLI)の進化系で、GUIの限界を超える」的な議論を見ると、いやいや、その議論にはでっかい穴が開いてますよ、と言いたくなる。これは昔からそうで、べつに新しい話じゃない。それは前掲書「失敗の本質」を読めば分かる。

いまAIエージェントに全ベットして「GUIを超える」と主張してる人たち、自分が批判している当の「CLIの限界」を自ら体現してることに気づいてないんだよな。(ヒント:AI活用に熟達しすぎ)

……とツイートしたんだけど、詳しくは長くなるのでここに書いている(以下はSlackで社内向けに書いた文章)。

「自然言語だからやさしい」は本当か

さきほどのような主張をするAI推進派の人たちは、AIを使う態度として、「AIにできそうなこと/できなそうなこと」をあらかじめ自分の中で(もはや無意識に)切り分けて、AIができそうなことだけ依頼してると思うんだよね。それが現時点で「AI活用が上手い」ってことだし。

一方、まだAIに慣れてない初心者は、その切り分けがうまくできないから、なんでもかんでもAIに依頼する、つまり無茶振りして、「AIは役に立たないな」って思うわけよね。初心者に「いまのAIはなんでもできるから、なんでも頼んでみて」って言って渡したら、そういう結果になるわけじゃん? 「宿題かわりにやって」

それって「コマンドを熟知して使いこなす必要があるCLI」と何が違うの? って話なんですよ。

CLIを批判し、それを乗り越えるものとしてAIエージェントを位置付けているけれど、そこで盲点になってるのは「AIを使いこなしすぎている自分のリテラシーがあまりにも高すぎてAI初心者ユーザーが置いてけぼりになっている」ということなんですよね。

「AIによってUIの学習コストが低くなる」という話をしようとしているのに、おかしな話になってるわけ。

「ChatGPTを使い尽くす! 深津式プロンプト」とかね、大変有益だと思いますよ。でも、そういうテクニックを身につけないと活用できないのって、「UNIXコマンドは一通り覚えてからターミナル(CLI)にアクセスしてね」と何が違うの? 実質的に「コマンド」を覚えないと使えないUIになってるわけじゃん。「自然言語だからやさしい」とはならんのよ。

「小人さん」問題

この問題は『ユーザインタフェース開発失敗の本質』で「小人さん」として指摘されている失敗パターン。コンピューターの中に入っている、とても気がきく「小人さん」。初心者による具体性に乏しいプロンプトにも「いい感じ」で結果を返してくれる「小人さん」。そんなものはもちろん不可能。それを想定したシステムは、実現可能性が低い空理空論だと言わざるを得ない。

(こういうことが見抜けないベンチャーキャピタリストが「小人さん」ベースのテクノロジーに投資してベーパーウェアになっちゃうんだよなあ)

AIが「いい感じ」にやってくれることを前提にしたシステム設計。そんなものは上手くいかない。そんなにユーザーの状況を察して便利に動いてくれる「小人さん」はコンピューターのなかに入ってない。

AIが知り得るデータとは、人間が現実世界や自己の状況をデータ化して与えたものか、コンピューターが自らセンシングして取得したもの。それ以外の状況をAIは知りえない。AIが「いい感じ」に動くための前提となるデータは不足しがち。だから具体的な指示を与えないといけない。

マジカル・インストラクション

AIの中身に「小人さん」を期待することの問題って、人間に置き換えると、部下に「いい感じにやっといて」と指示する上司の問題に似ている。具体性のない指示の問題。

「いい感じにやっといて」で人が「いい感じ」に動いてくれるには、前提条件というものがある。十分な知識や能力や意欲の備わっている人間に、十分な情報や資源や権限を与えること。もし指示に具体性がなくても、それを補うための文脈や能力があればいい。「気がきく部下」は、優秀な学生として入社してきただけじゃなく、あなたの職場の状況をよく理解しているはず(AIにはそれが難しい)。その前提をすっ飛ばして「いい感じ」を指示しても、うまくいかない。

AIエージェントにうまく仕事をさせることは、仕事の指示をうまく出すことに似ている。仕事における言語化の議論は、「プロンプト・エンジニアリング」などのChatGPT活用法とも共通点が多い。そもそもAIが「人の似姿」を目指して開発されているのだから、様々な点で両者が似てくるのは当然だ。

余談だが、「指示(インストラクション)」は情報アーキテクチャ分野の重要なテーマ。情報アーキテクトという職業のパイオニア、リチャード・S・ワーマンは『理解の秘密 マジカル・インストラクション』という本を書いている。「理解」と「指示」は密接に関係している。よく理解させることは、よく指示することである。

AIエージェントは人間の部下に似ている。人を使うのは難しい。AIを使うのも難しい。それが簡単だと思える人は、自分が人類上位数%の特異な能力を持っていることを自覚しないといけない。普通の人にとっては難しいことなのだ。でなきゃ「言語化」うまくできない社会人がこんなに多いはずはない。『理解の秘密 マジカル・インストラクション』などという本が書かれることもない。

今後我々の仕事にもAIを組み込んだシステムの企画が増えてくることだろう。今回論じたようなことを踏まえておかないと、使い物にならないAIシステムを作ることになってしまう。うちは「ゼロベース」で前提から問い直すことで、AIにできることとできないことを切り分けて、きちんと使い物になるAIシステムを企画していきたい。

知覚と認知

具体的な指示を与えなくてもAIが「いい感じ」に動いてくれるためには、指示(プロンプト)に含まれない様々な文脈情報をAIに持たせる必要がある。それは知覚に関わっている。

最近ポシャってニュースになってる「虐待判定AI」も、AIの知覚の問題だったと言える。データを91項目も入力したのに判定精度が悪かった。より多くのデータを入力するのは業務負荷的に無理だった。

AI利用における「データ不足」と「データ入力コスト」のジレンマ。人間なら簡単に知りえる情報を、わざわざAIのためにデータ化してやらないといけない。

AIには身体がない。人間なら、そこにいるだけで多くの視聴覚情報を得られる。AIにはそれができない。だからわざわざデータ化してやらないといけない。

知覚においては、AIよりも人間のチームメイトの方がはるかに優秀。一緒に同じ場にいるだけで、さまざまな情報や文脈を共有できる。あとでわざわざ情報共有の時間や手間をかけずともいい。

GTP 4oの派手なデモも記憶に新しい。Be My Eyesの「バーチャル・ボランティア」として、視覚障害者の「目」の代わりになるというもの。これにも結構なインチキが含まれているんじゃないかと感じた。杞憂ならいいが。

『ユーザインタフェース開発失敗の本質』より:

こうしたシステムのデモには多くの場合特徴があり、システムの製作者(もしくは操作に十分習熟した人)がデモした場合には実に見事に動作する。あたかも人間が応対しているかのようだ。 そしてそうした「裏の構造」を知らない人が操作しようとした途端システムは動かなくなる。

マルチモーダルなGPT-4oは、「外界の状況を知覚できるコンピューター」という理想に向けた大きな前進に見える。しかし、あのデモは技術を実態以上に大きく見せる誇大広告(ハイプ)の予感がする。だとすればリリース後に人々の失望を買うことになるだろう(典型的ハイプ・サイクル)。

誇大広告と失望のアップダウンを繰り返しながら、少しずつ進歩していくのがIT業界。それは歴史が証明している。

GUIのアフォーダンス

AIのチャットUIは「ユーザーが何をやらせることができるのか」についての手がかりを与えない。そこがGUIとの大きな違い。

画像
ChatGPTは「お手伝いできることはありますか?」と聞いてくる。ぼくは「まず、お前に何ができて、何ができないのか教えろや、だいたいのことが出来ねえだろ、俺の代わりに金稼いでくれんのか?」と思う。アラン・クーパー節で。

これは「アフォーダンス」の理論で分析できる。チャットAIの問題は、それが初心者ユーザーに「なにができるか」をアフォードしないことにある。一方、GUIなら初心者でも「なにができるか」が一目瞭然だ。

ただし、中級者なら「AIになにができるか」を知っているので、チャットUIを使いこなせる。空っぽの入力フォームを見て、「なにを入力すれば、どんな出力が得られそうか」を予期することができる。UNIXユーザーがコマンドをたくさん覚えてCLIを活用できるように。

同じ人工物であっても、ユーザーが知覚するアフォーダンスは、そのユーザーの能力に依存する。アフォーダンスとはユーザビリティ(利用可能性)の知覚であり、知覚できるユーザビリティとは「自分がそれをどう利用できるか」ということだから。

凡人とパルクール選手とでは、同じ壁を見ても「それによって自分ができること」として受け取る価値(壁のアフォーダンス)が違う。凡人は垂直な壁を見て「登れる」とは感じない。パルクール選手なら「登れる」と感じる。この違い。

凡人は「お手伝いできることはありますか?」という入力フォームだけ見せられても、自分がそれで何かできるとは思わない。あるいは、AIにできるはずもない無茶振りをして失望することになる。これが中級者ともなれば「深津式プロンプト」的な賢い指示を出すことができる。この違い。

ChatGPTのようなチャット型UIのAIには、アフォーダンスの問題がある。これは原理的な問題であり、いまの延長線上に解決策はなさそうだ。根本的にインタラクションの再設計が必要だろう。それはつまりGUIを使うということだ。アフォーダンスの点でGUIには圧倒的な優位性がある。

AIのチャットUI(プロンプト)とGUIを、対立と捉えるのではなく、「止揚すべき課題」として捉えないといけない。ぼくなりのビジョンについて、とあるスタートアップの社内勉強会で発表させてもらったことがある。それはまたいつか公開する機会があるかもしれない。

いいなと思ったら応援しよう!

コメント

1
こぐまざ
こぐまざ

生物は止揚する中で先を読むことでエントロピーを下げ生物体としての存在を維持しています。なので常に情報についても情報エントロピーを下げる行動は必然です。なので「止揚すべき課題」は、生物として存在する限り続くものであり、続けるべきものだと思っています。
逆に辞めた瞬間にその部分では生命捨てたも同然なのかと。

よって同意です。

ログイン または 会員登録 するとコメントできます。
AIエージェントによってGUIは不要になる? 自然言語なら初心者にも使いやすい? 過去の議論の蓄積を踏まえて考えてみよう|石橋秀仁
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1