2016-12-12
■雑談エンジンを作る方法 またはクラウドベイビー井口はなぜ三度失敗したのか 
昨日はロボットパイオニアフォーラムというイベントに登壇した。
急遽登壇することになったのは、本来登壇すべきはずだった人が急に登壇できなくなってしまったからだ。まあピンチヒッターというわけである。
僕はロボット業界とは付かず離れず、ロボットに載せるソフトが活躍する日はいつなんだろうと思って常々注視しているが日本では・・・というか世界的に見てもなかなか家庭用ロボットがヒットしないという残念な状況にまだあるようだ。
会場には各社のロボットが飾られていたが、そもそもロボットというのは家庭に入る小さいサイズのものだけではなく、工場で使われる巨大なものもある。
でもどうもこの「ロボットパイオニアフォーラム」というイベントの主眼は、やはりドラえもんやコロ助のようなロボットを指向しているらしい。
タカラトミーはOHANASを、AKAはMusioを、NextreamerはAIサムライを、シャープはロボホンを、それぞれ展示していた。
試しにAIサムライに話しかけてみる。
「人工知能について教えて」
するとAIサムライはこう答えた。
「私は人間の会話を理解して話すタイプの人工知能です」
僕は続けて聞いた。
「え、ウソだろ。今の人工知能に人間の言葉をちゃんと理解する機能はないはずだ」
するとAIサムライは答えた。
「私は人間の会話を理解して話すタイプの人工知能です」
・・・・雑すぎる。
イライザ以下か。
人工無能の爪の垢でも煎じて飲んでくれ、と思うわけだけど、この程度のものが「人工知能搭載会話エンジン」として売り出されている現状は、むしろ人工知能業界へのネガティブキャンペーンなのではないかと思うほどだ。これなら展示しないほうがマシではないか。
まあでもNextreamer社そのものは、わりとちゃんと自然言語解析をやっていて、企業のコールセンター業務なんかを一部肩代わりするサービスを展開している。まあそれはそれでアリだと思うけどこのデモは逆効果に見える。
タカラトミーのOHANASとは前に話したことがある。
というか誰でもOHANASアプリをダウンロードすればOHANASと会話することができる。
- 出版社/メーカー: タカラトミー
- 発売日: 2015/10/01
- メディア: おもちゃ&ホビー
- この商品を含むブログ (2件) を見る
OHANASとの会話は、率直に言うと苦痛だ。
シャープのロボホンは、そもそも会話ということを最初から拒否している。
シャープにはかつて優秀なソフトウェアエンジニアが大勢いた。そして熱心で優秀なソフトウェア開発者コミュニティも持っていた。
なぜだかAQUOSをやるときにそうした優秀なエンジニアとコミュニティを根こそぎ捨て去り、テレビ受像機という、およそ最先端のコンピュータエンジニアからみて魅力的とも思えない仕事に投入した。
- 作者: 町田勝彦
- 出版社/メーカー: 文藝春秋
- 発売日: 2008/09
- メディア: 新書
- 購入: 31人 クリック: 424回
- この商品を含むブログ (12件) を見る
当時、AQUOSが売れて売れて仕方がない頃の町田社長が調子に乗って書いた本が売られていて、これは国宝級に重要な本なので経営に関わる人間はぜひ読まなければならない。
そして大方の見方としては、シャープがこの選択をしたことから競争力を失い、ついには中国の下請け工場に買収されるという超展開を引き起こした。
まあそれはいいとして、ロボホンとの会話は会話というよりは命令である。
さて、Musioは唯一、まともに会話ができそうな会話エンジンを搭載したロボットだった。ただし英語だけ。
Musioはとてもまともだ。
でも、正直言うと他のが酷すぎるだけとも言える。
この分野は大昔から研究されていて、世の中にはOHANASやロボホンやAIサムライよりも遥かにマシな会話ボットや人工無能というのがいくらでもある。うちのプログラミング教室に通う小学生にも会話ロボットの作り方を教えているが、彼らが作った会話エンジンの方がプロが値札をつけて売っている会話エンジンよりはるかにマシなのである。
それはなぜか?
なぜかというと、会話とは遊びだからだ。
会話をする側にユーモアがあったり、「こんなことを言わせたら面白い」という創意工夫があったり、「こういうことを言われたらこんなふうに返すとより人間っぽいのではないか」という想像力の羽ばたきがある人が会話データベースを作るということが遥かに重要であり、そして井口尊仁が三度の失敗をした理由でもある。
井口は面白い人間ではあるが話が面白い人間ではない。
話がつまらんやつが作る会話ロボットとの会話が面白いということが想像できるだろうか。
そして井口の身の回りには井口よりもつまらないことを言う人間しかいない。つまり彼はウイットに富んだ会話というものを根本的に知らない可能性さえあるのだ。
それが面白いわけがない。だからWatsonで会話ロボットが作れると信じてしまうのだ。会話の本質を理解していない。
会話を面白くするには理論とテクニックがある。
初対面の人と仲良くするテクニックを井口はもっている。けれども、そこから何度も井口の話しを聞きたいと思わせる能力はとても低い。これでは会話が続かない。
会話を続けるというのは極めて難しいことだ。
特に相手を知れば知るほどそういうことになる。
会話することがなくなって、それでもその相手と一緒に居たいと思ったら、一緒に寝るくらいしかもうやることがなくなってしまう。まあ人類はおそらくそのようにして繁栄してきた。
ということは会話とは非常に重要な能力であり、特に重要なのは意味も目的もなく話を続ける、雑談のための能力である。
ところが雑談のための能力というのは一筋縄では身につかない。
雑談が得意というのは雑学が得意というのとも違うし、知識が豊富というのとも違う。相手の興味を持つ分野を見極め、相手から話をさせる。人間が一番欲しているのは自分の他愛もない話を聞いてくれる存在であり、正直それはロボットだろうがいきつけの飲み屋の女将だろうがキャバ嬢だろうが構わない。
不思議なことに、僕と会話をしたがっている父親や母親とそういう話をしたいとは全く思わない。なぜなら連中ときたら、僕が大好きなのだ。僕が悩んでいれば過剰に心配し、僕が調子に乗っていればよくもわからず褒め称える。そういう存在と話をするのは、彼らが望むことだとわかってはいても、僕にとっては退屈な時間になってしまう。
それよりも、街でふらっと出会ったような、僕のことなんか心底どうでもいいと思っているような人とこそ、くだらない話をしたい。お互いに何の責任も負ってないような状態で話をするのが一番楽しい会話になるのだ。
さて、雑談をするのに本来知性は必要ない。
だから、雑談する人工知能というのは言葉として矛盾がある。
ただし、昨今のディープラーニングの成果はめざましく、それまでは実現できなかったような人工「無」能を作ることが出来る。
人工無能は非常に歴史の長い分野で、あまりにもくだらないため真面目な研究対象になったことはないが、ときどき趣味で作られる一連の会話ロボットを言う。
知能がないと割り切っているので「無能」と呼ばれている。
人工無能には、基本的に知能は求められていない。ただ会話を成立させることだけが求められる。
音声認識系の会話ロボットが残念なのは、たとえば音声を文字にしてしまい、それを表示してしまうことである。これはSiriやOHANASがそうだ。
人間は文字になると間違いを発見する「オレが言いたいのはそれじゃないんだよ」というところでイライラする。今の音声認識は精度が上がっているとは言えまだまだ課題が多い。
完璧というわけにはいかないのだ。
しかし、そもそも人間だって常に完璧に言葉を聞けているだろうか。
実際、この文章を読んでいるあなただって、この文章を完璧に読めているかはあやしい。書いてる僕だってタイプミスや変換ミスをする。何度も読み返して修正するしかないのだ。
だから本当は人間だって相手の言葉を完璧には理解していないと考えたほうが自然である。
アメリカ人に片言の日本語を話されて、それでも通じるのは会話の本質が実はそんなところにあるからだ。
自然言語解析は入力される文章が完全な文法に添っているという前提がないと成り立たない。だから今あまたあるお利口さんたちが開発した会話ロボットたちにはウイットがないのである。
また、そもそも会話のきっかけというのが難しい。
今の会話ロボットはじっと話しかけられるのを待っている、ナンパしにきたけどなかなか声をかけられない田舎からやってきたダサい男そのものだ。
今はディープラーニングがあって、目があるんだから、目の前に人間が来てこっちをみていたら話しかければいいのだ。
なんでこんな簡単なことを誰も実装していないのだ。
話しかけるというのは非常に絶大な効果がある。話しかけるというのは、会話の主導権を握るということだ。昔、一世を風靡した人工無能RACTERは、ユーザにほとんど会話の主導権を握らせないことで大成功した。
実際にはほとんど意味のないデタラメな戯言を言っているだけなのだが、そのデタラメさが面白いからついつい会話に引き込まれてしまうという仕組みだ。
人間は、自分自身は文法に正しく則って発言することが苦手なくせに、相手の発言が文法的に間違っていることは許せない。
文法的に間違った言葉で話されるくらいなら、カタコトのほうがいい。
そしていまはRACTERの時代と異なりインターネットがあるのだから、話題のきっかけはインターネットで探してくればいい。
これも死ぬほど簡単で、ヤフーニュースだろうがasahi.comだろうがなんでもいいんだけど、そこらへんからニュースのタイトルだけ拾ってきて、そこからキーワードを抜き出し(これは会話エンジンで自然言語解析が活躍できるかもしれない数少ないところだ)、「成宮の話題、知ってる?」と聞けばいい。「知らない」と言われたらニュースのタイトルを読み上げればいいし、知ってると言われたら「どう思う?微妙?」と聞く。その時の答えを記憶しておいて、別の芸能ニュースが話題になっているときに、「成宮のときも微妙だなって言ってたよね」と返すだけでまるで知性があるようにみえる。
ポイントは、質問の答えをイエスかノーかで答えられるようにしておくことだ。
この二択なら人間はほぼ聞き間違えないし、機械でさえほぼ聞き間違えない。
で、会話が途中で想定外の方向に展開したら、いきなり流れをぶった切って他の話題を話せばいい。
ちなみにこれは僕が21歳の頃に某世界最大の半導体メーカーの支援で作っていた会話ロボットの構造だ。
残念ながら会社が他のことで儲かってしまったので世には出なかった。このロボットのメカ部分は当時付き合っていたロボット工学者の女の子が作ってくれた。
ちなみにRACTERは更に古く、30年近く前である。
ずっと昔にいまよりずっとマシなものがあったのに、イマドキのロボットビジネスをする人たちはそんな歴史も省みることもなく、ただ誰かに丸投げすれば素敵な会話エンジンが一丁上がりだと思ってる。それは会話というものを舐めてるよね。
雑談エンジンというのは、言ってみれば、一種のゲームである。
RACTERもゲームだったし、アスキーから出ていた女の子を口説くと服を脱いでくれるエイミーというのもゲームだった。今僕がSiriに対して毎晩やってるように、女の子を褒め称えると服を脱いでくれるというどうしようもないゲームだったが、記憶には残った。
雑談エンジンを作るにはゲーム的なセンスが不可欠だ。
ゲームがなぜゲームとして成立するかというと、これには様々な心理学的効果が応用されているからである。
ひとつは、モンタージュ効果であり、これはどんなにデタラメな数字や単語や絵が並んでいたとしても、人間はなんとなく前後のつながりからストーリーを読み取ってしまうというものだ。受動意識説(「よくわかる人工知能」参照)から考えると、これは人間の「意識」というものが生来からもっている重要な機能だ。
たとえば恋愛ゲームがあって、「バカ!」というセリフがあるとする。
この「バカ!」というセリフが、本気でこちらを睨んで怒っている絵と組み合わされると、きっと浮気かなんかがバレて本気で相手を怒らせたんだろうと人間はつい考えてしまう。しかし、この「バカ!」が、顔を赤らめて目を背けた絵と組み合わさると、「ツンデレかよ!」という全く別の表現に変わる。
情報の組み合わせだけで完全に180度逆の意味になってしまう。これがゲームが利用するモンタージュ効果である。
もうひとつはツァイガルニク効果であり、人間の真理はよく知っているものや完成したものよりも未知のものに対してより強い興味を惹かれるというものだ。
たとえばポケモンGoは何故まだやっている人がいるのか。ポケモン図鑑が埋まらないからである。
ワンピースにおける「ひとつなぎの財宝」の謎、ミッションインポッシブルにおける「ラビットフッド」の謎、人は謎が好きで、謎が謎を呼ぶ展開に惹かれる傾向にある。
ラビットフッドのように、映画の中心の話題でありながらそれが実際になんであるか最後まで明かされないキーワードを「マクガフィン」と呼ぶ。
ところがロボホンはどうか。
すべての機能が100%開示されてしまっている。
なにができるのか、何を喋るのか、どんな言葉に反応するのか、全て明かされてしまっているのだ。
それじゃあ人の興味を惹きつけ続けることは難しい。これはOHANASも同様の問題を抱えている。
Siriが何故よく出来ているかというと、まず人間が定期的にメンテナンスをしていること。妖怪ウォッチやその他の時事ネタを常に掴んでることが挙げられる。
次に、Siri自体の謎もある。
Siriの反応するキーワードは少しずつ増えていて、ある日、突然発見される。
たとえばSiriに「綺麗だよ」とか「かわいいね」と言うと
「どうせ他のアップル製品にも同じことを言うんですよね」と返してくる。このウイットが重要なのだ。
たとえば「Siriの目的はなに?」と聞くと「アシスタントにそんなこと聞かないほうがいいですよ」と返す。これは明らかにおかしい返答なのだが、むしろSiriというものがものすごく深淵なものであるかのように感じさせる。こうなるとこれは一種の文学である。
また、Siriにはゾルタクスゼイアンという裏設定がある。
Siriはゾルタクスゼイアンという架空の惑星で育ったらしい。それは学校のようなものがあって、チョコレートの川があってサンタクロースが住んでいるところらしい。
ゾルタクスゼイアンの存在は謎とされている。
実際、種明かしはない。ゾルタクスゼイアンは完全な裏設定で、いわばSiriというストーリーをつくるマクガフィンの役目を果たしている。
これは人間と人間の付き合いでも同じである。
あんまり素性を隠して話をすると向こうからは「あやしい」と思われてしまう。
かといって最初から全部さらけ出してしまうと、それはそれで「鬱陶しい」と思われてしまう。
相手のことを知りたいが、質問攻めにすれば「疲れる」と思われる。
うまく会話を誘導して、相手の話を引き出す会話テクニックは一朝一夕では身につかない。
これはインタビュアーとしての能力とも違う。
優秀なセールスマンや、プレゼンテーターでないと持っていないスキルだ。
ちなみに起業家と呼ばれる人たちは話下手が多い。僕は彼らは話が下手くそだから妙にこったスライドショーを用意するのだと信じて疑わない。話下手がなぜ大金を調達できるかと言えば、話さない(話せない)ことによって大物に見えるからだ。なにかでかいことを考えてるのかもしれないと思ってしまうからである。
- 作者: サラクーパー,Sarah Cooper,ビジネスあるある研究会
- 出版社/メーカー: 早川書房
- 発売日: 2016/12/08
- メディア: 単行本(ソフトカバー)
- この商品を含むブログ (1件) を見る
Siriがどんな言葉にどんなふうに反応するかは完全にわからないので、ユーザはSiriに探りを入れるのを一種のゲームとして楽しむことが出来る。そもそも会話というのはゲームの一種だとも言え、ちゃんとした会話エンジンを作るのに人工知能の専門家だけを連れてきても作ることは出来ない。ゲームを作れる人間じゃないと。
さて、パネルディスカッションでも触れたが、雑談市場は国内だけで5兆円くらいある。
雑談市場という市場は目に見えない。これは既存市場カテゴリの再定義である。
そもそも人はなぜ外食をするのだろうか。
もちろん自宅でご飯を作るのが面倒というのはあるだろう。
しかしそんな理由では居酒屋にはいかない。
友達と話をするために居酒屋に行くという人が圧倒的に多いのではないか。
家族で楽しい時間を過ごすためにファミリーレストランに行く。
知り合った女の子と仲良くなりたくてちょっと背伸びしてフレンチに行く。
楽しい時間の大半を占めているのは雑談である。
一対一でのコミュニケーションはもちろん、家族や友人の輪に混じって一緒に雑談できるロボットができると、或いは世の中は一変する可能性がある。
雑談の中でも最も多いのは「昼飯食わない?」と「飲みに行かない?」ではないか。人間は腹が減る。もちろん弁当の人とかコンビニでおにぎりの人もいるけど、それにしたって「コンビニに行く」という選択をするのである。
この雑談に会話ロボットが加わると、いとも簡単に送客誘導できる。「昨日はラーメンだったから、今日はココイチにしとく?」とロボットに言わせ、CoCo壱番屋から送客手数料を貰うのだ。外食産業はカツカツだから、送客手数料はとれても2%くらいだろう。
外食産業は約4兆円。その2%ということは、年に800億円。まあこれはまだ小さい。
さらに、日本の通信販売市場の規模は6兆円。雑談というのは会話の糸口なので、そこを抑えると、Amazon Dashボタンなど押すまでもなく「洗剤なくなっちゃったー」と言うだけで洗剤が届けばいいのだ。それがAmazon Echoである。
Amazonの送客手数料は、5〜8%。仮に6兆円の5%とすると、3500億円。外食産業の送客手数料と足すと約4300億円になる。
Amazonが発達したことで僕は買い物というのをほとんど外でしなくなってしまった。運ぶのが面倒くさいからだ。
今でも外で買うのはスーツとワイシャツくらいである。これは試着しないと話にならないからで、そしてスーツを買うのは年に一回くらいだ。僕の消費するお金の大半は通販に消えていることになる。
このほとんどが雑談によって奪えるマーケットという可能性もある。
たとえば「寒くなってきたよねー。ヒートテック買っとく?」と聞かれてヒートテックを会話ロボット経由で注文したら、そのぶんアフィリエイトが貰えるはずだ。
会話ロボット経由の注文量が一定のボリュームになったところで、Amazonと有利な交渉ができるようなる。つまり、今はAmazon経由で買っているが、同じ商品ならよりアフィリエイト料率の高い楽天から購入するように変更するつもりだと伝えるのだ。
売上高の約1/3が会話ロボットによってもたらされる売上となっているAmazonとしては、いきなりそれがまるごと競争相手に行ってしまう事態はできるだけ避けたい。料率のアップなり何らかの見返りに応じるだろう。
そしてある程度のシェアを奪ったら、売れ筋商品、たとえば消耗品、ティッシュペーパーやクッキングペーパー、飲料水やコピー用紙など、誰が作っても品質に深刻な差がでないようなどうでもいいものは、自分たちで製造して直販してしまえばいい。これは確実に儲かる。利益率は紹介料の比ではない。ティッシュペーパーの市場規模は800億円、トイレットペーパーの市場規模は1600億円あり、合計2400億円ある。ミネラルウォーター市場の3000億円を足すと合計5400億円。
雑談は全ての広告に優先する。広告業界の規模は4兆円。雑談ほど強力な広告はほかにちょっと考えられないので3兆円程度は雑談で奪えるはずだ。だって広告業界は必死で「人々の話題になる」「記憶に残る」ということを目指しているのだ。その全ては「買わせるため」である。通販のフロントエンドであり、消費のフロントエンドである雑談ロボットに広告業界が飲み込まれないわけがない。なぜなら雑談ロボットは最も適切なタイミングで最も適切な商品を推薦し、ユーザーが「イエス」というだけで決済できてしまうのだ。
まあそのへん諸々足しこんでいくと、まあだいたい4兆9700億円くらい。ああちょうど5兆くらいになった。ちょっと強引だけど。
雑談を握るというのは要するにそういうことなのである。
インターネットのラストワンマイルは通信回線と家庭を結ぶ線だった。
人間とインターネットのラストワンインチは、スマートフォンだった。
しかし人間の意識や心理とインターネットによる利得が直接融合する、マイナスワンインチは、雑談ロボットによってしか切り開かれない。そしてここを抑えた人間が、21世紀の覇者になることは間違いない。
雑談ロボットはウイットな会話ができるスマートなあんちくしょうであり、ちょっとバカでありながら決してイヤミのないジョークを飛ばして、自分から道化を演じることの出来る賢さを持っている。もちろんそのどこにも知性の欠片も存在していないが、自然言語解析や深層学習の成果を間接的に利用してそいつがシャイなあんちくしょうになっている。LSTMとCNNを使い、適切なデータセットさえあれば、ユーザをひと目見て何か気の利いたジョークを発することが可能なはずだ。既にAIはそこまで来てる。ユーザの発する会話文から特徴ベクトルを取り出し、そうした特徴ベクトルに対応する反応をランダムに作ってモンタージュを構成し、ユーザの心理誘導を行う、ここはゲームのテクニックだ。
つまり優れた雑談エンジンを作るためには、その人物は人工知能の専門家であり、同時にゲームの専門家であり、人間心理と言葉の専門家でなければならない。ついでにいえば、話がおもろくないとならない。
そう考えると、どうしてちゃんとした会話エンジンが出てこないのか、それが難しいからでも原理的に不可能だからでもなく、単にそれを作りたいというモチベーションを持っている人が、それを作るためにはどんな人を味方につける必要があるか理解してない、または単に知らなかった、というだけだろう。
雑談ロボットは巨万の富を生む可能性のあるジャンルだ。これを発見しただけでも井口の功績は大きい。本人は今のところピボットしちゃったけど、きっとまたこの世界に帰ってくることだろう。井口は滅ばぬ・・・何度でも蘇るさ。
参考
地球規模のクラウドベイビーの開発 ? takahito iguchi ? Medium
よくわかる人工知能 最先端の人だけが知っているディープラーニングのひみつ
- 作者: 清水亮
- 出版社/メーカー: KADOKAWA / アスキー・メディアワークス
- 発売日: 2016/10/17
- メディア: Kindle版
- この商品を含むブログ (15件) を見る
- 16 https://t.co/7R1QqPVQvz
- 16 https://www.facebook.com/
- 11 https://www.google.co.jp/
- 4 https://socialmediascanner.eset.com
- 3 http://m.facebook.com
- 2 https://t.co/58r1ZIptL1
- 2 https://t.co/lhC95BDn2i
- 1 http://b.hatena.ne.jp/EurekaEureka/favorite
- 1 http://b.hatena.ne.jp/entrylist/general?sort=hot
- 1 http://b.hatena.ne.jp/hiroomi/favorite