音声AIがパートナーになる時

元アップルSiri開発者が語る

発売当初は「何のために使うのかわからない」や「家にあるとプライバシーが心配」と、批判的に見られていたアマゾン・ドットコムのアレクサ。それが世界に広がったのには理由がある。米アップルでAI(人工知能)アシスタントのSiri開発に関わった筆者は、アレクサの主要な成功要因を3つ掲げて、本稿をスタートする。ただし、筆者は「音声AIの進化はまだ5%程度にも達していない」と喝破する。アップルが目指すビジョンを引き合いに、音声AIの持つ技術的可能性と、それがビジネスに与えるインパクトについて説く。
『DIAMOND ハーバード・ビジネス・レビュー』2018年11月号より、1週間の期間限定で抜粋版をお届けする。

アレクサが世界を席巻した
3つの成功要因とは何か

 初めてAmazon Echo(アマゾン・エコー)が発表された時、アップル本社では同僚たちと「どうせ失敗に終わるだろう」と話していた。Siriの開発をしていた筆者たちからすれば、携帯性に欠けていて、しかも安物のスピーカーという「檻」に閉じ込められた音声AIということで、話題にすらならなかったのだ。

 2014年に発売された当時のEchoといえば、音声で商品を買えることを売りにしていたが、勘違いで買い物をしてしまわないかという懸念があり、音声AIのアレクサでeコマースを実現することは困難だと見られていた。

 ほかにも、「何のために使えばよいのかわからない」とか、「自分の家にアマゾンが常に聞き耳を立てていると思うと、プライバシーが侵されているようでゾッとする」などという声があった。

 しかし、いまとなっては、筆者の住むシリコンバレーでEchoを所有している人は大勢いて、これからもどんどん売れていく勢いすらある。なぜ、アマゾン・ドットコムはEchoを成功に導くことができたのか。

 そこには主に3つの成功要因がある。これらの要因は、世界で音声AIが注目されている理由をひも解くために重要なヒントとなる。

 成功要因1 音楽

 Echoの風向きが変わってきたと感じたのは2016年辺りからだ。その頃から、筆者の周りでもちらほらとEchoを所有する者が増えてきた。

 アップルの場合、新しいiPhone発売の翌日にはみんなのスマホが変わっていたのに対して、Echoはゆっくりと浸透し、いつの間にかみんなが持っていたという印象だ。

 ランチタイムで「実は先月、Echoが届いて、アレクサがこんなこと言ってさ」や、「あ、実は自分も先週買ったんだよ」などという会話を耳にするようになった。Echoは携帯せずに家に置いてあるので、他人に見せる機会もあまりなかったからだろう。

 アップルの社員は、自社製品に誇りを持っている。特にPCとスマホは、他社製品を社内で見かけることはほとんどない。たまに新入社員がアンドロイド端末を持って入社してくるが、誰に注意されることもなく自然とiPhoneに変わっている。自分がつくった機能が実装された電話を持つことによってユーザー視点を得ることができるようになるし、iPhoneのユーザビリティが優れているということでもある。

 そんなアップルの社員が、曲がりなりにもスマホの領域で“宣戦布告”してきたアマゾンのハードデバイスを自宅に置くのはなぜかと疑問に感じていた。しかも、競合他社のリサーチのために買ったというよりは、一般ユーザーとして購入し、愛用しているようにさえ見えたのだ。

 そのため同僚たちには、「何のためにEchoを使っているか」と聞かずにはいられなかった。答えの9割は「音楽」だった。

 スマホや音楽プレーヤーをスピーカーにつなげればいいではないか、と読者は思われるかもしれない。筆者もそう思ったが、同僚たちからは曖昧な答えばかりだった。こればかりは実際に使ってみないとわからないと思い、購入に踏み切った。

 すると、彼らが言う通り、まずは音楽を聴くようになった。多少古い曲や、曲名があやふやでもかなりの確率でアレクサは探し出してくれる。スピーカーに向かって「音楽を再生して」と言うだけで音楽が流れ始める体験をした。音楽を再生し始めるまでの距離感が圧倒的に短くなり、音楽がより身近になった。

 それまでは、音楽を聴くとなると、まずはスマホなり音楽プレーヤーを引っ張り出して、再生したい曲を探して、スピーカーやヘッドホンにつなげて……と、かなりのステップがあった。

 アレクサならば、いまやっていることをまったく中断することなく、「ジャズを再生」と言うだけで音楽が流れ始める。いまこの文章を書いている最中も、書くという動作を止めることなく、ジャズを流し始めたところだ。

 成功要因2 通信環境

 ユーザーの心をつかんだのなら、後はユーザーをがっかりさせなければよい。だが残念ながら、音声AIを搭載した多くの製品は、ユーザーを落胆させる場面が多い。

 聞いてしゃべることのできるAIということで、自然と比較対象が機械ではなく人間となってしまうからだ。理屈ではいくらコンピュータだとわかっていても、話が通じないと人はがっかりしてしまうものだ。

 その大きな要因は、通信ネットワークの処理の問題だ。何か音声AIに声をかけて、ユーザーを待たせた挙げ句、AIから「何か問題が発生しました」と返ってくると、「音声AIでやるより自分でやったほうが早い」と思ってしまう。

 特に、スマホは持ち運びながら音声AIを使用するので、携帯電波での通信が多くなり、安定しない。音声AIとは、音声を文字に変換するための音声認識や、認識した文字からユーザーの意図を汲み取る「自然言語処理」などの重要な機能をサーバー上で実行する。そのため、スマホがサーバーとの通信ができなければ、音声AIはユーザーのリクエストに応えることができない。

 その点、Echoのよいところは、家に据え置き型の端末であることだ。それにより、ネットワークの問題を解消した。通信がつながらないことがほとんどないため、リクエストが失敗することがあまりない。また、家庭のWi―Fiの通信速度は、携帯電波と比べると速いため、音声AIの反応も早いのだ。

 成功要因3 スキル

 Echoはもともと備わっている機能だけでなく、より大きな仕事に対応するための武器を持っている。それが「スキル」だ。

 スキルとは、スマホのアプリのように、後付けできる機能のことである。外部の開発者が独自に開発でき、公開できる。

 そのため、たとえば、ルンバの製造元iRobotのスキルを学ばせると、アレクサに話しかけるだけでルンバを起動させたり、動かせたりできるのだ。スキルは、スマホアプリのように、Echoに簡単に学ばせることもできる。

 アマゾンは、AWSというクラウドサービスで、自社サーバーが不要でプログラムを動かせるプラットフォームを早くから開発者に提供してきた。そのため、音声AIサービス開発を楽に、早くできるようにした。スキル開発においてAWSが「影の主役」ともいえる存在なのだ。

 Voicebot.aiによると、米国で公開されたアレクサのスキル数は2018年3月に3万件を突破した。後述するが、これは驚異的な仕事量だ。その中でもよく使われるスキルは、スマートホーム関連だという。

 このスキルは、家の電気を消したり、ドアの施錠や解錠をしたり、セキュリティシステムを作動させたりするものである。たとえば、新生児を持つ家庭ならば、子どもを抱っこしながら寝かし付けて、手を離さずに電気を消灯して、子守歌を流すことができる。

 さらに、さまざまな言語で簡単にスキルをつくれるようにしたため、多言語化と多文化対応をスムーズにできるという特性がある。

 日本でも独自のスキルが増えている。たとえば、列車の乗り換え案内や、質問形式の学習教材など、日本市場のニーズをとらえたスキルがいち早く開発されている。

 これらの成功要因を通して、音声AIは世界でも注目され、多くのユーザーが日常的に使うものになりつつある。

 とはいえ、まだまだニッチな商品であることは間違いない。使っているユーザーはもちろん限られているし、音声AIを活用して何ができるかを知っている人も少ないだろう。

 これがキャズム(深い溝)を超えて、一般的なユーザーにも音声AIが親しみを持って接するようになるためには、まだいくつかの課題が残されている。

 そもそも、音声AIの認知度がキャズムを超えた先にはどのような世界があるのか、またその世界が実現されるには何が足りないのか。筆者がSiri開発を志すことにした体験を踏まえて考えてみることにしよう。

ジョブズが最期に感じた
Siriの可能性とは何か

 2011年の夏、もう体も限界を迎えこれ以上CEOを続けられないと悟ったスティーブ・ジョブズは、アップルの取締役会にみずから出席して辞表を提出した。ジョブズは、社長を降りるとだけ告げて帰るのではつまらないと思い、そのまま会議に出席していたらしい。

 生涯をかけて築き上げた企業の最後の取締役会。その内容を、微笑ましい顔をしながら聞いていた彼が最後に見たのがSiriの予行演習だった。すると、それまでは静かに聞いていたジョブズは、「その電話を寄こせ」と、当時の担当者スコット・フォーストール上級副社長のデモ機を取り上げた。

 ジョブズは、すごい勢いでSiriを質問攻めにし、最後に「お前は男か女か」と問いかけた。その時、Siriの返答が「まだ性別をもらっていません」だった。ジョブズは満足げに電話を返したという。Siriは、ジョブズが最期まで気にかけていた機能だったのだ。

 2012年の秋、筆者がエディ・キュー上級副社長にプレゼンテーションをした時のことである。せっかくの機会なので、筆者は、その当時のアップルにとって、最も重要な商品は何かを尋ねた。

 エディは「全部重要だが、強いて言うならSiriだ」と答えた。iTunesのアナリストとして働いていた筆者は正直、この返事に驚いた。続けて、エディはこう述べた。

「マルチタッチが革命を起こしたと確信した時がある。それはまだ幼い子どもたちがテレビ画面に歩み寄って、画面を触り操作しようとした瞬間を見た時である。彼らはiPhoneでの体験があまりにも自然で直感的なために、すべての画面は触れるものと錯覚していた」

 つまり、エディは、音声AIもスマホの画面のようにしなければいけないと考えていた。それは、子どもたちだけでなく、「すべての人があらゆる機器に自然に話しかけることができるような錯覚を与える」ものである。これがSiri開発のビジョンでもあった。この2つのエピソードがきっかけで、筆者はSiri開発への異動を決意した。

 このビジョンが壮大なのは、この文を区切って一つひとつ考えればわかるはずだ。たとえば「自然に話しかける」という点に着目してみよう。

 そもそも、「ドアを解錠して」と言って、スマホやEchoに呼び掛けるのは、「自然」なことだろうか。なぜドアを開きたいのに、電話機やスピーカーに話しかける必要があるのか。それよりはドアに直接話しかけるほうが自然だし、話も早いだろう。そう考えると、ドアに向かって「ひらけゴマ」というふうに話しかけることが目指す先になる。

 もっとも、ユーザーが話しかけるのではなく、機器が能動的に話しかけてくるケースもあるだろう。ドアに向かって歩いていくと、「どちら様でしょうか」とか、「合い言葉は」といった具合に声をかけてくれる扉はどうだろうか。つまり、このビジョンを読み解けば、電子機器の擬人化が進むことを示しているともいえるだろう。

 このようなビジョンを持っているのは、何もアップルだけではない。アマゾンもアレクサのブログの中で、次のように述べている。

「アレクサを通じて様々なデバイスをコントロールできることが理想と考えています。アレクサは常にお客様のそばにいて必要な時にサポートをするというのが、私たちがアレクサに対して持っているビジョンです」[注1]

 ここから、アレクサは家庭用スピーカーのEchoという枠に囚われずに、至るところに存在するという未来の姿を感じ取れる。

音声AIが抱える
5つの課題とは何か

 とはいえ、これらのビジョンを技術的に達成するのは簡単ではない。これはすなわち、音声AIの革命が起きて、物に話しかけることが当たり前だと感じる社会を意味するからだ。スマホがマルチタッチ革命を起こして、デバイスの画面を触ることが当たり前だと社会に受け入れられるのと同義なのだ。

 現在の技術的レベルをこのビジョンに照らし合わせると、5%も到達してはいない。音声AIがキャズムを超えるには、いくつかの根本的な課題を解決する必要がある。ここで5つに絞って提示しよう。

 課題1 発見しやすさ(discoverability)

 スマホのアプリは、画面を通して多くの情報を提供している。ユーザーは、そのアプリを使う中で、自然とアプリケーションの使い方を覚えていくように仕向けられている。従来のソフトウェアとは違い、アプリには取扱説明書がついてこない。

 この背景には、「コンピュータはけっして難しいものではなく、どんなユーザーも直感的に接することができるようなものでなくてはいけない」という、ジョブズの理念がある。

 どのようにユーザーに使い方を自然な形で伝えることができるか。アプリ開発者とデザイナーは、そのプロセスとアプリ自体の設計にさまざまな工夫をしている。ボタンのアイコンの表示の仕方や、微妙なアニメーション、そして画面遷移などを通してそれとなくユーザーを誘導していく。そのアプリ業界で、「発見しやすさ」(discoverability)という課題がある。

 ユーザーは、上級者になっていくほど、より高度な機能を求めるようになる。そのニーズに応じて、アプリ開発者は高度な機能を実装するが、そうしたのちのちに追加される機能は、ユーザーに効果的に伝える術を持っていない。そもそも大半のユーザーが使用するものではないし、機能を使うためのコマンドも複雑になりがちだ。

 たとえば、スマホ上で「再生ボタンとゴミ箱を同時にタップしながら、左にスワイプ」のような複雑な動作を実装したら、どうやってそれをユーザーに実践してもらえばいいか。取扱説明書のようなものがなければとうていできないだろう。これがアプリ業界のユーザーインターフェースにおける discoverablity 問題である。

 スマホのアプリでさえこの問題が顕著に表れているのに、操作の過程で「画面」という接点がない音声AIがこの問題を克服するのは、より難しいだろう。何の説明もなくスピーカーを渡されても、何を話せばよいのかまったくわからないからだ。

 この壁を乗り越えるために、いまはスピーカーに画面をつけたり、専用スマホアプリ上での「説明」を行ったりしているが、まだ大半の人々は、「音声AIにどのように話しかければよいかわからない」という状態だ。

 一方、スキル開発者側もスキルを開発したところで、それをユーザーにどう伝えればいいのかという根本的な課題を抱えている。

 課題2 仕事の幅

 2011年にSiriが発表された当初、主要機能といえば、5つほどだった。具体的には、「電話をかける」「メッセージを送る」「カーナビ」「音楽の再生」「Siriとの会話」などだ。これらの機能はすべて、アップルのエンジニアが開発し、実装したものである。そのため、開発するのにかなりの労力と時間がかかり、なかなか「仕事」の幅を増やすことができなかった。

 先にも述べたように、アレクサはスキルの開発で外部開発者を受け入れることで、いっきに3万もの機能を実装することができた。社内のエンジニアだけで開発する機能では、AIができる「仕事」はせいぜい100くらいだったが、外部の開発者を取り入れたことによって、アレクサの仕事の幅はいっきに約300倍にも膨らんだのだ。つまり、内部の開発者だけでなく、外部の開発者も巻き込み、利便性を高めたといえる。

 この流れは2017年以降、さらに変化を見せている。いま起きているのは、プログラミングのできる開発者だけではなく、一般ユーザーも主体となって、AIに仕事を教えようという仕組みが考えられていることだ。

 ユーザーも「開発者」になれるとは、どういうことか。たとえば、「帰宅」と言えば、「これから帰宅することを妻にメール」して、「家までのナビを開始する」という複合的なコマンドを、音声AIにユーザーが教えることができるようになるのだ。

 実際、アマゾンの複合コマンドや、アップルが2018年の開発者向けイベントで発表したショートカット機能などはその例である。ユーザーが慣れ親しんだアプリという環境の中で、簡単にコマンドをセットできるという仕組みだ。仮に音声AIユーザーが数千万人いるとして、その1割の人間が一つのスキルを教えたとしても、AIが学習しできることは数万から数百万に伸びる。

 図表1「音声AIの学習の仕方と学習できること」は、音声AIの学習曲線を描いたものだ。これにある通り、内部のエンジニア→外部のエンジニア→ユーザーと、AIに仕事を教える主体が変わるに従って、指数関数的にAIの仕事の幅が広がっている。

 

 ユーザーまで来ると、次なる飛躍は、AI自身が仕事を覚えていく自己学習がある。AI自身が与えられたルールの枠を超えていくことになるが、これは現在のところ実現できていない。

 課題3 自然な会話

「10時から12時の間で空きはないかしら」

 2018年、グーグルは開発者向けイベントで驚異的な音声AIシステムを発表した。Google Duplexと称するそのプロジェクトのデモで、なんと音声AIが生中継で美容室に電話をかけて予約を取ったのだ。

 会話の流れも非常にリアルで、先のように発言したり、「どのようなメニューをご希望ですか」といったような相手からの質問にも、女性のヘアカットで、と的確に答えたりすることができた。

 そもそも、人間は「コンニチハ、キョウノテンキハ」のようにロボット口調で話しかけられ続けると、その音声AIに声をかけることをしなくなってしまう。そこで、各社はこれまでにもAIの発声をより自然なものにするという取り組みをしてきた。これは、「TTS」(Text to Speech)という技術領域で、その名の通り、文字を発声に変換するという技術だ。

 筆者が何よりも驚いたのが、グーグルのTTSの技術である。ほぼ人間に近い発声で、細かなニュアンスまで再現しており、美容室の受付も、音声AIとは思わずに人間と話していると錯覚しているようだった。

 この領域についてはこれまでにも多くの技術革新が起きているし、これからもよりリアルな発声をする音声AIが増えてくるだろう。

 課題4 処理速度

 とはいえ、自然な会話を続けるためには、間があったり、途中で途切れたりしては、ユーザーもしらけてしまう。特にモバイル端末の処理速度は、まだまだ改善の余地がある。

 音声AIの処理プロセスは、大きく3つのモジュールに分かれる。

(1)音声認識:ユーザーの音声データを文字に変換する。
(2)自然言語処理:インプットされた文字データからその意図を抽出する。
(3)アクション:ユーザーの意図に従った行動を起こす。

 これら3つのモジュールのうち、処理に最も時間がかかるのが、(3)アクション、続いて(2)自然言語処理、最も速いのが(1)音声認識である。そこで、ネットワーク通信時間と、コンピュータによる処理時間を色分けすると、図表2「音声AIの処理プロセスと時間の関係性」のようになる。ご覧の通り、薄い青色の領域であるネットワーク通信の時間が圧倒的に長いのだ。

 

 音声AIは、クラウド上に存在しているため、その処理の大部分をサーバー側で実行する必要がある。サーバーと通信するためには、ネットワークの通信時間がかかる。音声AIと自然な対話を行うためには、ネットワーク通信時間を削減しなければならないのだ。

 処理速度を改善する最近の流れとしては、クラウドのサーバーに頼ることなく、端末側だけでさまざまな処理ができるような取り組みがあるだろう。

 たとえば、アマゾンは、機械学習のモデルをデータ圧縮して携帯端末に保存し、自然言語処理の大半を端末上でできる仕組みなどを発表している[注2]。機械学習のモデル自体を軽量化し端末側で呼び出せるようにして、通信時間を削減できるようになるのだ。

 課題5 複数のデバイスが反応する

 アップルのデバイスを複数所有し、すべてのデバイスの前で「ヘイ、シリ」と叫ぶと、複数のデバイスが反応してしまう時がある。

 音声AIのビジョンである「あらゆる機器に話しかけられるような錯覚を与える」ためには、何かしらのメカニズムで、どのデバイスが話しかけられているのかを、AI側にも正確に認識させる必要があるだろう。

 人間との会話を思い浮かべてほしい。誰かと話している時、話しかけるたびに「ヘイ」と、その人の名前を呼んでから話す必要があるだろうか。そうではないはずだ。

 この点、注目しているのがアップルのFace IDに代表される顔認識技術だ。これには、注視察知(attention aware)という機能があり、たとえば、顔認識技術を搭載したiPhone Xに顔を向けることなく、視線を向けるだけで「いま見られている」と端末側が認識している。

 普通は視線を向けながら話しかけたら、「あ、いまは自分に向かって話しかけているな」と思う。この技術を用いることで、いちいち「ヘイ、シリ」や「アレクサ」などのキーワードを言わずとも、「聞き始める」モードに入ることが十分に可能だ。

 今後2、3年でこのような不自然なトリガーコマンドがなくなり、注視されたら聞き始めるという音声AIが出てくることに期待したい。そうすればスピーカーや電話だけではなく、たとえばエアコンを見て「暑い」と言えば、冷房がかかるということが実現されるのだ。

【注】
(1)「The Alexa Auto Software Development Kit (SDK) Now AvAIlable 一般公開のお知らせ」Koji Kamimura, August 9, 2018 https://developer.amazon.com/blogs/alexa/post/87800b0b-6ba5-4f4d-a852-25fd985a9e54/announcing-the-alexa-auto-sdk-japan
(2)“Shrinking Machine Learning Models for Offline Use”, Grant Strimel, August 13, 2018 https://developer.amazon.com/blogs/alexa/post/09bacbdd-c089-4b02-863d-6761728102ed/shrinking-machine-learning-models-for-offline-use

◆ 急速な発展を遂げる音声AIは、どんな市場で、いかなるインパクトをもたらすのか。その可能性が示される本稿全文は『DIAMOND ハーバード・ビジネス・レビュー』2018年11月号に掲載されています。

◆最新号 好評発売中◆
『AIアシスタントが変える顧客戦略』

アマゾンのアレクサ、アップルのSiri、マイクロソフトのコルタナといった音声AIが家庭に入り込むことで、顧客接点が大きく変化している。日常生活に溶け込んだAIアシスタントは、今後もさらなる進化が見込まれており、企業と顧客の関係性を大きく変えていくだろう。競争ルールも一変する、新たな時代の顧客戦略を考える。

【特集】AIアシスタントが変える顧客戦略

◇「アレクサ」時代のマーケティング(ニラジ・ダワル)
◇音声AIがパートナーになる時(長谷川貴久)
◇マイクロソフト:変容し続けるプラットフォーム企業(平野拓也)
◇顧客が顧客戦略を動かす時代(藤川佳則)

ご購入はこちら!
[Amazon.co.jp] [楽天ブックス] [e-hon]

DHBR最新号から」の最新記事 » Backnumber
今月のDIAMONDハーバード・ビジネス・レビュー
最新号のご案内
定期購読
論文セレクション
  • facebook
  • Twitter
  • RSS
アクセスランキング