NHK技研R&D 2023年 夏号 特別講演1

写真:坂本 真樹

人の感性に寄り添うAIが生み出す社会の多様性

電気通信大学 副学長・教授
坂本 真樹

近年,AI(人工知能)の進化がめざましい。今や,ネコをネコとして正しく認識するような,正解・不正解がある物の認識能力は,人の能力を凌駕している。それに対し,ネコをどのように感じるか,「ふわふわでかわいい」と感じるか,「けばけばしてむせそう」と感じるか,といった正解・不正解がない多様な感性に,AIはどこまで寄り添えるのか。また,異なる感性をもつ人が集まる多様性のある社会において,AIはどのような存在となりうるのか。文章を生成し,絵画や音楽などの創作活動も行うようになったAIは,人の感性に訴求できるのか。人の感性に寄り添うAI開発の現状と,感性をもつAIが促進しうる社会の多様性について考えたい。

1.はじめに

今日は「人の感性に寄り添うAIが生み出す社会の多様性」について,お話させていただく。

最近AIについてよく聞くと思うが,結局のところ,AIはコンピューター,つまり計算する機械である。人工知能の急激な進化は,コンピューターの性能が向上したことと関係している。AIの研究に関して,研究者は大きく2つ目標を設定している(1図)。

①は,人と同等の知能を実現するということなので,「人の知能とは何か」という科学的な目標に近いものになる。

②は,人を超えた超人的な情報処理装置の開発を目指している。これは超高齢社会で生じるさまざまな社会の問題解決をする工学的な目標の研究となる。

私の研究は,この両方にまたがっている。大切にしていることとしては,人が五感を通して取得している情報である。五感とは,視覚・聴覚・触覚・味覚・嗅覚であって,それを通して,人は情報を取っている。それでいろいろなことを判断し,時には言葉にしてしまう。例えば,擬音語と擬態語の総称である「オノマトペ」である。

「フワフワして気持ちいい」とか,「サラサラで気持ちいい」「ベタベタして嫌だな」というような,感じたことを言葉にする。逆に,相手が「昨日フワフワした物を買ったのだよ」と言えば,「どんな物を買ったのかな?」と分かることもある。このような,私たち人間と同じようなことができるコンピューターを作るというようなものである。要は人間を支援するAIを作っている。このような研究がこれから活用をされていく社会が「Society 5.0」である(2図)。

「Society 5.0」は,サイバー(Cyber)空間とフィジカル(Physical)空間が高度に融合した社会といわれている。今まで私たちは「Society 4.0」の社会で生きてきた。フィジカル空間にいる人間が,サイバー空間にあるAIやインターネットの情報にアクセスしようと思ったときには,スマートフォンやパソコンなどそこにアクセスできる通信機能を持っているものを利用したり,技術を駆使したりすることでサイバー空間にアクセスする。必要な情報を得るためには,ある程度スキルがいる。ところが,「Society 5.0」になると,私たちが物理空間でなにげなく普段の活動しているなかで,それをセンシングして自動的に情報が取得され,サイバー空間でAIによって解析して,私たちの作業を自然にサポートしてくれる。

1図 AI研究の目標

出典:内閣府ホームページ(https://www8.cao.go.jp/cstp/society5_0/index.html)

2図 サイバー空間とフィジカル空間の高度な融合

2.感性データとは

「感性とは何なのか?」というところだが,「感性」という言葉は辞書にも普通に載っているし,私たちは,「感性が豊か」などと普段使っていると思う。五感を通していろいろな情報を収集して感じて分かる能力といえる。

3図は私の飼っている愛犬であるが,例えば「これは何ですか?」と言ったら,物体認識なので,「犬です」と言うのが正解となる(3図(a))。このような正解・不正解があるデータが通常,機械学習で使われているものである。一方,「感性のデータは?」というと,「何を感じますか?」ということになる。すると,人によっては「なんか,けばけばしてむせそうで苦手」とかいう人もいれば,「ふわふわでかわいい」とか,場合によっては新しい言葉,「もふもふであたたかい」とかまでつくりだす。感じたことを自分で表現したいということで,「もふもふで良いね」などと言っているわけである(3図(b))。

感性価値判断は,主観的なものであり個人差がある。「あなたの感じ方が正解ですよ」「不正解ですよ」ということはなくて,回答は無限にあり得る。しかし,ある程度こういうものが売れるとか,ある程度のストライクゾーンというか,正解まではいかなくても,こんなものが良いだろうというものがある。

3図 感性データとは

2.1 オノマトペを理解できるAI

このようなデータは,新しいサービスを生み出すうえで,また商業や産業において非常に重要である。そこで,お客様アンケートなどでは,たくさんの形容詞を並べた形式で,「講演どうでしたか?」とか,「今日はどうでしたか?」ということを聞く。例えば4図の場合のように,「丈夫さはどう?」「弾力はどう感じる?」「凹凸感はどう?」「暖かさはどう?」などと段階的に聞いて答えるというのがある。通常はアンケートのデータをたくさん集めて,それを統計解析して,結局,何が重要だったのかを分析する。しかし,私たちは,お店に行ったときに,「暖かさ3ぐらいで,乾いた感が1ぐらいで,弾力2ぐらいのものをください」とか言うことはない。「もふもふ」な感じのワンちゃんが良いとか,もうちょっと「ツルン」とした感じのワンちゃんが良いとか,そういった言い方をして,感じたことをいろいろ言葉で言っている。この言葉をもっと活用したほうがよいと考えている。アンケートを取ると,回答する人の負荷も大きい。また,そもそも,私たち人間は感じたことを数値で分析しているわけではなく,全体的に何かを感じているだけだ。「もふもふ」といった一言の中に,感じたことが込められているということが大事である。医療でも,「ズキズキ」するとか「喉がヒリヒリする」とか,直感的に表現したりする。

そこで,だいぶ前に,どんなオノマトペでも理解できるAIを開発した(5図)。「ふわふわ」と「もふもふ」とを対比的に並べているが,「ふわふわ」と「もふもふ」は,柔らかいものを表現するときに似ているが,どこがどう違うかというと,暖かさが「もふもふ」の方が強い。これは,アンケートの結果ではなくて,実は音の印象の足し算という方法でどんなオノマトペでも計算できるように開発したものである。

4図 感性データの獲得と処理の難しさ
5図 どんなオノマトペでも理解できるAI

2.2 ジョガジョガの意味

もしも誰かが,「昨日ジョガジョガしたものを見かけた」と言ったときに,「どんなものを見たのだろう?」と,想像してみていただければと思う。

「ジョガジョガ」は普通にある言葉ではないが,なんとなくイメージできると思う。結果(6図)を見ると「暖かい」か「冷たい」かだったらきっと「冷たい」ものではないかなとか,「落ち着きがない」ものかもしれないとか,ちょっと「かたい」とか,「不快」かもしれないとか,「うっとうしい」かもしれないし,「シャープ」な感じで,「上品」か「下品」かであれば,「下品」かもしれないとか。6図の右側の方の例でみると,「動く(動的な)」ものかもしれないとか,「凹凸」感があるかもしれないとか,「粗い」もので「安っぽい」「抵抗感がある」ものかななど,全部の印象を数値化できる。おそらく,グラフの棒が向いている方向と,皆さん感じた方向とがだいたい合っているのではないかなと思う。このように,一種の「オノマトペが理解できるAI」を作ったということである。

6図 ジョガジョガを理解できるAI

2.3 オノマトペを生成できるAI

逆に,私たちはオノマトペを作ることもできる。オノマトペを生成できるAIを作ってほしいというニーズもあってこのAIを作った(7図)。これはオノマトペを数値化するAIとは全然違う計算手法を用いてオノマトペを作成していて,人工知能学会の論文誌にも掲載されている。例えば先ほどの「もふもふ」の数値化について,「柔らかさ」と「暖かさ」を最大にしてオノマトペを再生成するということができる。そうすると1位に「もふもふ」で出てきて,次が「もふり」「もふっ」「もふん」「もっふり」とか「もふー」とかが出てくる。これは,私のYouTubeチャンネル*1の方に出しているが,実際いろいろなオノマトペを生成でき,結構おもしろいシステムである。これを例えばAIのロボットに搭載させると,オノマトペが言えるロボットも作れるのではないかと思う。

7図 求める印象に合ったオノマトペを生成するAI

3.AIと人のコミュニケーション

AIと人のコミュニケーションというのは,言い換えると対話能力である。これが今までのAI開発の大きな目標の一つであって,非常に難しいといわれてきた(8図)。人工知能の出来栄えを判定するチューリングテスト(Turing Test)というものがある。コンピューターの生みの親といわれるイギリスの数学者のアラン・チューリングを主役にした映画もあったりするくらいで,非常に有名だと思う。

このテストでは,例えば壁の向こう側に人工知能(コンピューター)があって,もうひとつの向こう側にも人間がいる。壁の手前側と向こう側との間で対話をしてみて,どちらがAIでどちらが人間かわからないぐらいになったら,人と同じ人工知能ができたと言えるのではないかというようなテストである。

以前から,AIの「見る」能力は,100点である。ご存じのとおり,医療ではレントゲンや写真を見て,画像を認識するAIがガンを判定できる時代になっている。「聞く」能力,つまり音声認識の能力も非常に高まっていて,普通に話したときのAIが認識精度も上がっている。ただし,自由自在に「対話する」能力や,「共感する」能力というのは50点で,長い間「まだまだだよね」と言われてきた。

ところが,話題の文章生成AI,対話型AIのチャットGPTが登場し,まさにゲームチェンジャーになるのではないかと考えられている。そこで「チャットGPTの仕組みってなんだろう?」と聞いてみると,『チャットGPTは自然言語処理において最先端の技術の1つである,深層学習アルゴリズムの1つであるGPT-3.5をベースとしています。GPT-3.5は,トランスフォーマーと呼ばれるアーキテクチャを採用』と,難しい説明が出てくる(9図)。

最初は「こんな難しくしか説明できないなら,子ども科学電話相談の代わりはできないな」と思ったが,「子どもでも分かるように簡単に教えてください」と言うと,言い方を変えてくる。どういう仕組みなのか?ということで,まず1つの特徴として・・・少し難しい言葉だが,文章を生成するAIでは,先ほどのチャットGPTの解説にもあったが,トランスフォーマー(Transformer)といわれるものを使っている。

基本的に単語をベクトル化し,大規模なデータから,自然な文になるように単語を配列する方法を学習する。文章生成で,スコアが高くなるように単語のつなぎ方を学習する。大規模なデータの中で学習していくと,一種のコンセプトをつなげていくことができるようになって,もともとの学習データにない文も生成できるということだ。

これによって,「人とAIの夢の対話は実現するのか?」については,例えば「東京駅までお願いします」と入力すると,チャットGPTは『東京駅までのルート案内をお手伝いします』と返してくる。この入力は2023年5月14日にやってみたが,『お答えする情報は2021年9月までのものであり,現在の最新の情報とは異なる可能性があります。ご了承ください』と言ってくる(10図)。なので,古い情報でモデルを作っていて,回答している。さらに,「私の家から東京駅までお願いします」と入力すると『私は現在の位置情報にアクセスすることができません。ただし,一般的な案内を提供することはできますので,一般的なルート案内をお伝えします』ということになる。

先ほどもお話したが,私たち人間は五感で感じて言葉にしている(11図)。これが私たちのコミュニケーションであるが,今の対話型のAIは,言語による入力で学習済の知識をもとに判断をして文章を生成しているので,チャットGPTはサイバー空間の中にいる。チャットGPTに言葉を投げかけると返してくるが,サイバー空間にとどまっているだけである。

8図 対話能力はAI開発の一大目標だった
9図 チャットGPTはゲームチェンジャーか?
10図 チャットGPTで人とAIの夢の対話は実現するのか?
11図 チャットGPTで人とAIの夢の対話実現における課題

4.フィジカル空間とサイバー空間の融合

4.1 広がるフィジカル空間の多様性

では,フィジカル空間とサイバー空間が融合していくと何が重要になってくるのだろうか。まずは,「融合したときにフィジカル空間はどうなっていくのか?」「どのように多様になっていくのか?」ということを考えてみたい。まず,AI自体は人間の脳に当たる部分だけで,身体は持っていない(12図)。それを自動運転車に搭載すれば自動運転のアシストをするし,コンピューターに搭載(連携)すると囲碁や将棋など,さまざまなことにAIを活用することができるということになる。これが私たちと同じようにフィジカル空間で自由に一緒に活動できるようにするには,移動できるものとしてロボットに搭載すれば,ロボットがフィジカル空間の一員として参加することになるのではないかということである。

例えば自分ではなかなか活動できなくなった状態になっている人,あるいはコンピューターやサイバー空間にアクセスするための技術を使いづらいという人が,ロボットと普通に会話ができるようになってほしい。「このあいだ駅前の薬局で買ってきた薬をキッチンからとってきておくれ」とか,「パンがいい感じに焼けてるか見てきてくれるかい?」とか,「いつもの先生の診察の予約をしたいのだけど」と話しかければ,ロボットはインターネットの通信でサイバー空間に直接つながれるので,実際の注文やいろいろなことができ,便利になるということである(13図)。

ところが,チャットGPTでは今どういうことになっているかを試してみると,「このあいだ駅前の薬局で買ってきた薬をキッチンからとってきておくれ」との入力に対し,『申し訳ありませんが,私は物理的な場所にアクセスすることはできません』と返す。次の「パンがいい感じに焼けてるか見てきてくれるかい?」との入力にも,『申し訳ありませんが,私は物理的な場所にアクセスできないため,パンが焼けているかどうかを確認することはできません』と返す。また,「いつもの先生の診察の予約をしたいのだけど」と入力すると,『申し訳ありませんが,私は予約を行うことができません』と答える。そういうだろうと思うが,「あしたの天気は?」というような簡単なことであっても,『申し訳ありませんが,私はリアルタイムの情報を提供することはできません。天気予報は変動するため,そっちで見てください』『アプリを見てください』という回答になっている(14図)。しかし,アプリと連携すると,いろいろなことができるようになってくるのではないかと思う。チャットGPTとアプリを連携すれば,先ほどのようなものでも,ある程度の予約や天気予報の提供ができる。近い将来は,事前学習した一般的知識だけでなく,リアルタイムに取得されるさまざまな情報も利用できるようになって,リアルタイム情報に基づく対話も可能になるだろう。

そうするとリアルなフィジカルな空間の中で,ロボットが14図の右のようにインターネットにつながり,エアコンや冷蔵庫やロボットなどいろいろなものが同じ空間の中で相互に連携し合い,情報を交換し合えるというようなことが起こるのではないかということだ。

12図 フィジカル空間とサイバー空間の融合に期待
13図 フィジカル空間とサイバー空間の融合で期待されるAIの対話力
14図 フィジカル空間とサイバー空間の融合で生まれる多様性

4.2 五感とAIとの対話

例えばチャットGPTのようなAIが,私たちとリアルにコミュニケーションするためには,私たちが五感で収集している情報を使って対話をしてくれるということが重要になる。質感の学習に関する研究をやっていて,海外の国際誌に論文を発表している(15図)。正解が1つではないものの学習は結構難しいとされてきた。例えば15図の画像が1枚あったときに,「これは何であるか?」という物体認識であれば,「布」という正解があるはずである。「どう感じるか?」と聞くと,「ごわごわ」と感じる人が一番多かったけれど,「ざらざら」という人もいれば,「ちくちく」という人もいる。このように,1枚の画像に対して複数のオノマトペがついてくる。これを全部正解データとしてAIに学習させるということによって,人によって違う,だけどだいたいこんな感じという質感を認識できるAIを開発した。

さらに大規模なプロジェクトであるが,フィジカル空間上のリアルな情報を取得することで人々をサポートする「会話の空気・感性を読むAIの開発」というのを,私は2017年から国のプロジェクトのリーダーとして行った(16図)。会話の空気(雰囲気)を音声で取得し,学習中には心拍のデータなど人の情報をいろいろ収集して,そのとき,どんな環境の中でどういう会話が行われたかを学習させていく。どういう音楽で,どういう香りで,どういう照明でどういう温度のときに,「どんな会話になっていたか?」「ストレスはどうだったか?」「生産性はどうだったか?」,さらに「共感性はどうだったか?」を学習することよって,ストレスを低減し共感性が最大化するように空間を制御するようなものを開発した。こういうものができると,人の感性に寄り添いながら,フィジカルな空間を最適化できるのではないかと思っている。

17図は,実際にオフィスに入れている「FUWAKIRA(フワキラ)」と呼んでいるAIエンジンである。オフィスの中でどのような会話がされていてどのような言葉が一番多く使われているか,空気感がどうなっているかなどの数値が数十秒ごとに出てくる。それらの値から,皆のストレスが高まっていると分かると,香りがシュッと出てくるIoTの香りのディフューザーが動いたり,照明や空調の制御もできる。

15図 人のように見た目の質感さえ表現できるAIも開発
16図 フィジカル空間できめ細かく人を支援するAIの可能性
17図 フィジカル空間できめ細かく人を支援するAIの可能性

4.3 メタバースで広がるサイバー空間の多様性

これまでは,フィジカル空間の制御について話をしてきたが,サイバー空間の多様性についてお話をしていきたい。融合してフィジカル空間の方をサポートしてもよいが,実はサイバー空間も多様になる。最近,VTuber(Virtual YouTuber)の活躍がめざましく,「Vチューバー」という言葉が広く使われて,Vチューバーの活動の幅が広がっている。今後は誰もがVチューバーになって,サイバー空間で活躍できる社会になるのではないかと考えている。

例えば人間は年を取って動けなくなったり,ダンスをしたくても踊れなくなったりする。でも,Vチューバーになればサイバー空間で活躍できる。実は私がプロデュースしているAI作詞家Vチューバーfuwariというのがいる。すでに「作詞する文章生成AI」は結構開発されているが,心に響く,ヒットする歌詞,ヒットする曲はまだできていない。基本的には,AIだけで歌詞を作ることは考えていなくて,あくまでも人間(クリエイター)のサポート役としてやっている。著作権処理された歌詞データを学習して生成された文章をもとに人間の作詞家に相当するfuwariが作詞をする。つまり,Vチューバーの中は人間なので,人間の作詞家であるfuwariとAIが一緒にコラボレーションで文章を作って作詞をしている。

5.まとめ

最後に,AIの進化がもたらすメディアの多様性についてお話したい(18図)。これまでは,メディア制作に参加したくても参加できなかったり,メディアを楽しんだりできなかった人も多かったと思う。やっぱりスキルがいるよとか,歌いたいけど歌えないとか,楽曲を作りたいけど作れないとか。今は誰でも作詞・作曲に挑戦しやすくなっていると思う。だからこそ,それまでやりたいけどできなかった人も一緒にやれるようになる。さらに音声合成AIや画像生成AIを使えば,外見や性別,年齢,障害に関係なく,先ほどのVチューバーのような形で演者として参加することが可能になる。

また,翻訳AIや映像を言語化するAI,言語から映像を生成するAIなど,国籍や障害を越えて,多様なメディアにアクセスしやすくなる。言語ができないから映像が見られないとか,海外に行けないということがなくなっていくだろう。AIの認識能力,生成能力の進化で,メディアの楽しみ方が多様化していくと考えていただければよいと思う。

以上ですが,研究室の取り組みなども先ほど紹介したfuwari channelで配信*2しているので,よろしければご覧ください。

18図 AIの進化がもたらすメディアの多様性への期待
  • x
  • facebook

シェアするhelp