単独ロングインタビュー
サンダー・ピチャイが語る
GeminiとAI新時代
【期間限定無料公開】グーグルは12月6日、オープンAIに対抗する最先端のAIモデル「ジェミナイ(Gemini)」を発表した。発表の前夜、グーグルのピチャイCEOがMITテクノロジーレビューのロングインタビューに応じ、ジェミナイが自社やAI、社会全体に対して与える影響について語った。 by Mat Honan2023.12.11
グーグルは12月6日、次世代人工知能(AI)モデル「ジェミナイ(Gemini)」の第1弾を発表した。ジェミナイは、最高経営責任者(CEO)のサンダー・ピチャイが監督・推進してきた、グーグル社内の長年の取り組みが結実したものだ(ジェミナイの詳細については、本誌の既報をご覧いただきたい)。
ピチャイは、かつてクロム(Chrome)や アンドロイド(Android)の開発を指揮していた人物で、製品へのこだわりが強いことで有名だ。2016年にCEOとして初めて出した創業者の手紙で、ピチャイは「モバイルファーストからAIファーストの世界へ移行するだろう」と予言している。以降、Android端末からクラウドに至るまで、グーグルのありとあらゆる製品にAIを深く根付かせてきた。
にもかかわらず、昨年は、グーグルではなくオープンAI(OpenAI)が発表したAIによって大きく定義づけられた年となった。オープンAIによる昨年の「DALL-E(ダリー)」と「GPT-3.5」、そして今年の「GPT-4」のリリースが業界を席巻し、スタートアップ企業とテック大手を交えた軍拡競争が幕を開けた。
ジェミナイは今、こうした軍拡競争の最新の取り組みだ。この最先端のシステムは、デミス・ハサビス率いるグーグル・ディープマインド(Google DeepMind)が中心となって開発したものだ。この組織は、グーグルのAIチームを一本化し、新たに統合した組織である。ジェミナイは12月6日から、同社の対話型生成AI(ジェネレーティブAI)「バード(Bard)」で体験することができ、2024年中には同社の全製品に導入される予定だ。
ジェミナイの発表前夜、MITテクノロジーレビューはカリフォルニア州マウンテンビューにあるグーグルのオフィスでピチャイCEOにインタビューし、ジェミナイがグーグル、同社製品、AI、そして社会全体にどのような意味を持つのか議論した。
以下は、ピチャイCEOの発言をまとめたものである。なお、会話内容は明確さと読みやすさを考慮し、編集を加えている。
◆
——ジェミナイの魅力とは何でしょうか?AI全般についてやジェミナイの持つ力、有用性、全製品への導入予定など、あなたが考える全体像をお聞かせください。
ジェミナイを特に魅力的な存在にしているのは、ゼロからネイティブなマルチモーダル・モデルを構築した点です。人間の学習と同様に、文章からのみ学習しているのではありません。文章、音声、コードから学習しています。そのため、モデルは本質的により優れた能力を備えており、私たちが新たな可能性を少しずつ見いだし、この分野の進歩に貢献するのに役立つでしょう。そこに魅力を感じています。
ジェミナイ・ウルトラ(Gemini Ultra、来年リリース予定のジェミナイの最上位バージョン)は主要ベンチマーク32種類のうち30種類でトップレベルを誇り、特にマルチモーダル・ベンチマークでは群を抜いている点も魅力的です。このMMMU(大規模マルチタスク言語理解)のベンチマークは、こうした部分の進歩を表しています。個人的には、主要ベンチマークのひとつに挙げられてきたMMMUが90%のしきい値を超えたことも大きな進展であり、興奮を覚えます。2年前の時点では最先端のものでも30%、40%程度でした。この分野がどれだけ進歩しているかが分かりますよね。これら57項目で約89%もあれば人間の専門家レベルと同等です。ジェミナイは、このしきい値を超えた最初のモデルなのです。
ついにジェミナイが当社の製品に搭載されることについても、興奮を覚えています。開発者向けに公開する予定でいます。ジェミナイはプラットフォーム型です。AIは、プラットフォームへの大きな転換期を迎えており、その勢いはWebやモバイルを凌いでいます。ですから、その瞬間から我々にとっても大きな一歩を踏み出したことになります。
——まずは、こうしたベンチマークから話を進めましょう。ジェミナイは、ほとんどすべての基準で、あるいは大部分の基準で、GPT-4を上回っているように見えます。しかし、その差はそれほど大きくはありません。一方、GPT-4の出現はかなり大きな前進に感じました。このような大規模言語モデルのテクノロジーで実現できることは、そろそろ頭打ちになりつつあるのでしょうか? それとも、今後もこうした大きな成長曲線を描き続けるのでしょうか?
まず、この先については、多くの余地が残されていると考えています。いくつかのベンチマークはすでに高い水準に達しています。何かを85%から向上させようとする場合、こうした曲線の限界に差し掛かっていることはご理解いただけると思います。そのため、大した差ではないように見えるかもしれませんが、進歩はしているのです。もっと新しいベンチマークも必要になるでしょう。当社がMMMUマルチモーダル・ベンチマークに着目した理由のひとつはそれです。こうした新しいベンチマークのいくつかは、最先端のシステムでもまだはるかに低いレベルにいます。今後、多くの進歩が見込まれています。スケーリング則はまだ適用できるはずです。モデルを大きくすればするほど、さらなる進歩が見込めるでしょう。総合的に見ると、まさにまだ始まったばかりだと感じています。
——あなたがジェミナイにおける重要なブレークスルーだと考えるものと、それがどのように応用されていくかについてお聞かせください。
将来起こるであろう飛躍的な進歩について、人々が想像するのはとても難しいことです。当社ではAPIを提供していますが、皆さん、かなり深い方法でいろいろと考えるでしょう。
マルチモダリティは大きく成長すると思います。こうしたモデルにもっと多くの論理を学習させていけば、より大きなブレークスルーが次々と生まれることでしょう。さらにディープなブレークスルーはこれからです。
この質問への答えのひとつとして、ジェミナイ・プロ(Gemini Pro)が挙げられます。ベンチマークでは非常に良い成績を収めています。バードに搭載してみると、ユーザーとしてそれを実感することができました。当社でテストしたところ、すべてのカテゴリーで大幅に評価が上がりました。こうした理由から、私たちはジェミナイ・プロを過去最大級のアップグレードと呼んでいるのです。並べてブラインド評価をすると、その性能の違いがよくわかります。つまり、より優れたモデルをベンチマークで向上させるのです。それによって進歩がもたらされます。私たちは今後もモデルの訓練を続け、そこからさらに向上させていくつもりです。
製品に搭載するのが待ちきれません。これらのモデルはとても有能です。こうしたモデルの性能を最大限に発揮できるような製品体験を実際にデザインしていくことは、今後数カ月間をかけた、とてもエキサイティングな挑戦になるでしょう。
——ジェミナイのリリースには相当なプレッシャーがあったことと思います。GPT-4のリリースで起こった出来事を通して、あなたが何を学んだのか気になります。どんなことを学びましたか? その時期に何かアプローチが変わったのでしょうか?
ひとつ言えるのは、少なくとも私にとっては、これはゼロサムゲームとはかけ離れたものだということです。AIへのシフトがどれほど大規模なものなのか、そして私たちがいかに初期段階にいるのかを考えてみてください。この先には大きなチャンスが待っているのです。
しかし、あなたの具体的な質問に答えるなら、この業界は実に豊かで、全員が進歩し続けています。科学的な要素もあり、学術的な要素もあります。数々の論文が発表され、GPT-4のようなモデルが実世界でどのように機能するかも見てきました。私たちはそういったことから学んできました。安全性は重要な分野です。そのため、ジェミナイの一部には、実世界でモデルがどのように機能しているか私たちが学んできたことに基づいて改善した安全技術が組み込まれています。ファインチューニング(微調整)をはじめとする、さまざまな事柄の重要性が示されてきました。当社が医療用チャットボットの「メッドパーム(Med-PaLM) 2」で実証できたことのひとつとして、PaLMのようなモデルを特定の分野向けに微調整することで、最先端モデルを凌駕できる点が挙げられます。こうして、微調整の威力を知ることができたのです。
その多くは、ジェミナイの開発にも活かされています。ジェミナイ・ウルトラにさらに時間をかけている理由のひとつは、安全性を徹底的に検証するためです。しかし、性能を最大限に引き出すための微調整もしています。
——このような製品がいくつかリリースされ、人々が実世界で使い始めると、ハルシネーション(=幻覚。間違えた答えをあたかも正しい答えのように返すこと)が生じたり、モデルの訓練に使用した個人データの一部が露呈したりすることがあります。もしそうしたこと避けられないのであれば、訓練に用いたデータの観点からすると、どの程度がAIテクノロジー特有のものなのでしょうか。こうした問題を軽減するためにどのようなことに取り組んでいますか?
そのとおりだと思います。これらはいずれも活発に研究されている分野です。実際、私たちも、AIモデルが一連のプロンプト(指示テキスト)によってどのように訓練データを露呈しうるのかを示す論文を発表したばかりです。ハルシネーションも未解決の問題です。全員がこの問題に対して前進しつつあると思いますが、やるべきことはまだまだあります。解決しなければならない根本的な欠陥もいくつかあります。一例として、ジェミナイ・ウルトラを挙げると、当社ではこの分野の専門家である社外のサードパーティとレッドチーム(疑似攻撃をしてセキュリティ脆弱性を探すチーム)を組み、積極的にこのモデルの検証を進めています。
マルチモダリティのような分野では、私たちは大胆でありたい一方で、責任ある行動をとりたいとも思っています。間違ったユースケースとなる可能性が高いため、マルチモーダルの公開にはより慎重を期するつもりです。
しかし、まだ発展途上のテクノロジーであるという点では、あなたの言う通りだと思います。そのため、いつも理にかなった答えが返ってくる訳ではないのです。だからこそ、検索においては、どのように応用するのか、いつ、何を、どこで使うのか、そしていつ起動させるのかについて、これまで以上に慎重を期しています。AIは素晴らしい能力を持っている一方で、明確な欠点もあります。これは、誰しもにとって前途多難な課題なのです。
——ハルシネーションや、訓練データの露呈といった問題は、最終的に解決できると思いますか?
自己回帰型大規模言語モデル(LLM)の現在のテクノロジーでは、ハルシネーションの問題は解決できていません。しかし、将来のAIシステムは現在の形とは異なるかもしれません。現在のものはAIテクノロジーのひとつのバージョンに過ぎないのです。コンピューターがポケットに収まるわけがないと思われていた時代と同じようなものです。20年前は、そう言って頑なに否定する人たちがいました。それと同じように、AIシステムを見て、より優れたシステムを設計することはできないと言う人たちがいます。私はその意見には賛同できません。このような問題を解決するには他にどのような方法があるのか、すでにさまざまな研究が始まっています。
——この移行がいかに大きなものであるか、語っていただきました。モバイルへの移行など、最近の移行のいくつかにおいては、生産性は必ずしも向上せず、長く頭打ちになってきたものもあります。むしろ所得格差を拡大させたのではとの議論もあるかと思います。このような移行が社会にとってより広く有益なものになるようにするために、グーグルはどのような取り組みをしているのでしょうか?
非常に重要な質問です。このことについては、いくつかのレベルで考えています。まず、グーグルでは、「テクノロジーをできるだけ幅広くアクセス可能なものにするにはどうすればいいか」ということに常に注力してきました。ですから、モバイルの場合でも、私たちがアンドロイドでしている仕事がなければ、何億人もの人々がコンピューティングにアクセスできなかったでしょう。私たちは、50ドル以下の手頃な価格のスマートフォンを普及させようと懸命に努力しています。
ですから、AIをすべての人の役に立つものにすることが、私の考えている枠組みなのです。できるだけ多くの人がアクセスできるようにするということです。それがまずひとつです。
私たちは、AIを人々の役に立つユースケースに応用することについて深く考えています。例えば、早くから洪水予測をしてきたのは、「これならパターンを検知してうまくできる」と気づいたからです。私たちはAIを1000の言語の翻訳に使っています。文字どおり、他の方法ではアクセスできなかった言語でコンテンツを提供しようとしているのです。
このことは、あなたがおっしゃるすべての問題を解決するものではありません。しかし、いつ、どこで、どのような問題に焦点を当てるかについて、私たちは常に慎重に取り組んできました。例えば、「アルファフォールド(AlphaFold、タンパク質の構造を予測するAI)」のような分野です。私たちは世界中のウイルスに関するオープン・データベースを提供してきました。しかし、誰が最初に使うのでしょうか? それはどこで解決されるのでしょうか? AIは不平等のようなより難しい問題を、魔法のように改善してくれるわけではありません。悪化させる可能性もあります。
しかし重要なのは、テクノロジーを誰もが利用できるようにすることです。いち早くテクノロジーを開発し、人々がアクセスできるようにし、社会がそれについて考え、適応できるよう、対話に参加することです。
私たちはまさにAIテクノロジーに、他のテクノロジーよりも早い段階から参入してきました。最近の英国AIセーフティ・フォーラム(UK AI Safety Forum)や、米国での議会や政権との取り組みなどがそうです。私たちは、より早い段階から、非営利団体や学術機関を巻き込み、官民パートナーシップを強化しようとしています。
雇用などの分野への影響については深く研究する必要がありますが、サプライズがあると思います。驚くようなポジティブな外部性もあれば、ネガティブな外部性もあるでしょう。ネガティブな外部性を解決することは、ひとつの企業にとどまるものではありません。社会におけるすべてのステークホルダーの役割です。ですから、私には簡単には答えられません。
モバイルがもたらすメリットの例はたくさん挙げられます。AIもそうでしょう。すでに糖尿病網膜症のような分野では恩恵を提示できました。世界の多くの地域では、この病気を発見できる医師が少ないのです。
世界中どこでもグーグル検索にアクセスできるようにしたことが、良い変化をもたらしたと感じたように、AIへのアクセスを拡大する上でもまさにそのような考え方が必要だと思います。
——人々の生産性を高めることが明らかなものがあります。プログラミングはそのよい例です。それなのに、このテクノロジーの民主化こそが、まさに雇用を脅かしているのです。 そして、たとえ社会問題に対するすべての答えを持っていなくても、そして社会の問題を解決する義務が一企業にないとしても、一企業が世界を劇的に変え、こうした大きな影響を与えるような製品を出すことはできます。
私たちは顔認識APIを提供したことは一度もありません。しかし、人々はAPIを作り、テクノロジーは前進します。ですから、それは一企業の手にあるものでもありません。テクノロジーは前進するのです。
答えはもっと複雑だと思います。社会もまた取り残される可能性があります。これらのテクノロジーを採用しなければ、経済競争力に影響する可能性があります。さらに雇用が失われる可能性もあります。
正しい答えは、責任を持ってテクノロジーを展開し、進歩させること、そしてテクノロジーが不釣り合いな弊害をもたらす可能性のある分野について考え、その緩和に取り組むことだと思います。新しいタイプの雇用も生まれるでしょう。過去50年、60年を見てみると、新しく生まれた雇用のほとんどは、それ以降に誕生した新しい分野において作られたことを示すマサチューセッツ工科大学(MIT)の経済学者らの研究があります。
新しい雇用が登場することになるでしょう。繰り返しの仕事から解放されてより創造的な自己表現ができるような、より良い仕事が生まれるでしょう。医者でもいいですし、放射線技師でもいいですし、プログラマーでもいいです。ルーティンの作業に費やす時間と、より高度な思考に費やす時間の量の比重が変わり、仕事はより有意義なものになるかもしれません。一方で、AIによって失われる雇用もあります。では、社会として、どのように人々を再教育し、リスキリングさせ、雇用機会を創出するのでしょうか。
——昨年は、私たちが考えるあるべきAIへのアプローチ方法における、哲学的な分裂が浮き彫りになりました。安全第一なのか、それともビジネスユースケースが第一なのか、あるいは加速論者なのか、破滅論者なのか、さまざまな立場で議論が可能になりました。あなたは、そのようなあらゆる哲学を橋渡しし、一つにまとめなければならない立場にいらっしゃいます。この分野のリーダーになるであろうグーグルで、それらの関心を橋渡ししてこの新しい世界に落とし込むことについて、個人的にはどのように考えておられるのでしょうか。
私はテクノロジー楽観主義者です。個人的な経験に基づき、私は常に人間や人類を信じてきました。だから全体としては、人類はテクノロジーを利用して恩恵を得ると思います。ですから、私は常に楽観主義者なのです。おっしゃる通り、AIのような強力なテクノロジーには二面性があります。
つまり、時には大胆に前進することもあるということです。最先端の技術をさらに前進させられると思うからです。たとえば、AIががんや気候変動のような問題を解決するのに役立つのであれば、全力を尽くして迅速に前進させたいと思うでしょう。しかし、ディープフェイクや雇用の喪失などに社会が適応するための枠組みを構築する必要があるのは間違いありません。これは気候変動と変わらないフロンティアになるでしょう。今後10年間で、私たち全員が取り組む最大の課題のひとつとなります。
——もう一つの大きな未解決の問題は、AIをめぐる法的な状況です。フェアユースについての疑問、アウトプットを保護できるかどうかについての疑問があります。これは知的財産に関して本当に大きな問題になりそうです。グーグルの製品を使用している人たちに、自分のしていることが訴えられるようなものではないという安心感を与えるために、どのようなことを伝えますか?
これらは、簡単に答えが出る話題ばかりではありません。AI以前の世界で検索やユーチューブ(YouTube)などの製品を作るとき、私たちは常に適正に価値交換しようとしてきました。AIも同じです。私たちはまさに、法に従って、訓練が許可されているデータでAIを訓練できるようにし、訓練の除外対象とする機会を人々に与えることに重点を置いています。そして、フェアユースとは何かというレイヤーもあります。オリジナルのコンテンツのクリエイターに対して、価値を生み出すことが重要です。これらは重要な分野です。インターネットはその一例です。電子商取引が始まった頃もそうでした。電子商取引と通常の商取引をどのように線引きするのかということです。
時間の経過とともに新しい法的枠組みが構築されるでしょう。この分野が発展していく中で、私はこのように考えていくことになると思います。しかし、その一方で、私たちは法制度の正しい側に立つよう努力し、また今日の多くのコンテンツ・プロバイダーと共に深い関係を築いていくつもりです。論争の絶えない分野もありますが、私たちはこれを乗り越えようとしており、私は全力でその解決に取り組んでいます。私たちは、時間が経つにつれてこのすべてが上手く機能するような、ウィンウィンのエコシステムを構築しなければなりません。
——現在Webで人々が非常に心配しているのは、検索の将来です。Web上のあらゆる情報をもとに、質問に答えてくれるようなテクノロジーがあれば、人々はもはやそれらのサイトを訪れる必要がなくなるのではないかという危惧があります。これはグーグルにも影響を与えそうです。ご自身のビジネスの観点から、このようなことも考えていらっしゃるのでしょうか。
私たちが検索で持っているユニークな価値提案のひとつは、ユーザーが新しいものを見つけ、学び、答えを見つけるのを助けることを後押しすることです。しかし、そこには常に、Web上に存在する豊かさや多様性をユーザーと共有するという視点が存在します。それは、私たちが検索生成体験の旅を進めているときも変わりません。これは、私たちが製品を開発する際の重要な原則です。人々が検索をする時は「自分の質問に答えてくれればそれでいい」というわけではないと思います。答えが欲しい質問が1つや2つあるとしても、また検索に戻って来て、さらに学び、あるいはその過程の中で、さらに深掘りして行くのです。私たちは常に、自分が正しく理解しているかどうかを確かめたいのです。それはこれからも変わらないと思います。バランスを適切に取ることが重要なのです。
同様に、価値を深く提供すれば、提供するものに商業的な価値が生まれます。このような問いは、デスクトップからモバイルに至るまでありました。今に始まったことではありません。私たちが目にしているあらゆるものと、質の高い広告に対するユーザーの反応から判断して、私は安心しています。ユーチューブは良い例で、私たちはサブスクリプション・モデルを開発しました。これもうまくいっています。
——来年、ジェミナイ製品群が実際に市場に出回り始め、使われ始めると、人々の体験はどのように変わると思いますか?
来年の今頃、グーグル・ドキュメント(Google Docs)で何かを始める人は皆、何か違うものを期待していると思います。そして、グーグルド・キュメントを使ってもらって、たとえば2022年のバージョンに戻したとしたら、あまりにも時代遅れであることに気づくはずです。私の子どもたちは、スペルチェックがないと、基本的にはこの機能が壊れていると思うでしょう。あなたも私も、スペルチェックが搭載される前の製品を使用していたときのことを覚えているかもしれません。しかし私たちは、他のどの企業よりも、検索に多くのAIを組み込んできました。そして人々はこれを当たり前のことと考えています。これは私が長い時間をかけて学んだことのひとつです。人々は当たり前のこととみなすのです。
どのような新しいことができるようになるかに関しては、マルチモーダル機能を開発する中で、以前はできなかったようなより複雑なタスクをこなせるようになるでしょう。そして、はるかに強力な実際のユースケースが生まれるでしょう。
- 人気の記事ランキング
-
- The Biggest Questions: Are we alone in the universe? 地球外生命体は存在するか? 人類の先入観を超えた探索
- Exclusive: Ilya Sutskever, OpenAI’s chief scientist, on his hopes and fears for the future of AI 独占:アルトマン解任前夜、 渦中の人物が語っていた 人工超知能への期待と恐怖
- Huawei’s 5G chip breakthrough needs a reality check 中国テック事情:ファーウェイ「独自チップ」衝撃も厳しい現実
- How the idea of a “transgender contagion” went viral—and caused untold harm 波紋広げた研究論文、 トランスジェンダー伝染説は いかにして利用されたか
- マット・ホーナン [Mat Honan]米国版 編集長
- MITテクノロジーレビューのグローバル編集長。前職のバズフィード・ニュースでは責任編集者を務め、テクノロジー取材班を立ち上げた。同チームはジョージ・ポルク賞、リビングストン賞、ピューリッツァー賞を受賞している。バズフィード以前は、ワイアード誌のコラムニスト/上級ライターとして、20年以上にわたってテック業界を取材してきた。