(cache)Googleの新LLM「Gemini」の全貌とその可能性

Googleが設計した大規模言語モデル（LLM）「Gemini」は、自然言語処理（NLP）と機械学習を駆使して人間の会話を再現する技術です。以前は「Bard」として知られていましたが、2024年2月に名称が変更されました。GeminiはGoogleの検索サービス「Google Search」において、ユーザーが望む検索結果を得られるように補助する役割を果たします。また、Webサイトやメッセージングツール、アプリケーションと連携させることも可能です。

Geminiは自然言語、音声、ソースコード、映像などを理解する能力を持つ、マルチモーダルなLLMです。最初のバージョンである「Gemini 1.0」は、2023年12月に発表されました。このモデルはGoogleの親会社Alphabet傘下でAI技術の研究開発を手掛けるGoogle DeepMind Technologiesが開発しました。

Geminiは、自然言語を理解して処理するNLP機能に加え、入力された画像を理解して認識する機能も搭載しています。そのため外部の光学式文字認識(OCR)システムを必要とせずに、グラフや図、写真などの画像を解析できます。多言語で利用でき、翻訳に使うことも可能です。

Geminiはクロスモーダルな推論が可能で、音声や画像、テキストなどの異なる種類の入力データを組み合わせて推論できます。Geminiは、大規模な学習データ群で訓練を受けており、訓練後はユーザーの入力内容を理解して質問に答えるために、幾つかのニューラルネットワーク技術を使用しています。学習と推論の両方で、GeminiはGoogleが開発した機械学習向けの集積回路「Cloud Tensor Processing Unit」（TPU）を利用しています。

LLMの主な課題として、出力結果にバイアスや有害なコンテンツが含まれる可能性があります。Googleが公開するAI原則によると、Geminiをはじめとした同社のAIはこれらのリスクを抑えるために、安全性を確保するための開発手法を採用し、LLMに対する継続的な監視やテストを実施しています。

Geminiは用途や利用規模に合わせて複数のモデルを用意しています。2024年7月時点では、「Gemini Ultra」「Gemini Pro」「Gemini Nano」「Gemini Flash」の4種類があります。最上位モデルの「Gemini Ultra」は物理学の推論や大量の科学論文の検索といった、複雑なタスクを高速で処理します。Gemini Proは、より幅広い用途への利用を想定しています。2023年12月に、Googleは同社のAIアプリケーション開発ツール「Vertex AI」と「Google AI Studio」でGemini Proを利用可能にしました。Googleのプログラミング用生成AI「AlphaCode 2」は、Gemini Proの技術に基づいています。

Gemini Nanoはモバイルデバイスで実行するのに適したモデルです。デバイスがインターネットに接続されているかどうかにかかわらず、迅速な応答ができるように設計されています。Googleのスマートフォン「Google Pixel 8 Pro」はGemini Nanoが組み込まれているデバイスの一つです。Gemini FlashはGeminiの軽量モデルで、Vertex AIの利用料金が他のGeminiモデルと比較して抑えられていることが特徴です。

Googleは2023年2月にBardを発表し、同年5月に180以上の国と地域で一般提供を開始しました。2024年2月、BardはGeminiに改称されました。2023年2月にGoogleが一般提供に先駆けてBardを発表したのは、OpenAIの生成AIアプリケーション「ChatGPT」の発表を受けて、それに対抗する狙いがあったからだとみられます。

GoogleがBardを発表したことについては、時期尚早だったという声があります。例えばGoogleとAlphabetのCEOであるスンダー・ピチャイ氏は2023年2月にBardを実演して見せた際、Bardはユーザーの質問に対して事実と異なる回答をしました。この実演では、あるユーザーがBardに対して「ジェームズ・ウェッブ宇宙望遠鏡（JWST）からの新たな発見を9歳の子供に伝えることができますか」と質問しました。Bardは「ジェームズ・ウェッブ宇宙望遠鏡は太陽系外の惑星の最初の写真を撮った」と回答しました。しかし天文学者らは最初の太陽系外惑星の画像は2004年に地上の観測所で撮影されており、Bardの答えが間違っていると指摘しました。同年2月8日（現地時間）の米国株式市場でGoogleの時価総額が1000億ドル下落したのは、この騒動が一因だと考えられます。

Geminiは世界中で利用可能です。ただしAI技術に関する各国の法規制に合わせて、年齢制限が設けられています。GeminiのWebアプリケーションの場合、欧州経済領域（EEA）、スイス、カナダ、英国では18歳以上、その他のほとんどの国では13歳以上であればGeminiを使うことができます。ただし18歳未満のユーザーは、英語でのみGeminiのWebアプリケーションを使用できます。ユーザーはGeminiを利用するために、自身のGoogleアカウントを持っている必要があります。

2024年7月時点で、Gemini ProとGemini Nanoは登録後無料で使用できます。月額20ドルの「Gemini Advanced」プランに加入すると、Gemini Ultraが利用できるようになります。同プランはGemini AdvancedのWebアプリケーションでプログラミング言語「Python」のソースコードを編集、実行する機能や、Googleのストレージサービス「Google One」の2TB分のストレージが含まれています。

Geminiはテキストや画像、音声、ビデオなどのデータを理解したり、これらの異なる形式の入力データを組み合わせて、それを基に出力を生成したりすることが可能です。業務にGeminiを使用すれば、次のようなさまざまなタスクを実行できます。

テキストの要約や生成さまざまなタイプのデータからコンテンツを要約したり、ユーザーのプロンプト（情報を生成するための質問や指示）に基づいてテキストを生成したりする。チャットbotに組み込むことで、質問への自動回答にも利用できます。

テキスト翻訳 100カ国語以上の言語を理解し、翻訳を実行します。

画像の理解外付けのOCRツールを使用せずに、チャートや図、ダイヤグラムなどの複雑な画像や図形を解析します。画像のキャプション作成や、画像を用いた質疑応答をします。

音声処理さまざまな言語の音声認識や、音声翻訳などのタスクを実行します。

映像の理解入力された動画の内容を理解して、質問に答えたり説明を生成したりします。

ソースコードの分析や生成「Python」「Java」「C++」「Go」などの一般的なプログラミング言語のソースコードを、入力されたプロンプトに合わせて生成します。

Geminiには幾つかのリスクや欠点があります。その一つが、LLMの学習が不十分になる可能性があることです。全てのAI技術と同様に、Geminiは正確な答えを出すために学習する必要があります。その際に、不正確な情報や間違った情報ではなく、正確な情報で学習させる必要があります。ユーザーは間違った情報が出力されたときに、それを識別する必要があります。

バイアスが入り込むことも、他のAIモデルと同様、Geminiに残る課題です。Googleは、全てのGemini モデルが人間にとって危険な回答をするリスクを抑えるために、同社のAI原則に基づいて開発されていると主張しています。

OpenAIのLLM「GPT-3」「GPT-4」は、Geminiと競合するLLMです。以下の表は、GeminiとGPT-3、GPT-4の主な特徴を表しています。

GeminiとChatGPTは、人々との対話を実現するチャットbot機能を備えています。両者とも、検索システムのユーザー体験を向上させたり、Webサイトの情報を収集して新しい情報を回答に取り入れたりするために使われています。2023年1月にMicrosoftはOpenAIに総額100億ドルを出資して、同社との関係性を深めています。Microsoftは検索エンジンの「Bing」にGPT-4を組み込み、ユーザーとの対話に基づいた検索結果を提供できるようにしました。Geminiは2024年7月時点で、「Search Labs」としてGoogle Searchで試験的に利用可能です。

GeminiとChatGPTは共に、出力されたコンテンツが他の出典元から盗用されたコンテンツである可能性があります。両サービスとも、出力結果がオリジナルであることを検証するための盗用検出機能は、標準機能として搭載されていません。ただしAIツールが生成したコンテンツの盗作を検出するためのサードパーティーのツールが利用できます。

AI ジャーナル

Googleの新LLM「Gemini」の全貌とその可能性