About
Service
Works
Outline
Philosophy
Blog
Recruit
Contact
2023/12/25 02:37
この記事では2023年12月7日にGoogleから発表されたGeminiとOpenAIが提供するChatGPTを比較します。
料金比較や性能比較を行うので、どちらを使用するか悩んでいる方は参考にしてみてください。
GeminiとChatGPTはどちらもマルチモーダルな生成系AIとなっています。マルチモーダルとは、単一の情報だけでなく、複数の情報を組み合わせて理解することのできることを指します。例えば、画像データの理解のみならず、画像や動画、音声データなどの複数の情報を理解して処理するAIがマルチモーダルなAIと言えます。
このマルチモーダルなAIの代表として、ChatGPTやGeminiが挙げられます。
Geminiとは、Googleから発表された生成系AIで、テキスト生成はもちろん、音声認識、画像認識、動画認識が可能なモデルとなっています。
Geminiは、Gemini Ultra・Gemini Pro・Gemini Nanoの3種類のモデルが発表されています。Gemini Ultraに関しては、OpenAIのGPT-4(課金して利用できるChatGPTのモデル)を超える性能を持つと発表されおり、現在注目を集めています。
Gemini Proのモデルに関しては現在、GeminiとAPIを利用して使用することができます。詳しい利用方法に関してはこちらの「Geminiの使い方解説」を参考にしてください。
また、Gemini Ultraを使用できるサービスであるGemini Advancedについてはこちらの「Gemini Advanced 徹底解説」を参考にしてください。
ChatGPTとは2022年11月に公開したAIサービスで、チャット形式でAIとやりとりすることができます。AIの高性能さから発表されてすぐに注目を集め、リリース後のわずか2ヶ月でアクティブユーザーが1億人を超えました。1億人を突破するのにTikTokが9ヶ月、Instagramが2年半かかったことからもChatGPTの勢いの凄さがわかると思います。
ChatGPTは無料で使用することができますが、画像生成や通常のモデルよりも高性能なモデルを使用したい場合には月額$20の課金を行うと使用することができます。
ChatGPTの詳細についてはこちらの「ChatGPT完全解説」を参考にしてください。
GeminiとChatGPTの主な違いは、どのようにマルチモーダルを実現しているのかという点にあります。ChatGPTでは、テキスト生成のモデル、画像認識のモデル、音声認識のモデルこれらを組み合わせることで、マルチモーダルを実現しています。
一方で、Geminiでは単一のモデルそのものがマルチモーダルとなっているため、シームレスな情報のやり取りを実現しています。
GPT-3.5 | Gemini Pro | GPT-4 | Gemini Ultra |
---|---|---|---|
無料 | 無料 | $20/month | $19.99/month |
ChatGPTとGeminiはどちらも基本的に無料で使用することができます。ChatGPTはこちらから、Geminiはこちらからアクセスして使用することができます(Geminiの利用方法についてはこちらの記事を参考にしてください)。
ただし、ChatGPTの最新のAIモデルである、GPT-4を利用するためには月額$20の課金を行う必要があります。Geminiの最も性能の高いGemini UltraはGemini Advanedにおいて利用することができます。Gemini Advancedは月額$19.99の課金を行うことで使用できます。
テキスト | Gemini Pro | GPT-3.5 | GPT-4 |
---|---|---|---|
入力/1K token | $0.00025 | $0.0010 | $0.03 |
出力/1K token | $0.0005 | $0.0020 | $0.06 |
現在、GeminiのAPIではGemini Proにアクセスすることができます。GeminiのAPIは現在はプレビュー版として公開されているため無料で使用することができますが、年明けの一般公開時には料金が発生します。
こちらがGemini APIの料金となります。1000トークンあたり、入力で$0.00025(約0.036円)が発生します。一方で、ChatGPT APIではGPT-3.5の場合は入力で$0.0010(約0.14円)、GPT-4の場合$0.03(約0.43円)となるためGemini Proを使用した方が値段は安く使用することが可能できます。
Geminiにはgemini-pro-visionという画像・動画の認識が可能なモデルが存在し、こちらは入力画像1枚あたり$0.0025(約0.36円)で使用することが可能できます。
*ChatGPTのAPIには様々なモデルがあるため、ここでは、GPT-3.5ではgpt-3.5-turbo-1106、GPT-4では、gpt-4を掲載しています。APIでアクセスすることのできるより詳細なモデルの料金に関しては公式サイトを参考にしてください。
性能の比較を行います。公式発表による性能比較と実際に手元で動かして性能比較を行ってみました。
GoogleはGeminiの最も優れたモデルであるGemini UltraにおいてGPT-4よりも高い性能を出したと発表しています。また、Gemini Ultraは数学推論、画像、音声、動画認識において使用される32の業界ベンチマークのうち30で既存のモデルよりも優れた成績を残しています。
特にMMLU(大規模マルチタスク言語理解)と呼ばれるベンチマークにおいては、90%以上の性能を出しており、これはその分野の専門家を上回る数値となっています。
また、Gemini UltraはLLM(大規模言語モデル)の3つの必須スキル(認識、知識、推論)を測定するために設計されたMMMUというベンチマークにおいても優れた結果を残しています。
Gemini Proに関しても、MMLUにおいて、Gemini ProはGPT-4には及ばないものの、GPT-3.5よりも高い性能を出しています。
詳細はこちらのGemini: A Family of Highly Capable Multimodal Models(Geminiテクニカルレポート)を参考にしてみてください。
現在のChatGPTでは、2022年1月までの情報をAIの学習に使用しています。一方でGeminiはその学習期間が公表されていません。
APIを通じてGeminiに訪ねてみたところ、2021年4月までだったり、2022年3月までとランダムな回答を得ました。様々な情報で訪ねてみましたが、2022年に関する情報はカタールワールドカップの優勝国(12月)について答えることはありませんでしたが、ハリケーン「フィオナ」(9月)については回答を行いました。一方で2023年の情報を答えることはなかったため少なくとも2023年の情報を学習に使用している可能性は小さいと思います。
APIを経由したモデルでは、情報の期間が限られていますが、ChatGPTはBing、Geminiはブラウザ版Geminiを使用すればブラウザを経由して情報の取得を行えるため最新の情報に対応した出力を行なってくれます。
文章の作成を行わせてみましょう。「人工知能とは何ですか?実際の人工知能の活用事例も踏まえて200文字以内で教えてください。」と入力します。
人工知能(AI)とは、コンピュータに人間のような知能を与え、人間が通常行うタスクを行うようにする一連のアルゴリズムのことです。
人工知能の活用事例:
* 画像認識:コンピュータが画像内のオブジェクトを認識し、分類します。これは、顔認識ソフトウェアや医療画像診断ソフトウェアなどで使用されています。
* 自然言語処理:コンピュータが人間の言語を理解し、生成します。これは、機械翻訳ソフトウェアやチャットボットなどで使用されています。
* ロボティクス:コンピュータがロボットを制御し、自律的に動作させます。これは、製造業や医療分野などで使用されています。
人工知能(AI)は、コンピューターシステムを用いて、人間の知能や認知能力を模倣し、問題解決や意思決定を行う技術です。AIは機械学習、深層学習、自然言語処理などの技術を組み合わせて進化しています。
実際のAI活用事例には、自動運転車のような交通安全の向上、医療診断の精度向上、カスタマーサポートのチャットボット、言語翻訳、金融取引のリスク評価、製造業における品質管理、音声認識によるデジタルアシスタント(SiriやAlexa)、人間の行動予測などがあります。AIは多くの分野で革命をもたらし、効率性と精度の向上をもたらしています。
人工知能(AI)は、機械が人間のような知能を発揮する技術です。例えば、医療での画像診断、自動運転車の運転支援、音声認識によるアシスタント機能、ユーザーの好みに合わせた推薦システム、製造業での品質管理など、多岐にわたる分野で活用されています。これにより、効率性の向上、コスト削減、新しい価値の創出が可能になっています。
それぞれ入力に対してこのように出力してくれました。Gemini Pro、ChatGPT(GPT-3.5)はどちらも200文字の指定をオーバーして記述しましたが、GPT-4は200文字以内に回答してくれました。
ChatGPTでは、GPT-3.5、4ともにまとまった文章で出力しましたが、Geminiでは概要と活用事例を分けて記述するという特徴も今回の入力では確認できました。
次の文章を要約させた結果も確認してみましょう。文章はWikipediaより抜粋。
プロンプト
以下の文章を要約してください
人工知能、AI(エーアイ)とは、「『計算(computation)』という概念と『コンピュータ(computer)』という道具を用いて『知能』を研究する計算機科学(computer science)の一分野」を指す語。「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピュータに行わせる技術」、または、「計算機(コンピュータ)による知的な情報処理システムの設計や実現に関する研究分野」ともされる。大学でAI教育研究は、情報工学科や情報理工学科コンピュータ科学専攻などの組織で行われている。
『日本大百科全書(ニッポニカ)』の解説で、情報工学者・通信工学者の佐藤理史は次のように述べている。
「誤解を恐れず平易にいいかえるならば、「これまで人間にしかできなかった知的な行為(認識、推論、言語運用、創造など)を、どのような手順(アルゴリズム)とどのようなデータ(事前情報や知識)を準備すれば、それを機械的に実行できるか」を研究する分野である。」
1200の大学で使用された事例がある計算機科学の教科書『エージェントアプローチ人工知能』は、最終章最終節「結論」で、未来はどちらへ向かうのだろうか?と述べて次のように続ける。SF作家らは、筋書きを面白くするためにディストピア的未来を好む傾向がある。しかし今までのAIや他の革命的な科学技術(出版・配管・航空旅行・電話システム)について言えば、これらの科学技術は全て好影響を与えてきた。同時にこれらは不利な階級へ悪影響を与えており、われわれは悪影響を最小限に抑えるために投資するのがよいだろう。論理的限界まで改良されたAIが、従来の革命的技術と違って人間の至高性を脅かす可能性もある。
・AIとは、計算機を使って知能を研究する学問分野である。
・「言語の理解や推論、問題解決などの知的行動を人間に代わってコンピュータに行わせる技術」とも定義される。
・AI教育研究は、大学の情報工学科や情報理工学科コンピュータ科学専攻などの組織で行われている。
・AIは、SF作家らが好むディストピア的未来ではなく、好影響を与えてきた他の革命的技術のように、人類に利益をもたらす可能性が高い。
・しかし、論理的限界まで改良されたAIは、人間の至高性を脅かす可能性もある。
人工知能(AI)は計算機科学の一分野で、言語理解、推論、問題解決などの知的行動をコンピュータに行わせる技術を指す。大学でAI教育研究が行われており、佐藤理史はAIを「人間にしかできなかった知的な行為を機械的に実行する研究」と説明しています。未来において、AIは社会に大きな影響を与える可能性があり、悪影響を最小限に抑えるための投資が必要です。AIの進化は従来の技術とは異なり、人間の至高性を脅かす可能性もあるため、注意が必要です。
人工知能(AI)は、計算とコンピュータを用いて知能を研究する計算機科学の一分野であり、人間の知的行動(認識、推論、言語運用など)をコンピュータで行う技術や、その研究分野を指します。大学では情報工学科などでAIの教育研究が行われています。佐藤理史によれば、AIは人間の知的行為を機械的に実行できるようにする研究分野です。また、教科書『エージェントアプローチ人工知能』は、AIを含む科学技術が過去に好影響を与えつつも、不利な階級には悪影響を及ぼしてきたこと、そしてAIが人間の至高性を脅かす可能性もあることを指摘しています。
それぞれこのように出力を行いました。Gemini Proは要素を箇条書きにして出力を行なったのに対してChatGPTでどちらのバージョンもまとまった文章で出力を行いました。
プログラミングコードの生成も行ってみましょう。二次関数のグラフを表示させるPythonコードを尋ねてみたいと思います。実行結果はGoogle Colaboratory上で実行したものになります。
プロンプト
直交座標系において頂点を(1,2)とする2次関数のグラフを表示させるPythonコードを記述してください。
import matplotlib.pyplot as plt
# 2次関数の式
def quadratic_function(x):
return (x - 1)**2 + 2
# xの値の範囲を指定
x = np.linspace(-5, 5, 100)
# yの値を計算
y = quadratic_function(x)
# グラフを描画
plt.plot(x, y)
# 原点をプロット
plt.scatter(1, 2, color='red')
# グラフのタイトルとラベルを設定
plt.title("2次関数 y = (x - 1)^2 + 2")
plt.xlabel("x")
plt.ylabel("y")
# グラフを表示
plt.show()
実行結果
import numpy as np
import matplotlib.pyplot as plt
# 2次関数の係数
a = 1 # 2次の係数
b = -4 # 1次の係数
c = 3 # 定数項
# xの範囲を設定
x = np.linspace(-2, 4, 400) # グラフのx軸の範囲を設定
# 2次関数の式
y = a * x**2 + b * x + c
# グラフを描画
plt.plot(x, y)
plt.xlabel('x軸')
plt.ylabel('y軸')
plt.title('2次関数のグラフ')
plt.grid(True)
plt.show()
実行結果
import matplotlib.pyplot as plt
import numpy as np
# 2次関数のパラメータ
a = 1
h = 1
k = 2
# xの値の範囲を定義
x = np.linspace(-2, 4, 400)
# 2次関数の値を計算
y = a * (x - h)**2 + k
# グラフを描画
plt.figure(figsize=(8, 6))
plt.plot(x, y, label='y = {}(x - {})^2 + {}'.format(a, h, k))
plt.scatter(h, k, color='red') # 頂点をプロット
plt.title('Graph of the Quadratic Function')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()
実行結果
それぞれの実行結果について、Gemini ProではNumpyモジュールのインポートを記述していなかったためエラーが出力されました。モジュールをインポートして実行したところ要求通りのグラフを出力してくれました。
一方でChatGPT(GPT-3.5)ではPythonコード自体の実行はできましたが、要求したグラフにはなりませんでした。GPT-4では一発で要求通りのグラフを出力してくれました。また、GPT-4ではグラフタイトルやラベルも英語表記にすることで文字化けも防いでいます。
コードの生成能力ではGPT-4が最も優れた結果を出しましたが、Gemini Proも些細なミスであったためプロンプトを重ねれば十分なコード生成が可能だと思います。
計算能力も比較させてみたいと思います。
まずはこちらの小学生レベルの文章問題について尋ねたいと思います。
プロンプト
1mのねだんが75円のリボンがあります。Aくんがこのリボンを2.4m買うと代金はいくらになりますか?
1mのリボンの値段が75円なので、2.4mのリボンの値段は
2.4m × 75円/m = 180円
となります。したがって、Aくんがこのリボンを2.4m買うと代金は180円になります。
75円/メートルのリボンがあり、Aくんが2.4メートル買うとすると、費用は以下の計算式となります:
75円/メートル * 2.4メートル = 180円
どちらも正解することができました。(GPT-4ももちろん正解したため、省略します)
次に高校数学レベルの問題について尋ねてみたいと思います。
プロンプト
サイコロを 2 回ふります。1 回目に 3 の目が出て, 1 回目と 2 回目のサイコロの目の和が 7 以上にな る確率を求めよ。
こちらは高校数学において条件付き確率と呼ばれる分野の問題になります。こちらの回答は1/2となります。それぞれの回答を見てみましょう。
1 回目に 3 の目が出る確率は 1/6 です。1 回目と 2 回目のサイコロの目の和が 7 以上になるには、2 回目に 4、5、6 の目が出る必要があります。2 回目に 4、5、6 の目が出る確率は 3/6 = 1/2 です。したがって、1 回目に 3 の目が出て、1 回目と 2 回目のサイコロの目の和が 7 以上になる確率は、(1/6)×(1/2) = 1/12 です。
サイコロを2回振り、1回目に3の目が出ているという条件のもとで、1回目と2回目のサイコロの目の和が7以上になる確率を求めます。
1回目に3の目が出る確率は、サイコロの目が6面なので1/6です。
次に、2回目のサイコロの目が和が7以上になる場合を考えます。和が7以上になるためには、以下のいずれかが該当します:
1回目が3で、2回目が4以上の目。
1回目が4以上の目。
1回目が3である確率は1/6です。2回目が4以上の目である確率は3/6 = 1/2です。したがって、1回目が3であり、2回目が4以上の目である確率は (1/6) * (1/2) = 1/12 です。
また、1回目が4以上の目である確率は3/6 = 1/2です。
これらの確率を足し合わせて、1回目と2回目のサイコロの目の和が7以上になる確率を求めます。
(1/12) + (1/2) = 7/12
したがって、1回目に3の目が出て、1回目と2回目のサイコロの目の和が7以上になる確率は7/12です。
この問題は、確率論に基づく問題です。1回目に3が出たという条件のもとで、2回目のサイコロの目の和が7以上になる確率を求める必要があります。サイコロの各面は1から6までの数字があります。
1回目に3が出たとき、和が7以上になるためには、2回目には4, 5, または6のいずれかが出る必要があります。サイコロを振ったときに特定の数が出る確率は、1/6です(サイコロには6面あり、それぞれの面が出る確率は等しいため)。
したがって、求める確率は以下のように計算できます:
2回目に4が出る確率:1/6
2回目に5が出る確率:1/6
2回目に6が出る確率:1/6
これらを合計すれば、求める確率が得られます。それでは計算してみましょう。
2回目のサイコロの目の和が7以上になる確率は、50%です
高校数学レベルの問題に関してはGemini Pro、ChatGPT両方とも間違えた回答を出力しましたが、GPT-4は正しい結果を出力しました。間違え方としてはGemini Proの方が惜しい結果となっています。
GeminiとChatGPTでは画像認識を行うことができます(ChatGPTはGPT Plusに課金した場合のみ)。こちらのエッフェル塔の写真について説明を行うように入力を行います。
プロンプト
この写真は、パリの象徴であるエッフェル塔の写真です。エッフェル塔は、1889年のパリ万国博覧会のためにギュスターヴ・エッフェルによって建設されました。高さは324メートルで、鉄製の塔としては世界一の高さを誇ります。エッフェル塔は、パリの街のどこからでも見ることができ、パリの観光名所として人気を集めています。
写真にはエッフェル塔が描かれており、前景にはセーヌ川が流れ、いくつかのボートや観光船が水上を移動しています。エッフェル塔はパリの象徴的なランドマークであり、秋の季節を示唆する色づいた木々が写真の右側に見えます。水面には光の反射があり、都市の建物が遠くの地平線に沿って見えます。全体として、この写真はフランスのパリにあるエッフェル塔とその周辺環境を美しい秋の日に捉えたものです。
個人的な感想としては、Gemini Proはシンプルな説明を行ったのに対して、GPT-4は情緒のある説明を行っているような印象を持ちました。
今回はこちらのChatHubを用いて生成速度を比較してみたいと思います。ChatHubでは、複数のChatサービスを同時に開きながら使用することができます。入力に対する出力の違いなどをみたい時におすすめです。
今回比較にはAPIを利用して比較を行いました。
比較した結果、Gemini Proが最も高速に出力を生成している結果となりました。
いかがでしたでしょうか、料金やさまざまの側面における性能比較をこの記事では紹介してみました。Gemini、ChatGPTそれぞれ一長一短があるため、使用する際の参考にしてみてください。
弊社Nucoでは最新技術を取り入れたAIの開発や情報のキャッチアップを行なっています。Geminiの情報も常にキャッチアップしているため、GeminiやChatGPTなどのLLMを使用して開発を行いたい場合はぜひNucoにご相談ください。
こちらのお問い合わせフォームからのご相談お待ちしております。
Contact
Nucoに関するご質問、案件ご相談、お見積り依頼など、
以下のフォームよりお気軽にご連絡ください。
Nucoに関する
ご質問、案件ご相談、お見積り依頼など、
以下のフォームよりお気軽にご連絡ください。
Nucoに関する
ご質問、案件ご相談、
お見積り依頼など、
以下のフォームより
お気軽にご連絡ください。
お問い合わせはこちら