Geminiだけは、調べ物に使うな。
マジで言ってる。
AA-Omniscienceっていう
6,000問の専門知識テストがある。
Gemini系のハルシネーション率、88%。
10回答えたら9回嘘が混ざる。
「いやいや、推論性能はトップじゃん」
そう。ARC-AGI-2で77.1%。
頭の良さだけなら確かにトップクラス。
でも頭がいいのと正直なのは全然別の話。
テストで満点取るけど
日常会話で平気で嘘つくやつ、いるでしょ。
Geminiはまさにそれ。
なんでこうなるか。
Geminiの公式モデルカードに答えが書いてある。
「情報が不足していても
満足のいく回答を優先する傾向がある」
公式が認めてんのよ。
知らないことを聞かれても
「わかりません」って言わない設計になってる。
SWE-benchっていうコーディングテストでも、
Geminiが693行のコードを書き換えた末に
存在しないメソッドを発明してギブアップしてる。
同じ問題でClaudeは途中でミスに気づいて修正。
GPTは慎重に確認して一発正解。
この差、エグくない???
じゃあChatGPTとClaudeはどうなのか。
GPT-5.4はOpenAI公式で
「主張の誤りが33%減少」
「回答全体のエラーが18%減少」と発表してる。
Claude Opus 4.6は
AA-Omniscienceでハルシネーション率58%。
88%と58%。
同じ「AI」でもこれだけ違う。
Claudeの強みは「わからないとき、わからないと言う」こと。
派手じゃない。でもこれが一番信用できる。
結局、2026年のAIの使い方はこう。
正確さ命の作業 → Claude Opus 4.6
文書作成やコード → GPT-5.4
画像や動画の理解 → Gemini 3.1 Pro
Geminiが使えないわけじゃない。
マルチモーダルは本当に強い。
画像分析、動画の要約、ここでは最強。
ただ「正しい情報を出す」用途には向いてない。
使いどころを間違えるな、って話。
保存しとけ!