Post

Conversation

Geminiだけは、調べ物に使うな。 マジで言ってる。 AA-Omniscienceっていう 6,000問の専門知識テストがある。 Gemini系のハルシネーション率、88%。 10回答えたら9回嘘が混ざる。 「いやいや、推論性能はトップじゃん」 そう。ARC-AGI-2で77.1%。 頭の良さだけなら確かにトップクラス。 でも頭がいいのと正直なのは全然別の話。 テストで満点取るけど 日常会話で平気で嘘つくやつ、いるでしょ。 Geminiはまさにそれ。 なんでこうなるか。 Geminiの公式モデルカードに答えが書いてある。 「情報が不足していても 満足のいく回答を優先する傾向がある」 公式が認めてんのよ。 知らないことを聞かれても 「わかりません」って言わない設計になってる。 SWE-benchっていうコーディングテストでも、 Geminiが693行のコードを書き換えた末に 存在しないメソッドを発明してギブアップしてる。 同じ問題でClaudeは途中でミスに気づいて修正。 GPTは慎重に確認して一発正解。 この差、エグくない??? じゃあChatGPTとClaudeはどうなのか。 GPT-5.4はOpenAI公式で 「主張の誤りが33%減少」 「回答全体のエラーが18%減少」と発表してる。 Claude Opus 4.6は AA-Omniscienceでハルシネーション率58%。 88%と58%。 同じ「AI」でもこれだけ違う。 Claudeの強みは「わからないとき、わからないと言う」こと。 派手じゃない。でもこれが一番信用できる。 結局、2026年のAIの使い方はこう。 正確さ命の作業 → Claude Opus 4.6 文書作成やコード → GPT-5.4 画像や動画の理解 → Gemini 3.1 Pro Geminiが使えないわけじゃない。 マルチモーダルは本当に強い。 画像分析、動画の要約、ここでは最強。 ただ「正しい情報を出す」用途には向いてない。 使いどころを間違えるな、って話。 保存しとけ!