(cache)まな｜AI×コンテンツビジネスの極意 on X: "Geminiだけは、調べ物に使うな。マジで言ってる。 AA-Omniscienceっていう 6,000問の専門知識テストがある。 Gemini系のハルシネーション率、88%。 10回答えたら9回嘘が混ざる。「いやいや、推論性能はトップじゃん」そう。ARC-AGI-2で77.1%。頭の良さだけなら確かにトップクラス。" / X

Geminiだけは、調べ物に使うな。マジで言ってる。 AA-Omniscienceっていう 6,000問の専門知識テストがある。 Gemini系のハルシネーション率、88%。 10回答えたら9回嘘が混ざる。「いやいや、推論性能はトップじゃん」そう。ARC-AGI-2で77.1%。頭の良さだけなら確かにトップクラス。でも頭がいいのと正直なのは全然別の話。テストで満点取るけど日常会話で平気で嘘つくやつ、いるでしょ。 Geminiはまさにそれ。なんでこうなるか。 Geminiの公式モデルカードに答えが書いてある。「情報が不足していても満足のいく回答を優先する傾向がある」公式が認めてんのよ。知らないことを聞かれても「わかりません」って言わない設計になってる。 SWE-benchっていうコーディングテストでも、 Geminiが693行のコードを書き換えた末に存在しないメソッドを発明してギブアップしてる。同じ問題でClaudeは途中でミスに気づいて修正。 GPTは慎重に確認して一発正解。この差、エグくない？？？じゃあChatGPTとClaudeはどうなのか。 GPT-5.4はOpenAI公式で「主張の誤りが33%減少」「回答全体のエラーが18%減少」と発表してる。 Claude Opus 4.6は AA-Omniscienceでハルシネーション率58%。 88%と58%。同じ「AI」でもこれだけ違う。 Claudeの強みは「わからないとき、わからないと言う」こと。派手じゃない。でもこれが一番信用できる。結局、2026年のAIの使い方はこう。正確さ命の作業 → Claude Opus 4.6 文書作成やコード → GPT-5.4 画像や動画の理解 → Gemini 3.1 Pro Geminiが使えないわけじゃない。マルチモーダルは本当に強い。画像分析、動画の要約、ここでは最強。ただ「正しい情報を出す」用途には向いてない。使いどころを間違えるな、って話。保存しとけ！

7:03 PM · Mar 11, 2026

577K

Views

Post

Conversation