AIの医療相談はGoogle検索以下〜1,298人の研究が示した現実〜
「私は素人なのでわからないんですけど、AIはこう言ってます」
今日も外来でこれを言われました。もう珍しくもない。
以前、この問題について書いたことがあります。
AIは正しく答えている。でも患者さんが無意識に情報を絞り込んで、確証バイアスで「都合のいい診断」が出来上がる。そういう記事でした。あの甲状腺の患者さんの話を覚えている方もいるかもしれません。
あれが、1,298人の研究で裏づけられました。
1,298人のRCT
2026年2月9日、Nature Medicineに論文が載りました。オックスフォード大学を中心としたグループによるランダム化比較試験(RCT)です。新薬の効果を証明するときと同じ手法で、AIの医療相談能力を検証している。
1,298人の一般参加者を4グループに分けた。3グループにはそれぞれ異なるAI(GPT-4o、Llama 3、Command R+)を渡す。残り1グループには、Google検索でも本でも好きな方法を使ってもらう。全員に医師が作った10の医療シナリオを見せて、「何の病気か」「どこを受診すべきか」を答えさせた。
AI単独でシナリオの全情報を入力すれば、関連する疾患を正しく挙げた割合は90〜99%。医師免許試験もほぼ満点。AIに医学知識がある。それは間違いない。
人間が使うと壊れる
一般の人がAIを使って同じシナリオに答えると、正しい疾患の特定率は34.5%未満に落ちました。
Google検索などを自由に使ったグループは47.0%。AIを使うより、Web検索の方が1.76倍正確だった。
「どこを受診すべきか」の判断精度も、AIを使おうが使うまいが差なし。AIは医療判断の改善に貢献していなかった。
ちなみにCommand R+というモデルは、AIがWeb検索と組み合わせて回答を生成する仕組み(RAG)を持っています。「AI+検索」なら精度が上がるんじゃないか。そう思いたくなりますが、結果は他のAIと変わらなかった。ボトルネックはAIの知識量ではなく、人間との対話そのものにある。
情報が壊れる場所
研究チームが会話ログを分析して見えてきたのは、二箇所の断絶でした。
一つ目。人間からAIへ。参加者が重要な情報をAIに伝えきれていなかった。何が医学的に大事かわからないから、自分で「関係ない」と判断した情報を省いてしまう。
前の記事で「無自覚な情報の絞り込み」と呼んだ現象そのものです。動悸と不眠と体重減少だけ伝えて、職場のストレスや電車内の不安は省略する。1,298人で再現されていました。
二つ目。AIから人間へ。AIは会話の中で65〜73%の確率で正しい疾患名に触れていた。でも参加者はそれを拾えなかった。AIが平均2.21個の候補を出しても、最終回答に採用されたのは1.33個。正解率38.7%。
AIが正しいことを言っても、受け取る側が選び間違える。自分の仮説に合うものだけ持ち帰ってしまう。
試験の点数と臨床は別物
「AIは医師免許試験で高得点が取れる」。AI企業がよく使う宣伝文句です。事実ではある。
でもこの研究で、試験の成績と実際の対話場面での精度はほぼ無相関でした。試験で80%超のAIが、人間と組んだら正答率20%以下になるケースすらあった。
点数が良いことと、目の前の人の役に立てることは違う。人間の医師でもそうですが、AIではその溝がはるかに深い。
Google検索の方がマシな理由
論文には明記されていません。ただ、臨床にいる人間として想像はつく。
英国ではNHS(国民保健サービス)のWebサイトが充実していて、「こんな症状はありませんか?」とチェックリスト形式で整理されている。自分の状態と一つずつ照合する作業は、比較的うまくいく。
AIとの対話は自由度が高すぎる。何を聞けばいいかわからない人が、自由な会話の中で迷子になり、自分の仮説に合う回答だけ持ち帰る。
ここで気になるのは日本の状況です。英国にはNHSという一元的な医療情報基盤がある。日本にそれに相当するものがあるかというと、厚労省の「医療情報ネット」はあるものの、一般の人が症状から疾患を調べるような構造にはなっていない。英国より条件が悪い可能性がある。
そしてコントロール群の47%という数字も、冷静に見れば高くない。半分以上が間違えている。AI群もコントロール群も、一般の人が自分で医療判断するのは難しい。これが現実です。
問診がやっていること
医師は患者さんの話を聞きながら、頭の中で仮説を立てています。そして仮説を検証するために、患者さんが「関係ない」と思っている情報を能動的に引き出す。
「最近ストレスは?」「職場で何か変わったことは?」「電車で不安を感じたりしない?」
自己申告からは出てこない情報を掘りに行く作業です。
今のAIにこれはできません。聞かれたことに答える受動的な設計だから。患者さんが伝えなかった情報を取りに行く仕組みがない。
論文でも「AI側が能動的に情報を要求・管理する設計が必要だ」と指摘されています。AIが問診できるようにならない限り、この問題は残る。
あいだで壊れる
AIの回答は「あなたが伝えた情報の範囲内での推測」であって、診断ではありません。省略した情報の中に本当の答えがあるかもしれない。AIが3つの候補を出して、「これだ」と感じたものが正解とは限らない。
1,298人が参加した研究の結論はシンプルです。AIに聞けば正しい答えが得られるという期待は、現時点では成り立たない。
AIは賢い。でも、あなたとAIの「あいだ」で情報が壊れる。
体調が気になってAIに相談したなら、そのやりとりごと医師に見せてください。「こう聞いたら、こう返ってきました」。そう言ってもらえたら、そこから先は私たちの仕事です。
読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。
いいなと思ったら応援しよう!
よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!





コメント