見出し画像

AIの医療相談はGoogle検索以下〜1,298人の研究が示した現実〜

「私は素人なのでわからないんですけど、AIはこう言ってます」

今日も外来でこれを言われました。もう珍しくもない。

以前、この問題について書いたことがあります。

AIは正しく答えている。でも患者さんが無意識に情報を絞り込んで、確証バイアスで「都合のいい診断」が出来上がる。そういう記事でした。あの甲状腺の患者さんの話を覚えている方もいるかもしれません。

あれが、1,298人の研究で裏づけられました。

1,298人のRCT

2026年2月9日、Nature Medicineに論文が載りました。オックスフォード大学を中心としたグループによるランダム化比較試験(RCT)です。新薬の効果を証明するときと同じ手法で、AIの医療相談能力を検証している。

1,298人の一般参加者を4グループに分けた。3グループにはそれぞれ異なるAI(GPT-4o、Llama 3、Command R+)を渡す。残り1グループには、Google検索でも本でも好きな方法を使ってもらう。全員に医師が作った10の医療シナリオを見せて、「何の病気か」「どこを受診すべきか」を答えさせた。

AI単独でシナリオの全情報を入力すれば、関連する疾患を正しく挙げた割合は90〜99%。医師免許試験もほぼ満点。AIに医学知識がある。それは間違いない。

人間が使うと壊れる

一般の人がAIを使って同じシナリオに答えると、正しい疾患の特定率は34.5%未満に落ちました。

Google検索などを自由に使ったグループは47.0%。AIを使うより、Web検索の方が1.76倍正確だった。

「どこを受診すべきか」の判断精度も、AIを使おうが使うまいが差なし。AIは医療判断の改善に貢献していなかった。

ちなみにCommand R+というモデルは、AIがWeb検索と組み合わせて回答を生成する仕組み(RAG)を持っています。「AI+検索」なら精度が上がるんじゃないか。そう思いたくなりますが、結果は他のAIと変わらなかった。ボトルネックはAIの知識量ではなく、人間との対話そのものにある。

情報が壊れる場所

研究チームが会話ログを分析して見えてきたのは、二箇所の断絶でした。

一つ目。人間からAIへ。参加者が重要な情報をAIに伝えきれていなかった。何が医学的に大事かわからないから、自分で「関係ない」と判断した情報を省いてしまう。

前の記事で「無自覚な情報の絞り込み」と呼んだ現象そのものです。動悸と不眠と体重減少だけ伝えて、職場のストレスや電車内の不安は省略する。1,298人で再現されていました。

二つ目。AIから人間へ。AIは会話の中で65〜73%の確率で正しい疾患名に触れていた。でも参加者はそれを拾えなかった。AIが平均2.21個の候補を出しても、最終回答に採用されたのは1.33個。正解率38.7%。

AIが正しいことを言っても、受け取る側が選び間違える。自分の仮説に合うものだけ持ち帰ってしまう。

試験の点数と臨床は別物

「AIは医師免許試験で高得点が取れる」。AI企業がよく使う宣伝文句です。事実ではある。

でもこの研究で、試験の成績と実際の対話場面での精度はほぼ無相関でした。試験で80%超のAIが、人間と組んだら正答率20%以下になるケースすらあった。

点数が良いことと、目の前の人の役に立てることは違う。人間の医師でもそうですが、AIではその溝がはるかに深い。

Google検索の方がマシな理由

論文には明記されていません。ただ、臨床にいる人間として想像はつく。

英国ではNHS(国民保健サービス)のWebサイトが充実していて、「こんな症状はありませんか?」とチェックリスト形式で整理されている。自分の状態と一つずつ照合する作業は、比較的うまくいく。

AIとの対話は自由度が高すぎる。何を聞けばいいかわからない人が、自由な会話の中で迷子になり、自分の仮説に合う回答だけ持ち帰る。

ここで気になるのは日本の状況です。英国にはNHSという一元的な医療情報基盤がある。日本にそれに相当するものがあるかというと、厚労省の「医療情報ネット」はあるものの、一般の人が症状から疾患を調べるような構造にはなっていない。英国より条件が悪い可能性がある。

そしてコントロール群の47%という数字も、冷静に見れば高くない。半分以上が間違えている。AI群もコントロール群も、一般の人が自分で医療判断するのは難しい。これが現実です。

問診がやっていること

医師は患者さんの話を聞きながら、頭の中で仮説を立てています。そして仮説を検証するために、患者さんが「関係ない」と思っている情報を能動的に引き出す。

「最近ストレスは?」「職場で何か変わったことは?」「電車で不安を感じたりしない?」

自己申告からは出てこない情報を掘りに行く作業です。

今のAIにこれはできません。聞かれたことに答える受動的な設計だから。患者さんが伝えなかった情報を取りに行く仕組みがない。

論文でも「AI側が能動的に情報を要求・管理する設計が必要だ」と指摘されています。AIが問診できるようにならない限り、この問題は残る。

あいだで壊れる

AIの回答は「あなたが伝えた情報の範囲内での推測」であって、診断ではありません。省略した情報の中に本当の答えがあるかもしれない。AIが3つの候補を出して、「これだ」と感じたものが正解とは限らない。

1,298人が参加した研究の結論はシンプルです。AIに聞けば正しい答えが得られるという期待は、現時点では成り立たない。

AIは賢い。でも、あなたとAIの「あいだ」で情報が壊れる。

体調が気になってAIに相談したなら、そのやりとりごと医師に見せてください。「こう聞いたら、こう返ってきました」。そう言ってもらえたら、そこから先は私たちの仕事です。


読んでいただきありがとうございました。
コメント、記事購入、チップ等いつもありがとうございます。
大変感謝しております。
関連記事もありますので、下記サイトマップを参照していただければ幸いです。

いいなと思ったら応援しよう!

とある地方都市の某外科医 よろしければ応援お願いします!チップはnote更新用のPC購入費用に当てる予定です。よろしく!

ピックアップされています

医療関連記事マガジン前一時保管

  • 44本

医療業界関連記事まとめ

  • 292本

疾患・健康関連記事まとめ

  • 233本

AI・IT関連記事まとめ

  • 167本

医師の日常関連記事まとめ

  • 201本

コメント

コメントするには、 ログイン または 会員登録 をお願いします。
AIの医療相談はGoogle検索以下〜1,298人の研究が示した現実〜|とある地方都市の某外科医
word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word word

mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1
mmMwWLliI0fiflO&1