同一の電子カルテ情報でAIと医師を比較した実験で、特定のモデルが予想外の高精度を示しました。現場導入にはさらに慎重な検証が必要です。
新しい研究は、巨大言語モデル(LLMs)が医療現場のさまざまな文脈でどのように機能するかを検討しており、特に救急外来では、あるモデルが医師より正確だったことが分かった。
この研究には、ハーバード医科大学とベス・アイザベラ・デイアコネス・メディカルセンターのチームが参加し、OpenAIのモデルの能力を医師の判断と比較するいくつかの実験を実施した。
実験の一つでは、ベス・アイザベラ・デイアコネス救急外来を受診した76名の患者を対象に、患者を担当する2人の医師の診断と、OpenAIのモデル o1 および 4o が生成した診断を比較しました。これらの診断は、医師が作成したものとAIが作成したもののいずれかを知ることのない別の2人の医師によって評価されました。
「各診断段階で、o1は名目上の優位を示すか、患者を担当する2名の医師と同等であり、4oと同等であった」
– ハーバード医科大学
結果の背景と結論
ハーバード医科大学のプレスリリースによると、実験データは事前処理されておらず、モデルは診断時点の電子カルテと同じ情報を与えられていた。
本研究によると、o1はトリアージの67%のケースで「正確またはそれに近い診断」を提示できたのに対し、1人の医師は正確またはそれに近い診断を55%、もう1名の医師は50%のケースで目標水準に到達した。
「私たちはAIモデルをほぼすべての標準的な比較指標と対比してテストしましたが、それは従来のモデルや私たちの医師のベースライン指標を上回りました。」
– アージュン・マンライ
著者はまた、これらの結論はAIが救急外来で患者の命に関わる判断を自動で下す準備ができていることを意味するものではなく、むしろ現場条件下での技術評価を進めるための今後の前向きな試験の必要性を強調している。
さらに、この研究はテキストデータのみに焦点を当てており、現行のデータは、非テキストデータの合理的な処理に関して、現代の基礎モデルには限界があることを示唆している。
医療界は、AIによる診断の責任所在に関する明確な枠組みの必要性を強調しており、患者と医師は命にかかわる判断の際には人の監視を維持すべきだと指摘している。
今後の研究は、実際の患者ケアの場面を想定したシナリオと、救急のトリアージおよび診断プロセスへ人工知能を安全に統合するための監視・管理機構の導入に焦点を当てる必要がある。