記事

ハーバード大研究でAIが救急外来の診断精度で医師2人を上回る──o1が76症例で67%達成

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの研究チームが、OpenAIのo1モデルを76名の救急患者の診断で2名の内科医と比較した研究をScience誌に発表。o1は67%の症例で正確または非常に近い診断を行い、医師2名（55%・50%）を上回る結果を示しました。

研究の概要：76症例でAIと医師2人を比較

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの研究チームは2026年5月3日、OpenAIのo1モデルが救急外来での診断精度において人間の医師2名を上回ったとする研究結果を発表しました。論文はScience誌に掲載されています。

研究では76名の救急患者を対象に、2名の内科主治医による診断とo1・4oモデルによる診断を比較しました。4名の別の医師が診断元を伏せた状態でブラインドレビューを実施しており、評価の客観性を確保する設計になっています。

精度の差：o1が67%、医師は55%と50%

最も注目されるのはトリアージ精度の数値です。o1モデルは76症例のうち67%で正確または非常に近い診断を下した一方、医師Aは55%、医師Bは50%にとどまりました。

研究チームは「最初の診断タッチポイント（初期トリアージ）で差が特に顕著だった」と指摘しています。この段階では患者情報が最も少なく、かつ迅速な判断が求められます。また、AIモデルは電子カルテに存在するデータをそのまま入力として与えられ、前処理は一切行われていないと強調されています。o1はすべての診断タッチポイントで、医師2名と4oモデルに対して同等以上の成績を収めた、と論文では報告されています。

病院の救急外来でCTスキャン画像を確認する医療従事者

画像引用元: TechCrunch

研究者らの留保：臨床実装への道は遠い

研究チームは成果を認めつつも、臨床への直接適用には慎重な姿勢を維持しています。論文では「実際の診療への適用には前向き試験が急務」と明記されており、AI診断の結果に対するアカウンタビリティの枠組みが現状では存在しないことが大きな課題として挙げられています。

研究に関わったAdam Rodman医師は「AI診断を巡る正式な責任の枠組みがまだない」と述べており、今後の制度整備の必要性を訴えています。一方、救急医のKristen Panthagani医師は今回の比較設計に疑問を呈し、「興味深い研究ではあるが、過度に誇張された見出しを生んでいる」と批評しています。

テキスト情報のみという制約と今後の課題

今回の研究でo1が使用できた情報はテキスト形式の電子カルテデータに限られており、X線・CT画像などの画像診断データやバイタルサインのリアルタイム計測値は含まれていませんでした。実際の救急診療では医師が患者の表情・声・体の動きなどを直接観察して診断に組み込みますが、現在のAIモデルにはそうした非テキスト系入力への対応に限界があります。

今回の研究はあくまで後ろ向き研究（既存の電子カルテを用いた過去データの比較）であり、実運用への適用可能性を示すにとどまります。今後は前向き試験の設計、医師とAIの協調モデルの検討、そして診断結果への法的・倫理的責任の整理が、医療AIの臨床展開に向けた次の焦点になりそうです。