HN261219

OpenAI「o1」が救急現場で医師を凌駕！診断精度67%で医療現場に激震

OpenAI's o1 correctly diagnosed 67% of ER patients vs. 50-55% by triage doctors

donsupreme・3か月前

議論

11件

0：donsupremeスレ主▲2613か月前

OpenAIの最新モデル「o1」が、救急外来における患者の診断において、トリアージを担当する医師の精度（50〜55%）を大幅に上回る67%という驚異的な結果を叩き出しました。AIが医療の現場を塗り替える日はすぐそこまで来ているようです。

リンク先:https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

1：jmpman3か月前

自分や妻だけでなく、飼い犬の診断にもLLMを使ってるよ。AIを活用した獣医療には大きなチャンスがあると思う。特に、地域の動物病院間で入札を行って治療や手術先を決めるような仕組みがあれば最高だね。地元の獣医でも料金に10倍以上の差があることに気づいたんだ。80代の母や義母は過剰請求する獣医にカモにされることがよくあって、飼い犬は彼女たちの人生にとって大事な存在だから、そういうプレッシャーには本当に弱いんだよ。

2：gpm3か月前

こういう研究を鵜呑みにするのはかなり慎重になったほうがいい。ベンチマークを誤魔化すのは簡単だからね。

例えば、AIがレントゲン写真の解釈で放射線科医を打ち負かしたという最近の論文を見てみろよ。AIはレントゲン写真すら見ていなかったんだから： https://arxiv.org/pdf/2603.21687 （これは意図的に汚染されていない「胸部X線読影用の大規模視覚質問応答ベンチマーク」での話だ）。

それに、実際の現場で放射線科医はレントゲン写真そのものを見る。記事で言及されている文脈では、人間のお医者さんはメモだけを見て救急患者を診断するわけじゃない。そもそも必要ないし経験も訓練もしていないような作業を押し付けておいて、「AIの方が優秀だ」と言うのはどうなんだろう。もしメモに妙なサイドチャネルを通じて答えが漏れていなかったとしても、結果として驚くことではないよ。

研究が間違っているとか意図的に騙そうとしていると言いたいわけじゃない。ただ、たった一つの研究結果から強い結論を出すのは避けるべきだと思う。

3：droidjj3か月前

論文：https://www.science.org/doi/10.1126/science.adz4433 (2026年4月30日)

4：creativeSlumber3か月前

「AIと二人の医師に、同じ標準的な電子カルテを読み込ませた」

これだと人間の医師の能力を制限しているようなものだよ。医師は患者を少し観察するだけでも、もっと多くの情報を得られるんだから。

5：lukko3か月前

記事も論文も両方とも誇張しすぎじゃないか？これはLLMに圧倒的に有利な条件で医師と競わせているだけで、実際の臨床現場を全く反映していない。この手の推論ケースは医師向けのベンチマークじゃなくて、学習用のツールだよ。

診断というのは、そもそも患者の正確な描写が前提になるし、集められる情報は鑑別診断に依存する。医師のスキルの半分は、多くの情報源から何が重要かをフィルタリングすることにあるんだ。患者本人だけでなく、うまく話せない人や非言語の患者、介護者や近親者から情報を引き出す必要がある。病歴聴取（ヒストリーテイキング）や診察自体がスキルなんだよ。今回は、それらのデータが最初から与えられている状態だ。

テキストベースのパターン認識、特にo1のトレーニングデータに含まれているような質問なら、AIが医師を上回っても全然不思議じゃない。でも、臨床的に有用な比較には思えないな。どの検査をするか、どんな画像診断を行うか、そして病歴から不要な情報を削ぎ落とす判断力もスキルの一部であり、診断を導き出す過程から切り離すことはできないんだ。

6：mawadev3か月前

AIをそんな重大な状況で使うのは賢い選択とは思えない。10年後なら、AIが医師の予備診断をサポートするくらいにはなってるかもね。でも、もしAIが何も見つけられず、医師もそれ以上深追いしなかったら？結局、そういう些細な疑問が、どんな角度から見てもこの技術の限界を露呈させるんだと思う。AIはあくまで補助的な選択肢であるべきだよ。

人間が時間内に処理できないほど大量のデータをサンプリング・要約するためにAIを使うとしても、人間なら気づけたことを見逃したら？逆にAIなら見つけられることを人間が見逃したら？どちらを信頼する？（特に人間に責任がある場合はなおさらだ。）

7：011000113か月前

この研究に重きを置くつもりはないけど、自己診断においてLLMが便利だという点には多くの人が同意するはず。アメリカの現実として、医師に診てもらうのは大変だし、自分自身で何とかするしかないんだ。10年前なら「ググった内容を持ってくる患者」を医者がぼやいていたかもしれないけど、今はもう他に選択肢がないんじゃないかな。

実際の話、足と足首の不調で足専門医に行ったんだけど、彼はX線から足の問題を診断しただけで、足首に関しては「X線に異常はない」と言って肩をすくめるだけ。15分の診察時間が終わって、結局何が問題でどう対処すればいいのか分からないまま帰された。LLMに5分相談したら、足の診断と整合性のある、もっともらしい足首の不調の原因を教えてくれたよ。

8：gizmodo593か月前

ここの否定的な反応には困惑するよ。AIを使って30%程度の結果を出せるということ自体が驚異的じゃないか。AIやOpenAI（あるいはGoogle）のような最先端ラボから出てくるもの全てに対する過度なヘイトには、全く理解できないね。

9：arkt83か月前

67%と55%ってどれほどの差なんだ？研究側は医師と同じ患者を対象にしているのか？

両者が同じシナリオでどう評価され、なぜ異なる結論に至ったのかを並べて比較しない限り、科学的な有効性は測れないと思う。

残りの43%について、AIには見えなかった死角を人間のお医者さんなら見抜けたかもしれないという可能性を誰が保証できるんだ？

ツールは代替品じゃなくて、努力を組み合わせるためのものだよ。

そういう数値を一般に公開するのはかなり無責任だと思う。

10：Kuyawa3か月前

60歳になる自分は、自分で医療用AIアシスタント[1]を作っていろんな症状に使ってみたけど、これ以上ないほど満足してる。検査結果を分析させた時、医師が当初考慮していなかったマーカーを提案してくれたこともある。だから、AIは医師に取って代わるものじゃないけど、単純な症状の自己診断やセカンドオピニオンにはとても役立つツールだと思うよ。

[1] https://mediconsulta.net (DeepSeek)