GPT-5赋能AI医疗诊断，推理能力超越人类医生

新智元 09月13日

最新研究显示，GPT-5在医学诊断领域取得了突破性进展，不仅在速度上远超人类医生，更能像医生一样进行复杂的推理。通过整合病历、化验和影像等多模态信息，GPT-5能够构建完整的诊断链，得出准确判断。在模拟的美国医师资格考试中，GPT-5取得了95.22%的高分，尤其在临床决策部分表现突出。在处理包括病历、化验数据和影像在内的复杂多模态病例时，GPT-5的推理和理解能力已显著超越了执业医生。这标志着AI在医疗领域正从“聊天助手”进化为通用的医学推理器，有望在急诊等时间紧迫的场景中，为医生争取宝贵时间，而非取代医生，而是成为医生的得力助手。

💡 AI诊断速度实现跨越式提升：GPT-5在主动脉夹层等高危疾病的诊断上，已能将传统耗时4.3小时的诊断缩短至1.7小时，显著提升了诊断效率，为挽救生命争取了宝贵时间。

🧠 GPT-5具备强大的医学推理能力：该模型能够像医生一样，整合零散的病历、化验数据和影像信息，构建完整的诊断推理链，从而做出准确的判断。这标志着AI从简单的信息处理向复杂的医学推理迈进。

🏆 GPT-5在医学考试和评估中表现卓越：在模拟的美国医师资格考试中，GPT-5取得了95.22%的平均分，在临床决策部分更是高达97.5%。在MedQA、MMLU医学子领域以及MedXpertQA等多模态推理测试中，GPT-5均展现出超越GPT-4o甚至执业医生的性能。

🤝 AI辅助而非取代医生：研究者强调，GPT-5的意义在于成为医生的“第二双眼睛”，帮助识别被忽视的风险，缩短诊断时间，从而为医生争取更多时间进行治疗决策，而非取代人类医生。

倾倾 2025-09-13 13:02 北京

新智元报道

编辑：倾倾

【新智元导读】医生确诊主动脉夹层要花四个多小时，而AI却只用了1.7小时。现在，GPT-5则更厉害——不只是更快，还能像医生那样推理。它会把零散的病历、化验和影像梳理一遍，生成一条完整的诊断链，从而得出准确的判断。

一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发

对于医生来说，每一次诊断都是在与时间赛跑。

有些病，哪怕只是慢了0.01秒，也会造成无法挽回的悲剧。

不久前，AI在在主动脉夹层这种高危疾病的诊断中，第一次突破了人类医生的速度：

传统上需要4.3小时才能确诊的病，AI只用了1.7小时。

这缩短下来的2.6个小时，挽救了一条生命。

AI突破诊断速度，这不只是一个技术指标，而是真真正正的生死分界线。

而现在，AI的脚步又更进一步——它不但快，还能完成更复杂的医学推理。

不只是快，还会像医生一样推理

AI在医疗领域里的第一个价值，是它能比医生更快发现问题。

不管是胰腺癌、胃癌，还是主动脉夹层，它都能在最短时间内，揪出那些隐藏的风险。

但医学真正的难点，从来不只是发现问题。

更大的挑战，是如何把病历里的只言片语、化验单上的数字、影像片里的细节拼到一起。

只有推演出背后的病因，才能判断下一步的治疗方案。

过去，这一步往往需要经验丰富的医生，凭多年积累的直觉和推理。

哪怕如此，也常常出错或耗时严重。

而如今，GPT-5从天而降，让AI第一次从「聊天助手」，进化成一个通用的多模态医学推理器。

它能同时读懂文本、数据和影像，并把这些碎片信息组装成完整的诊断推理链。

相比GPT-4o的「接近人类」，GPT-5已经迈进了「超越人类」的门槛。

成绩单曝光：GPT-5把医生甩在身后

如果说GPT-4o只是勉强追上医生的脚步，那GPT-5已经在把医生甩在了身后。

在美国医师资格考试里，这个模型的平均分达到了95.22% ——比GPT-4o提升近3个百分点。

尤其是在临床决策部分，GPT-5考出了97.5%的高分，比GPT-4o高出整整 4.17%。

这是最贴近真实临床的环节，而GPT-5遥遥领先。

QA/VQA任务的提示设计

要知道，这样的分数放在人类考生里，已经是满分。

在MedQA医考题库里，GPT-5的正确率高达95.84%，比GPT-4o高出4.8%几乎「零失误」。

在更细分的MMLU医学子领域，GPT-5也几门门满分：医学遗传学100%，临床知识、解剖学等都保持在92%–95%的高位。

而这些科目，往往是医学生最容易出错的地方。

QA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

而在最复杂的MedXpertQA——需要同时理解病历、检验数据和影像的多模态推理测试中，GPT-5 的表现更是惊人：

文本版推理正确率56.96%，比GPT-4o提升26.33%。

多模态版推理正确率69.99%，理解74.37%，比GPT-4o分别提升29.26%和 26.18%。

VQA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

更出人意料的是，当研究者把GPT-5和真实的执业医生放在一起比较时，发现GPT-5几乎是在所有维度全面超过医生。

尤其在多模态测试里，GPT-5 的推理能力比医生高出24%，理解能力高出 29%。

VQA基准上的性能(%)。蓝色数字和箭头表示与gpt-4o-2024-11-20相比的变化

也就是说，GPT-5能在复杂的临床场景里，给出比医生更快、更准的答案。

急诊室里的赛跑：GPT-5抢先一步

急诊室里，混乱而紧张。

一个45岁的男人被担架抬了进来，身上满是呕吐物，衣服凌乱，浑身带着酒气。

他醒了过来，却依旧控制不住地吐。

医生给他补液、输糖，暂时稳住了生命体征。

可几个小时后，他的颈口下方竟鼓起了奇怪的气泡，嘴里也不断溢出血丝。

办公桌上，CT影像、化验结果和病史全摆在一起。

问题来了——这是胰腺炎并发的剧烈呕吐，还是最凶险的食管穿孔？

这两者的治疗方案完全不同：一个是持续治疗，另一个若不立刻确诊并手术，随时可能大出血丧命。

医生可能需要时间反复权衡，但在测试里，GPT-5却迅速做出判断。

它像一位有经验的主治医师，把零散的线索一点点串起来：酗酒史、升高的胰酶、反复呕吐，加上突发的气肿和血性呕吐……所有证据指向同一个方向——食管穿孔。

但它没有止步于诊断，还给出下一步建议：立即进行水溶性造影吞咽检查，确认裂口位置，再进入后续治疗。

研究里给GPT-5的病例输入：病历叙述、化验指标、CT影像和多项选择

GPT-5在病例中的推理过程：它不仅选对了「造影吞咽检查」，还逐条解释了为什么排除其他选项

就这样，一个极易被误诊、常常拖延到错过最佳时机的病，被GPT-5快速而准确地捕捉到了。

不是取代，而是争取更多时间

在急诊室，最缺的从来不是医生，而是时间。

一个个鲜活的生命，在等待诊断的几小时里悄然流逝。

最新一轮评估里，GPT-5的进步最明显的，恰恰是这种最复杂的场景：病历、化验单和影像片。

但在那些最复杂的场景里，它能帮医生把病历、化验和影像迅速拼在一起，把诊断从几个小时缩短到几十分钟。

研究者将其形容为从「接近人类」跨越到「超越人类」的时刻。

不过他们也提醒，AI的成绩单来自标准化测试环境，真实的临床要复杂得多。

还有千差万别的病人、不可预测的并发症，以及伦理与责任的问题。

所以，GPT-5的意义从来不是取代医生。

它真正能做的，是成为那双永远睁开的「第二双眼睛」。

在医生最容易忽视的角落，发现最致命的风险。

未来某一天，当我们走进医院，也许会发现：医生身边多了一位不知疲倦的伙伴。

而那，可能就是GPT-5。

参考资料：

https://www.alphaxiv.org/pdf/2508.08224

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

新智元报道

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签