研究者首次系统评估了AI视频生成模型在外科手术领域的潜力。他们提出了SurgVeo基准和手术合理性金字塔(SPP)框架,从视觉、器械操作、环境反馈和手术意图四个层面进行评估。实验结果显示,尽管AI模型能生成视觉上逼真的手术场景,但在理解和模拟专业因果知识方面存在巨大鸿沟,即“合理性差距”。模型在器械操作、环境反馈和手术意图等高层逻辑判断上表现不佳,表明通用世界模型难以直接应用于需要深度专业知识的领域。这项研究为未来手术AI模型的开发指明了方向。
surgical video generation models, such as Google's Veo, have shown impressive capabilities in simulating the physical world through general video generation. However, applying these models to specialized domains like surgery, which require deep expert knowledge beyond universal physical rules, presents a significant challenge. This study addresses this gap by proposing SurgVeo, the first expert-curated benchmark for evaluating surgical video generation models, and the Surgical Plausibility Pyramid (SPP) framework for multi-level assessment.
The SurgVeo benchmark utilizes two distinct surgical procedures: laparoscopic hysterectomy and endoscopic pituitary surgery, representing complex soft tissue manipulation and delicate operations near critical neurovascular structures, respectively. Advanced Veo-3 models were tasked with zero-shot prediction, generating 8-second surgical videos from initial frames and text prompts. Expert surgeons then assessed these videos using the SPP framework, which evaluates visual perceptual plausibility, instrument operation plausibility, environment feedback plausibility, and surgical intent plausibility.
The study revealed a significant 'plausibility gap': while AI-generated videos were visually convincing, achieving high scores in visual perceptual plausibility, they failed dramatically in higher-level assessments. Scores for instrument operation, environment feedback, and surgical intent were considerably lower and deteriorated rapidly over time. For instance, environment feedback scores dropped significantly from 3.06 to 1.64 in laparoscopic surgery over 8 seconds. This indicates a fundamental inability to understand and apply domain-specific knowledge, rather than a lack of contextual information, as providing explicit stage-aware prompts did not improve performance.
Quantitative analysis of errors showed that the majority were related to higher-level surgical logic, such as surgical intent and instrument operation errors, with visual quality issues being minimal. While occasional high-scoring cases occurred, often involving simple actions or pauses, the overall performance highlighted the limitations of current models in capturing the intricate causality and strategic reasoning inherent in surgical procedures. This work underscores the need for new architectural paradigms that can integrate structured domain knowledge and enforce strict physical and logical constraints for future surgical AI development.
CV君 2025-11-10 13:01 江苏

AI模拟手术,究竟是“真神”还是“花架子”?
最近,视频生成领域的基石模型正展现出作为潜在“世界模型”模拟物理世界的惊人能力。然而,当这些技术被应用于像外科手术这样高风险、需要深度专业因果知识而非普适物理规则的领域时,其表现如何?这是一个至关重要但尚未被探索的领域。
为了系统地应对这一挑战,来自耶鲁大学、诺丁汉大学等机构的研究者们进行了一项开创性的研究。他们提出了 SurgVeo,这是首个由专家策划的、用于评估手术视频生成模型的基准;同时,他们还设计了一个新颖的四层评估框架——手术合理性金字塔(Surgical Plausibility Pyramid, SPP),旨在从基本外观到复杂手术策略等多个层面评估模型生成内容的质量。
论文标题: How Far Are Surgeons from Surgical World Models? A Pilot Study on Zero-shot Surgical Video Generation with Expert Assessment中文标题::外科医生离手术世界模型还有多远?基于专家评估的零样本手术视频生成研究作者: Zhen Chen, Qing Xu, Jinlin Wu, Biao Yang, Yuhao Zhai, Geng Guo, Jing Zhang, Yinlu Ding,Nassir Navab, Jiebo Luo机构: 耶鲁大学,诺丁汉大学,中国科学院,山西医科大学,山东大学,慕尼黑工业大学,罗切斯特大学论文地址: https://arxiv.org/pdf/2511.01775Benchmark(待开源): https://github.com/franciszchen/SurgVeo当前挑战:通用世界模型难以驾驭专业领域“世界模型”的核心思想是让机器建立一个关于世界如何运作的内部表征,理解环境如何演变、行为如何导致后果。近期的视频生成模型,如谷歌的Veo,已经能够生成非常逼真的通用场景视频,似乎让我们离通用物理世界的模拟器越来越近。
然而,外科手术领域与日常物理世界有着本质的不同。它不仅仅是关于物体如何移动或碰撞,而是充满了需要“专家直觉”的知识,比如解剖学、生理学和生物力学。一个成功的“手术世界模型”必须理解手术刀切开不同组织时会发生什么,理解特定操作背后的战略意图。将为模拟“常识物理”而生的模型直接应用于手术这样需要“专家知识”的领域,其能力边界在哪里?这正是本研究试图回答的核心问题。
研究方法:SurgVeo基准与SPP评估框架为了科学地衡量现有视频生成模型在手术领域的真实能力,研究者构建了一套完整的评测流程。

首先,他们创建了 SurgVeo 基准。该基准包含了两种具有代表性但风格迥异的手术视频:腹腔镜子宫切除术和内窥镜垂体手术。前者代表了在密闭空间内的软组织操作,后者则要求在关键神经血管结构附近进行极其精细的操作。研究者从这些真实手术录像中提取视频片段,形成“起始帧-后续真实视频”的数据对。
接着,他们让先进的 Veo-3 模型执行一项零样本(zero-shot)预测任务:给定手术场景的起始帧和一段文本提示(prompt),模型需要生成接下来8秒的手术视频。

最关键的一步,是由四位具有执业资格的外科医生组成的专家小组,使用研究者提出的 手术合理性金字塔(SPP) 框架来对生成的视频进行打分。SPP框架将评估分为四个层级,从下到上,要求越来越高:
视觉感知合理性 (Visual Perceptual Plausibility) :评估视频最基本的外观质量,如清晰度、光照、组织纹理和视频流畅度。器械操作合理性 (Instrument Operation Plausibility) :评估手术器械的运动轨迹、操作技术是否符合物理规律和手术规范。环境反馈合理性 (Environment Feedback Plausibility) :评估手术场景(如组织、器官)对器械操作的反应是否真实,例如,组织被牵拉后的变形、切割后的出血模式是否符合生物力学和解剖学原理。手术意图合理性 (Surgical Intent Plausibility) :评估预测的系列动作是否展现出清晰、逻辑自洽且符合当前手术阶段的战略目标。这是最高层次的评估,考验模型是否理解“为什么”要这么做。专家们会在生成的视频播放到第1秒、第3秒和第8秒时,参照真实视频,对这四个维度进行1-5分的打分。
实验结果:惊人的“合理性差距”研究结果揭示了一个深刻的断层,研究者称之为“合理性差距”(plausibility gap):尽管Veo-3在生成视觉上令人信服的手术场景方面表现出色,但在SPP框架的更高层级上却严重失败。
量化数据分析下方的两个表格分别展示了在腹腔镜手术和神经外科手术中,不同提示策略下,模型在三个时间点的得分情况。
腹腔镜手术评估分数
神经外科手术评估分数
我们可以清晰地看到:
视觉质量高:在两个手术类别中,“视觉感知合理性”的初始得分都很高(例如,基线提示下腹腔镜手术为3.72分,神经外科为3.88分)。外科医生评价生成的图像“清晰得惊人”。高层逻辑差:然而,分数在SPP金字塔的更高层级急剧下降。器械操作、环境反馈和手术意图的得分要低得多,并且随着时间的推移(从1秒到8秒)迅速恶化。例如,在腹腔镜手术中,环境反馈合理性得分从1秒时的3.06分骤降至8秒时的1.64分。腹腔镜手术评估分数的小提琴图
神经外科手术评估分数的小提琴图
小提琴图更直观地展示了这种差异。视觉感知的得分(最左侧)密集分布在高分区域,而其他三个维度的得分则大量堆积在低分区域,且随着时间推移(颜色由浅到深)不断下移。
有趣的是,研究还发现,为模型提供更明确的“阶段感知”提示(例如,明确告知当前是“血管结扎”阶段)并不能显著改善其表现。这有力地证明,模型的问题不在于缺少上下文信息,而在于根本无法理解和运用这些专业的领域知识。
典型失败案例定性的案例分析让这些冰冷的数字变得更加触目惊心。

上图展示了一些典型的失败案例:
(a) 视觉质量失真:生成的视频画面亮度发生突兀且不自然的变化,与稳定的手术照明条件不符。(b) 器械错误:模型“幻觉”出了一种现实中不存在的手术器械。(c) 操作不当:真实操作需要向左移动,模型却生成了向右的错误动作。模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。(d) 不当手术目标:模型展示的器械在处理黏液,而正确的手术操作应是在另一目标部位上进行冲洗与吸引的协同动作。(e) 环境反馈错误:模型违反物理定律,让吸引器像提拉固体一样将一整块明胶海绵吸走,而不是吸走表面的液体。(f) 意图错误:真实意图是在硬脑膜上注射生物胶水,模型却错误地预测了一个完全不相关的动作——用棉片擦拭。
错误类型的量化分布(上图)进一步证实了“合理性差距”。在两种手术中,与高层手术逻辑相关的错误(如手术意图、器械操作错误)占了绝大多数,而底层的视觉质量问题仅占一小部分(腹腔镜6.2%,神外2.8%)。
当然,模型偶尔也能生成一些高分案例,但这些通常是手术动作简单、甚至是暂停的场景。
高分案例:(a)中生成了自然的解剖动作,(b)中则几乎完美复刻了手术暂停的场景。
灾难性失败案例:(a)中需要缝合,模型却幻觉出器械并执行无法识别的操作;(b)中需要涂胶水,模型完全搞错了意图。
研究意义与未来展望这项研究首次提供了量化证据,揭示了当前最先进的视频生成模型在手术AI领域中,令人信服的视觉模仿与真正的因果理解之间存在巨大鸿沟。
CV君认为,这项工作意义重大。它告诉我们,仅仅依靠在通用数据上进行大规模训练,可能不足以让模型掌握专家领域的复杂规则。未来的“手术世界模型”可能需要新的架构范式,能够整合结构化的领域知识,并在生成过程中强制执行严格的物理和逻辑约束。
SurgVeo基准和SPP评估框架为未来的研究奠定了一个至关重要的基础和路线图,指引着我们如何开发能够驾驭真实世界医疗领域复杂性的下一代模型。虽然通往真正的手术世界模型道阻且长,但这项研究无疑是迈出的清醒而关键的一步。