DeepTech深科技 09月28日
Google DeepMind Veo 3:视频模型迈向通用基础模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google DeepMind 的生成式视频模型 Veo 3 在论文中展示了其“零样本”学习与推理能力,并提出了“帧链”(Chain-of-Frames, CoF)概念,模仿大型语言模型的“思维链”。研究通过分析超过18,000个生成视频,证明 Veo 3 在未微调情况下,能解决从基础感知到复杂视觉推理的多种问题。论文论证了生成式视频模型正成为机器视觉领域通用基础模型的潜力,如同 LLM 在 NLP 领域的地位。Veo 3 在感知、建模、操控和推理四个层级展现了强大的零样本能力,包括图像分割、物理规律理解、零样本图像编辑以及通过“帧链”解决迷宫等复杂视觉任务,预示着视频模型在通用视觉问题解决上的广阔前景。

🧠 **零样本学习与推理能力**: Veo 3 模型通过在海量视频数据上的训练,展现出在未经过特定任务微调的情况下,解决广泛视觉问题的“零样本”能力。这包括从基础的图像分割、边缘检测,到更复杂的物理规律理解和视觉推理任务,标志着视频模型正朝着通用化方向发展。

🔗 **“帧链”推理机制**: 借鉴大型语言模型的“思维链”概念,Veo 3 提出了“帧链”(Chain-of-Frames, CoF)。该机制利用视频生成本身的时空序列特性,将复杂视觉问题分解为一系列逐步生成的画面,从而实现更强的逻辑推理和动态理解能力,例如在迷宫求解任务中,模型通过逐帧生成路径来找到终点。

🛠️ **多层级能力框架**: 研究将 Veo 3 的能力划分为感知、建模、操控和推理四个层级。在感知层面,模型能执行多种经典计算机视觉任务;在建模层面,它理解物理规律和物体交互;在操控层面,能进行零样本图像编辑和场景修改;最终汇聚于强大的视觉推理能力,使其能处理需要多步规划和理解的复杂任务。

🚀 **通用基础模型潜力**: 论文论证了生成式视频模型有望成为机器视觉领域的通用基础模型,类似于 LLM 在自然语言处理中的作用。尽管目前 Veo 3 在某些任务上仍落后于专用模型,且计算成本高昂,但参考 LLM 的发展轨迹,通用模型的通用性和成本下降趋势预示着其在未来视觉领域的统治地位。

KIK 2025-09-28 16:59 北京

Google DeepMind 近日发表了一篇论文,详细介绍了其生成式视频模型 Veo 3 所展现出的“零样本

Google DeepMind 近日发表了一篇论文,详细介绍了其生成式视频模型 Veo 3 所展现出的“零样本”学习与推理能力,并提出了一个与大型语言模型中的“思维链”相对应的核心概念——“帧链”(CoF,Chain-of-Frames)。研究团队通过对超过 18,000 个生成视频的分析,系统地展示了 Veo 3 在未经过任何特定任务微调的情况下,解决从基础感知到复杂视觉推理等一系列问题的潜力。这篇题为《视频模型是零样本学习者和推理者》(Video models are zero-shot learners and reasoners)的论文,明确提出了一个论点:正如 LLM(Large Language Model,大型语言模型)统一了自然语言处理领域,生成式视频模型正走在成为机器视觉领域通用基础模型的道路上。

图丨相关论文(来源:arXiv)

在过去几年中,自然语言处理(NLP,Natural Language Processing)领域经历了一场重大的变革,从为翻译、摘要、问答等每个任务构建专门的“定制模型”,转向了由一个统一的、可通过提示(prompting)解决多样化问题的 LLM 主导的时代。如今的机器视觉领域,在某种程度上正在复现 NLP 变革前的状态:我们拥有在特定任务上表现卓越的模型,例如用于物体检测的 YOLO 系列或用于图像分割的 Segment Anything,但缺少一个仅通过指令就能解决开放式视觉问题的通用模型。DeepMind 的研究人员认为,促使 LLM 能力涌现的核心要素——即在网络规模的数据集上训练大型生成模型——同样适用于当代的视频模型。Veo 3 的实验结果,正是为了验证这一判断。

此项研究的亮点在于,它借鉴了大型语言模型中广为人知的“思维链”(CoT,Chain-of-Thought),并创造性地提出了一个视觉领域的平行概念——“帧链”(CoF,Chain-of-Frames)。思维链通过将复杂问题分解为一系列中间推理步骤,并以文本形式逐步生成,极大地增强了语言模型的逻辑推理能力。

DeepMind 指出,视频生成在本质上是一个逐帧应用变化的过程,这种时空上的序列生成,恰好为视觉问题提供了一种内在的、循序渐进的解决方案,这便是“帧链”。语言模型操纵的是人类发明的符号,而视频模型则直接在时间和空间这两个物理维度上应用改变。因此,帧链推理使得视频模型有潜力通过一步步生成画面,来解决需要多步规划和动态理解的复杂视觉任务。

为系统地评估 Veo 3 的能力,研究团队构建了一个涵盖四个层级的能力框架:感知(Perception)、建模(Modeling)、操控(Manipulation)和推理(Reasoning)。在最基础的感知层面,Veo 3 展示了在没有经过显式训练的情况下,完成一系列经典计算机视觉任务的能力,包括图像分割、边缘检测、关键点定位、超分辨率、盲去模糊和去噪。这些“涌现”出的能力,意味着视频模型未来可能取代目前许多需要专门训练的视觉工具模型。

图丨Veo 3 零样本能力的定性概览(来源:arXiv)

在感知之上是建模能力,即理解世界运行的基本规律,尤其是直觉物理。Veo 3 能够对刚体和柔体的动态、表面交互进行建模,并表现出对浮力、空气阻力、折射与反射等物理现象的理解。在一个模拟“视觉叠叠乐”(Visual Jenga)的任务中,模型能够以物理上合理的方式移除场景中的物体。它还能理解物体功能,例如判断哪些物品可以被放进背包。此外,模型还能在时间和镜头移动中保持对世界状态的记忆,这构成了其进行更复杂操作的基础。

在此之上,便是模型的操控能力。Veo 3 能够执行多样的零样本图像编辑任务,如背景移除、风格迁移、图像上色和修复。它还能根据涂鸦指令编辑图像,将不同物体合成为一个协调的场景,或将一张自拍肖像转化为专业的商务头像。这种对场景进行合理修改的能力,使其可以想象复杂的交互,模拟灵巧的物体操控,例如演示如何卷一个墨西哥卷饼,或让机器人手臂像人类一样自然地拿起锤子。

这一系列能力的集成,最终赋予了模型进行视觉推理的能力。这正是“帧链”机制发挥关键作用的领域。在迷宫求解任务中,Veo 3 通过逐帧生成红色方块在白色路径上的移动,最终停在绿色终点,从而完成任务。其在 5x5 网格迷宫上的成功率(pass@10)达到了 78%,远高于其前代模型 Veo 2 的 14%。

图丨Veo 3 在不同复杂度迷宫中的求解表现(来源:arXiv)

研究还将其与最近大热的图像模型 Nano Banana 和语言模型 Gemini 2.5 Pro 进行了比较。结果显示,静态的图像模型难以解决需要过程的迷宫任务,而语言模型虽然在处理 ASCII 文本迷宫时表现优异,但在直接理解图像输入时则面临困难。这也凸显出视频模型通过“帧链”进行逐步视觉推理的独特优势。除了迷宫,Veo 3 还能完成视觉序列补全、连接匹配颜色、解决简单的数独谜题和视觉对称性补全等任务。

不过,团队表示,目前 Veo 3 在许多任务上的表现仍不及最先进的专用模型,这与 LLM 发展的早期阶段(如 GPT-3 与精调模型的对比)非常类似。

此外,生成视频的计算成本依然相当高昂。但论文援引历史数据指出,LLM 的推理成本正以每年 9 到 900 倍的速度下降,早期被认为“部署成本过高”的通用模型,最终凭借其通用性和成本的快速下降取代了多数专用模型。如果 NLP 的发展轨迹可作为参考,同样的趋势也将在视觉领域上演。

参考资料:

1. https://arxiv.org/pdf/2509.20328

运营/排版:何晨龙

01/“AI科学家”登顶Nature:MIT团队开发多模态AI平台,全程无人干预90天即发现高效电催化剂

02/联发科,用天玑9500定义了个人算力的未来方向

03/华理团队联合打造晶圆级光刻胶沉积技术,精准控制薄膜厚度至纳米级,成功通过下一代光刻验证

04/Hinton与LeCun“同台支持”:英国AI初创打造材料界搜索引擎,称能将材料发现提速十倍

05/科学家解决X射线内窥成像难题,研制1600像素光纤阵列探测器,可穿透人体实时观察肿瘤

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Veo 3 Google DeepMind 生成式视频模型 零样本学习 帧链 Chain-of-Frames 通用基础模型 机器视觉 AI Generative Video Models Zero-Shot Learning Foundation Models Machine Vision
相关文章