原创 关开思、宋睿华 2025-10-17 19:24 广东
ETVA的核心思想是:像人一样,通过“提问-回答”来深入理解和评估视频内容。
作者丨关开思、宋睿华

🤖 **ETVA方法的核心创新在于模拟人类的“提问-回答”机制来评估AI生成视频的指令遵循度。** 传统的自动化指标(如BLIP-BLEU, CLIPScore)只能提供一个笼统的分数,难以精确判断视频细节是否与指令对齐,甚至可能得出与人类判断相悖的结果。ETVA则将文本指令分解为一系列简单的是非问题,通过“灵魂拷问”来细致评估视频内容,使其评估结果更精准、更具可解释性。
🧠 **ETVA通过“多智能体协作”生成精准问题列表,并结合“知识增强+多阶段推理”进行回答。** 首先,由“元素提取器”、“图构建器”和“图遍历器”组成的团队将指令转化为结构化场景图,并生成一系列原子化的“是/否”问题。随后,利用知识增强的大语言模型,在调用视频大语言模型进行逐帧理解、综合分析和反思后,给出带有推理依据的答案,确保评估的严谨性。
📊 **ETVA-Bench基准测试为评估T2V模型提供了新的标尺。** 该基准包含从10个不同维度精选的2000条指令及12000个原子问题。实验结果表明,ETVA与人类裁判的判断相关性高达58.47%,远超以往最优方法,证明了其作为新一代评估工具的卓越性能。ETVA-Bench也揭示了当前主流T2V模型(包括Sora、Kling等)在物理规律模拟和相机运动控制方面的普遍短板。
💡 **ETVA方法不仅提供了更可靠的评估工具,更重要的是为下一代文生视频技术的发展指明了方向。** 通过精准定位现有模型的弱点,例如在“空间站倒水”场景中Sora准确还原了微重力,而Kling则表现为普通重力,以及其他模型在颜色变化、数量准确性和手势语义理解上的差异,研究团队为未来AI视频模型朝着更强的理解力、更高的准确性和更自然的交互方向发展提供了明确的改进路径。
原创 关开思、宋睿华 2025-10-17 19:24 广东
ETVA的核心思想是:像人一样,通过“提问-回答”来深入理解和评估视频内容。
作者丨关开思、宋睿华
(作者介绍)本文第一作者是中国人民大学高瓴人工智能学院2024 级硕士生关开思(导师宋睿华),他的主要研究兴趣方向是多模态学习。本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。当你输入一句指令——“水在空间站中从玻璃杯慢慢倒出”——视频模型立刻生成了一段流畅的动画。看上去不错:水从杯中倾泻而出,画面清晰,动作逼真。但仔细一想,哪里不对?在空间站里,水并不会向下流,而是会在失重中漂浮成一颗颗液滴。在AI视频生成技术井喷的今天,我们惊叹于 Sora、Kling、Vidu 等模型创造出的越来越逼真、富有想象力的视频。然而,一个核心问题也随之而来:除了肉眼观看,我们如何精确、客观地判断,一个AI生成的视频是否真的“听懂”了我们的指令?论文地址:https://arxiv.org/abs/2503.16867代码地址:https://github.com/guankaisi/ETVA项目地址:https://eftv-eval.github.io/etva-eval/
长久以来,学术界与工业界主要依赖BLIP-BLEU、CLIPScore、VideoScore等自动化指标以评估生成视频是否符合文本指令。然而,这类指标通常只能给出一个“大差不差”的总体分数,难以细致判断视频内容是否在细节上与指令精准对齐,甚至在某些情况下会得出与人类判断相悖的结果。以“水在空间站中从玻璃杯慢慢倒出”这一场景为例(见下图),传统评价指标往往只能输出一个模糊的分数,无法有效区分视频在物理合理性上的差异,有时甚至会将明显违背常识的结果评为高分。而人类观察者却能轻易识别出第二个视频更为优秀——因为它准确捕捉到了微重力环境下水珠漂浮的真实状态,更符合我们对“空间站”这一场景的物理认知。为了解决这一“雾里看花”式的评估困境,来自中国人民大学的宋睿华带领的AIMind团队提出了一种全新的文本到视频(T2V)指令遵循的评估方法——ETVA。相关论文已被 ICCV 2025录用。 ETVA的核心思想是:像人一样,通过“提问-回答”来深入理解和评估视频内容。它不再满足于一个模糊的总分,而是将复杂的文本指令拆解成一系列原子化的、可被明确回答的“是/非”问题,从而对视频进行细致入微的“灵魂拷问”。
基于ETVA框架,研究团队构建了一个全面的文生视频对齐度评估基准——ETVABench,它包含从10个不同维度(如物体存在、动作、物理、相机运镜等)精选的2000条指令及衍生的12000个原子问题。并分别提供了面向开源模型的ETVABench-2000与面向闭源模型的ETVABench-105两个评测集合。上图是ETVABench 每个类别的问题示例和 Prompt 示例。上图是ETVABench-2K 以及 ETVABench-105 在各个类别上的数量分布。在与人类偏好一致性上,实验结果令人振奋:ETVA与人类裁判的判断相关性达到了58.47,远超以往最优方法(仅为31.0),证明了其作为新一代评估工具的卓越性能 。以下表格展示了15个不同的文生视频(T2V)模型在ETVABench-105基准测试上的详细评估结果。这些模型被分为两组:10个开源模型和5个闭源模型。评估维度涵盖了10个细分领域,包括物体的存在性(Existence)、动作(Action)、材质(Material)、空间关系(Spatial)、数量(Number)、形状(Shape)、颜色(Color)、相机运镜(Camera)、物理规律(Physics)和其他(Other),并计算了每个模型的平均分(Avg)。从最终的平均分来看:在所有参与评测的模型中,闭源模型 Vidu-1.5 的综合表现最好,平均分达到了0.761。在开源模型中,Hunyuan-Video 表现最佳,平均分为0.686。总体而言,闭源模型的平均分普遍高于开源模型,尤其在空间关系(Sora得分0.870)和材质(Vidu-1.5得分0.854)等维度上展现出显著优势。通过对15个主流T2V模型(包括Sora、Kling等5个闭源模型和Hunyuan-Video等10个开源模型)的系统性评测,ETVA揭示了当前模型普遍存在的短板,尤其是在物理规律模拟和相机运动控制方面能力不足,以下是四个例子。物理现象: 在“空间站倒水”测试中,Sora准确还原了微重力,得分100;而Kling则表现为普通重力,得分仅37.5 。颜色变化:在“叶子由绿变红”测试中,Pika 没有表现出叶子颜色变化的过程得分 50,而 Vidu 准确的表现了出来,得分 100。数量准确性: 在生成“三只猫头鹰”时,Kling精准无误(100分),Sora却多画了一只(88.3分)。手势语义: Hunyuan准确执行了“拇指向下”的指令(100分),而Kling则将其误解为“竖起大拇指”,语义错误(40分)。
ETVA不仅为我们提供了一个更可靠、更精细的T2V模型评估工具,更重要的是,它通过精准定位现有模型的弱点,为下一代文生视频技术的发展指明了方向。未来,研究团队将把ETVA框架拓展至更复杂、多元的视频场景中,为构建真正“理解”用户意图的智能生成模型铺平道路。
//
推荐阅读
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。
鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑