AI科技评论 10月17日 19:58
ETVA:用“问答”方式精准评估AI生成视频的指令遵循度
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

AI生成视频技术日新月异,但如何客观评估视频是否真正理解并遵循了文本指令成为一大挑战。中国人民大学AIMind团队提出了ETVA评估方法,模拟人类的“提问-回答”方式,将复杂指令拆解为一系列原子问题,并结合常识知识与多阶段推理来判断视频的精确度。ETVA-Bench基准测试显示,该方法与人类判断高度一致,远超传统指标,并揭示了Sora、Kling等模型在物理规律和相机控制等方面的不足,为AI视频技术发展指明方向。

🤖 **ETVA方法的核心创新在于模拟人类的“提问-回答”机制来评估AI生成视频的指令遵循度。** 传统的自动化指标(如BLIP-BLEU, CLIPScore)只能提供一个笼统的分数,难以精确判断视频细节是否与指令对齐,甚至可能得出与人类判断相悖的结果。ETVA则将文本指令分解为一系列简单的是非问题,通过“灵魂拷问”来细致评估视频内容,使其评估结果更精准、更具可解释性。

🧠 **ETVA通过“多智能体协作”生成精准问题列表,并结合“知识增强+多阶段推理”进行回答。** 首先,由“元素提取器”、“图构建器”和“图遍历器”组成的团队将指令转化为结构化场景图,并生成一系列原子化的“是/否”问题。随后,利用知识增强的大语言模型,在调用视频大语言模型进行逐帧理解、综合分析和反思后,给出带有推理依据的答案,确保评估的严谨性。

📊 **ETVA-Bench基准测试为评估T2V模型提供了新的标尺。** 该基准包含从10个不同维度精选的2000条指令及12000个原子问题。实验结果表明,ETVA与人类裁判的判断相关性高达58.47%,远超以往最优方法,证明了其作为新一代评估工具的卓越性能。ETVA-Bench也揭示了当前主流T2V模型(包括Sora、Kling等)在物理规律模拟和相机运动控制方面的普遍短板。

💡 **ETVA方法不仅提供了更可靠的评估工具,更重要的是为下一代文生视频技术的发展指明了方向。** 通过精准定位现有模型的弱点,例如在“空间站倒水”场景中Sora准确还原了微重力,而Kling则表现为普通重力,以及其他模型在颜色变化、数量准确性和手势语义理解上的差异,研究团队为未来AI视频模型朝着更强的理解力、更高的准确性和更自然的交互方向发展提供了明确的改进路径。

原创 关开思、宋睿华 2025-10-17 19:24 广东

ETVA的核心思想是:像人一样,通过“提问-回答”来深入理解和评估视频内容

作者丨关开思、宋睿华

                                                                                         

(作者介绍)本文第一作者是中国人民大学高瓴人工智能学院2024 级硕士生关开思(导师宋睿华),他的主要研究兴趣方向是多模态学习。本文通讯作者是宋睿华长聘副教授,她的 AIMind 团队主要研究方向是多模态感知、交互与生成。

当你输入一句指令——“水在空间站中从玻璃杯慢慢倒出”——视频模型立刻生成了一段流畅的动画。看上去不错:水从杯中倾泻而出,画面清晰,动作逼真。

但仔细一想,哪里不对?在空间站里,水并不会向下流,而是会在失重中漂浮成一颗颗液滴。

AI视频生成技术井喷的今天,我们惊叹于 SoraKlingVidu 等模型创造出的越来越逼真、富有想象力的视频。然而,一个核心问题也随之而来:除了肉眼观看,我们如何精确、客观地判断,一个AI生成的视频是否真的“听懂”了我们的指令?

论文地址:https://arxiv.org/abs/2503.16867

代码地址:https://github.com/guankaisi/ETVA

项目地址:https://eftv-eval.github.io/etva-eval/

01

背景

长久以来,学术界与工业界主要依赖BLIP-BLEUCLIPScoreVideoScore等自动化指标以评估生成视频是否符合文本指令。然而,这类指标通常只能给出一个“大差不差”的总体分数,难以细致判断视频内容是否在细节上与指令精准对齐,甚至在某些情况下会得出与人类判断相悖的结果。

“水在空间站中从玻璃杯慢慢倒出”这一场景为例(见下图),传统评价指标往往只能输出一个模糊的分数,无法有效区分视频在物理合理性上的差异,有时甚至会将明显违背常识的结果评为高分。而人类观察者却能轻易识别出第二个视频更为优秀——因为它准确捕捉到了微重力环境下水珠漂浮的真实状态,更符合我们对“空间站”这一场景的物理认知。

为了解决这一“雾里看花”式的评估困境,来自中国人民大学的宋睿华带领的AIMind团队提出了一种全新的文本到视频(T2V)指令遵循的评估方法——ETVA相关论文已被 ICCV 2025录用 

ETVA的核心思想是:像人一样,通过“提问-回答”来深入理解和评估视频内容。它不再满足于一个模糊的总分,而是将复杂的文本指令拆解成一系列原子化的、可被明确回答的“是/非”问题,从而对视频进行细致入微的“灵魂拷问”。

02

ETVA 如何实现“灵魂拷问”?

ETVA的评估流程模拟了人类的认知过程,主要分为两个关键阶段:

第一步:多智能体协作,生成精准“问题列表”

面对一句文本指令,比如“水在空间站里从一个玻璃杯中慢慢倒出”,ETVA首先会启动一个由三个智能体组成的“问题生成团队”: 

1.元素提取器 (Element Extractor):首先识别出文本中的核心元素,如实体(杯子、水、空间站)、属性(玻璃材质)和关系(从...倒出)。 

2.图构建器 (Graph Builder):将这些离散的元素组织成一个结构化的“场景图”,清晰地描绘出它们之间的逻辑关系。 

3.图遍历器 (Graph Traverser):最后,系统性地遍历这张图,将每个节点和连接都转换成一个简单的是非题。 

例如,针对上述指令,它会生成如下问题列表:

视频里有杯子吗?[是/否] 

视频里有水吗?[是/否] 

水是从杯子里倒出来的吗?[是/否] 

水是在空间站里倒出来的吗?[是/否] 

第二步:知识增强+多阶段推理,给出“有理有据”的答案

生成问题后,ETVA会利用先进的视频大语言模型(Video LLM)来自动回答。为了避免模型产生“幻觉”,ETVA设计了一个严谨的回答框架: 

1.知识增强 (Knowledge Augmentation):在回答之前,一个辅助大语言模型会首先“回忆”与指令相关的常识知识。例如,提到“空间站”,它会补充“液体在微重力环境下会呈球状漂浮,而不是向下流动”这一物理学常识。 

2.多阶段推理 (Multi-Stage Reasoning):随后,Video LLM会进行“三步走”式思考:首先,逐帧理解视频的客观内容;接着,结合文本指令、常识知识和视频画面进行综合分析与反思;最后,给出“是”或“否”的结论,并附上推理依据。 

最终,视频的指令遵循度得分,即为其正确回答问题的百分比。这种方法不仅使评估结果更为精准可靠,其清晰的决策过程也赋予了模型出色的可解释性。

03

ETVA-Bench:一把衡量T2V模型的“新标尺”

基于ETVA框架,研究团队构建了一个全面的文生视频对齐度评估基准——ETVABench,它包含10个不同维度(如物体存在、动作、物理、相机运镜等)精选的2000条指令及衍生的12000个原子问题并分别提供了面向开源模型的ETVABench-2000与面向闭源模型的ETVABench-105两个评测集合

上图是ETVABench 每个类别的问题示例和 Prompt 示例。

上图是ETVABench-2K 以及 ETVABench-105 在各个类别上的数量分布。

在与人类偏好一致性上,实验结果令人振奋:ETVA与人类裁判的判断相关性达到了58.47,远超以往最优方法(仅为31.0),证明了其作为新一代评估工具的卓越性能 。

以下表格展示了15个不同的文生视频(T2V)模型在ETVABench-105基准测试上的详细评估结果。这些模型被分为两组:10个开源模型和5个闭源模型。

评估维度涵盖了10个细分领域,包括物体的存在性(Existence)、动作(Action)、材质(Material)、空间关系(Spatial)、数量(Number)、形状(Shape)、颜色(Color)、相机运镜(Camera)、物理规律(Physics)和其他(Other),并计算了每个模型的平均分(Avg)。

从最终的平均分来看:

在所有参与评测的模型中,闭源模型 Vidu-1.5 的综合表现最好,平均分达到了0.761。

在开源模型中,Hunyuan-Video 表现最佳,平均分为0.686。

总体而言,闭源模型的平均分普遍高于开源模型,尤其在空间关系(Sora得分0.870)和材质(Vidu-1.5得分0.854)等维度上展现出显著优势。

通过对15个主流T2V模型(包括Sora、Kling等5个闭源模型和Hunyuan-Video等10个开源模型)的系统性评测,ETVA揭示了当前模型普遍存在的短板,尤其是在物理规律模拟相机运动控制方面能力不足,以下是四个例子。

物理现象: “空间站倒水”测试中,Sora准确还原了微重力,得分100;而Kling则表现为普通重力,得分仅37.5 

颜色变化:“叶子由绿变红”测试中,Pika 没有表现出叶子颜色变化的过程得分 50,而 Vidu 准确的表现了出来,得分 100。

数量准确性: 在生成“三只猫头鹰”时,Kling精准无误(100分),Sora却多画了一只(88.3分)

手势语义: Hunyuan准确执行了“拇指向下”的指令(100分),而Kling则将其误解为“竖起大拇指”,语义错误(40分)。

04

未来展望

ETVA不仅为我们提供了一个更可靠、更精细的T2V模型评估工具,更重要的是,它通过精准定位现有模型的弱点,为下一代文生视频技术的发展指明了方向未来,研究团队将把ETVA框架拓展至更复杂、多元的视频场景中,为构建真正“理解”用户意图的智能生成模型铺平道路。

//

推荐阅读

飞轮“倒转”,灵巧手厂商困在夹缝里

高性能计算群星闪耀时

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ETVA AI视频评估 指令遵循 文生视频 AI video evaluation Instruction following Text-to-video AI
相关文章