机器之心 前天 17:00
AI图像编辑:EdiVal-Agent 提出新评测标准
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

图像编辑正成为检验多模态模型能力的关键。为解决图像编辑模型评测难题,研究者们提出了 EdiVal-Agent,一个以对象为中心的自动化、细粒度多轮编辑评估框架。该框架能自主生成多样化编辑指令,并从指令遵循、内容一致性、视觉质量多维度进行精细评估,其结果与人类判断的高度一致性优于现有方法。EdiVal-Agent 通过图像分解、指令生成和自动评测三个步骤,实现了对图像编辑模型更科学、公正的评价。

🖼️ **EdiVal-Agent:革新图像编辑模型评测**:为解决当前图像编辑模型评测的不足,研究者们共同提出了EdiVal-Agent,一个自动化、细粒度的多轮编辑评估框架。它以对象为中心,能够自主生成编辑指令并从多维度进行评估,显著提升了评估结果与人类判断的一致性,为评估AI图像编辑能力提供了新的科学标准。

🎯 **多维度精细化评估体系**:EdiVal-Agent 采用“图像分解”、“指令生成”和“自动评测”三步工作流。其中,自动评测包含EdiVal-IF(指令遵循)、EdiVal-CC(内容一致性)和EdiVal-VQ(视觉质量)。通过结合对象检测器和视觉语言模型,EdiVal-IF和EdiVal-CC能精准衡量模型是否准确执行指令以及编辑过程中未修改部分的稳定性,而EdiVal-VQ则评估整体视觉效果,为全面了解模型表现奠定基础。

🤝 **接近人类判断的一致性**:EdiVal-Agent 的评测结果与人类判断高度一致,其EdiVal-IF指标的人类一致率高达81.3%,接近人工评测的上限。这得益于其对符号任务的精准几何验证和对语义任务的“检测+推理”融合策略,使其评估结果比单纯依赖VLM的方法更为可靠和稳定,能更真实地反映模型在实际应用中的表现。

🏆 **多模型横向对比与性能洞察**:在EdiVal-Bench基准上,EdiVal-Agent 对比了13个主流模型。结果显示,Seedream 4.0在指令遵循和综合评分上表现突出,位列第一;Nano Banana在速度与内容一致性上表现均衡,排名第二;GPT-Image-1指令遵循能力强但牺牲了一致性。这些结果为理解不同模型在图像编辑任务中的优势与劣势提供了具体参考。

2025-10-24 14:23 北京

现在,谁才是最会 “P 图” 的 AI?

在 AIGC 的下一个阶段,图像编辑(Image Editing)正逐渐取代一次性生成,成为检验多模态模型理解生成与推理能力的关键场景。我们该如何科学、公正地评测这些图像编辑模型?

为了解决这一难题,来自得克萨斯大学奥斯汀分校、UCLA、微软等机构的研究者们共同提出了 EdiVal-Agent,一个以对象为中心自动化细粒度多轮编辑(Multi-Turn Editing)评估框架。

EdiVal-Agent 的名字巧妙地融合了“Editing”(编辑)和“Evaluation”(评估),并以“Agent”(智能体)的形式呈现,寓意它是一个能够自主执行复杂评估任务智能系统。它不仅能自动化生成多样化的编辑指令,还能从指令遵循,内容一致性,视觉质量多维度对编辑结果进行精细评估,其评估结果与人类判断的一致性显著优于现有方法。

 评测:如何定义“好”的编辑?

当前主流评测分为两类:

1、基于参考图像(Reference-based):依赖成对的参考图像,覆盖面有限,还容易继承旧模型的偏差。

2、基于大模型打分(VLM-based):用视觉语言模型(VLM)通过提示语打分,看似方便却问题重重:空间理解差,常误判物体位置关系;细节不敏感,难察觉局部微小修改;审美失准,对生成瑕疵(artifacts)缺乏感知。结果是,VLM 单评虽“方便”,却难以精确可靠地衡量编辑质量。

 EdiVal-Agent :图像编辑界的“评测裁判”

EdiVal-Agent 是一个面向对象自动评测智能体。它能像人类一样,识别图像中的每个对象,理解编辑语义,并在多轮编辑动态追踪变化。

在讲工作流之前,我们先来看一组直观的测试结果。

Base Image:两匹马

听起来很简单,对吧?但当我们让各家顶尖模型来完成这三步时,结果却大不相同。

GPT-Image-1(OpenAI)  指令执行得不错,但背景和细节越来越不一致。

Qwen-Image-Edit(阿里)   在视觉质量和一致性上双双失手,第三轮后出现明显“过曝感”。

FLUX.1-Kontext-dev(Black Forest Labs)  基本能保留背景,但理解指令有偏差,比如第三轮“白马的毛色改成棕色”执行失败。

Nano Banana(Google Gemini 2.5 Flash)  表现最平衡——稳、准、无明显短板

在刚才的对比中,我们看到不同模型在多轮编辑下表现差异明显。那 EdiVal-Agent 是如何实现自动评测、做到“既懂图又懂语义”的呢?答案来自它精心设计的三步工作流。

1、图像分解(Decomposition)

第一步,EdiVal-Agent 会让大模型(如 GPT-4o)先“看懂”一张图片。它会自动识别出图中所有可见对象,并为每个对象生成结构化的描述——包括 颜色 (color)、材质 (material)、物体上是否存在文字 (text)、数量 (count) 和前景属性 (foreground)。

这些对象被汇总成一个对象池(Object Pool),并通过物体检测器进行验证过滤,为后续指令生成和评测打下基础。

2、指令生成(Instruction Generation

第二步,EdiVal-Agent 根据场景自动生成多轮编辑指令。  它拥有覆盖 9 种编辑类型、6 个语义类别 的指令体系,包括:

添加(add)、删除(remove)、替换(replace)、 改颜色(color alter)、改材质(material alter)、改文字(text change)、移动位置(position change)、改数量(count change)、换背景(background change)。

EdiVal-Agent 会动态维护三个对象池:

在每一轮编辑中,智能体都会:

默认设置为三轮(Turn 1 – Turn 3),也可以扩展到更长链条,实现更多轮可组合编辑。

3、 自动评测(Evaluation

最后一步,EdiVal-Agent 从三个维度评估模型表现:

最终综合指标 EdiVal-O 通过几何平均融合 EdiVal-IF 和 EdiVal-CC,平衡“是否听话”与“是否稳定”。

为什么不把 EdiVal-VQ 纳入总体分数?

在评估中,我们发现“视觉质量(EdiVal-VQ)”虽然重要,但并不适合直接计入综合得分。以指令 “将背景换成图书馆” 为例:

这说明不同模型在面对同一任务时,有的更追求视觉美感(beautification),有的更注重和保真(preservation)。由于在图像编辑中,是否应追求“美化”仍存在争议,因此我们未将 EdiVal-VQ 纳入最终评测指标。

EdiVal-Agent 的人类一致性验证

EdiVal-Agent评测结果能否“想法与人一致”?

我们设计了一项人类一致性实验(Human Agreement Study),来检验 EdiVal-Agent 的评测结果,是否真正符合人类判断。结果如下:

EdiVal-Agent 的指标 EdiVal-IF 与人类判断的平均一致率高达 81.3%。相比之下,传统评测方法的表现明显更低:

换句话说,EdiVal-Agent 不仅能“算得对”,更能“想得像人”。此外,人工之间的一致率为 85.5%,这意味着——EdiVal-Agent 的表现已接近人类评测的上限

为什么 EdiVal-IF 与人类判断更为一致?

符号任务更精准。对于 “添加 / 删除 / 替换 / 移动 / 改数量” 等符号(symbolic)任务,EdiVal-IF 使用 Grounding-DINO 精确检测目标是否真的出现、移动或消失,几乎没有歧义。相比之下,VLM 模型则容易受到 幻觉(Hallucination) 与 空间推理(Spatial Reasoning) 的限制。

语义任务更智能。  对于 “改颜色 / 改材质 / 改文字 / 换背景” 等语义(semantic)任务,EdiVal-IF 将 VLM(Qwen-2.5-VL) 与 对象检测(Object Detection) 相结合,先定位,再推理,让模型真正做到“对着图回答问题”。

结果表明,这种检测 + 推理融合的方式,比单纯让大模型“看图说话”更加稳定、可靠。

谁才是最强图像编辑模型?

在本文提出的多轮图像编辑 EdiVal-Bench上,EdiVal-Agent系统对比了 13 个代表性模型,涵盖闭源与开源、in-context和context-free,Flow Matching与Diffusion等不同范式。结果如下:

其中EdiVal-IF衡量的是模型指令遵循的能力,EdiVal-CC衡量的是模型内容一致性的能力。EdiVal-O是两者的几何平均值,为最终评分。可以看到

评测结果也解释了为什么ChatGPT-4o在吉卜力风格迁移指令遵循美化效果出圈,而Nano Banana在OOTD这些背景/物体一致性要求比较高的任务上出圈。

更多实验结果与详细分析(比如关于in-context和complex editing),欢迎阅读原文。

关于作者

论文作者成员来自UT-Austin, UCLA,Microsft GenAI 以及Lambda Inc,两位共同一作分别是陈天钰,张雅思。

陈天钰,得克萨斯大学奥斯汀分校(UT-Austin)统计系博士生(三年级),导师为周名远教授。硕士毕业于芝加哥大学,本科毕业于复旦大学统计系。研究方向涵盖生成模型、强化学习、因果推断与表示学习等,目前与 Microsoft GenAI 开展长期合作研究。

张雅思,加州大学洛杉矶分校(UCLA)统计与数据科学系博士生(四年级),师从吴英年教授与 Oscar Leong 教授。研究方向聚焦生成式人工智能、多模态学习、大模型后训练与计算机视觉,曾在 Amazon AWS AI Labs 与 Google Research 从事相关研究工作。

值得一提的是,两位共一本科均毕业于复旦大学。

陈天钰

张雅思

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI图像编辑 EdiVal-Agent 多模态模型 评估框架 指令遵循 内容一致性 AI评测 Image Editing Multi-Turn Editing Evaluation Framework Instruction Following Content Consistency AI Evaluation
相关文章