52CV 2025-10-25 13:46 江苏
当前文本生成图像(T2I)技术早已不是画出来就行。从 Stable Diffusion 到最新的 Nano Banana,模型能轻松生成指令一致的简单画面,但要生成繁忙厨房中的 30 余种物品或绳索断裂后特技演员引发连锁反应这类复杂场景,却常犯漏东西和逻辑错的毛病。问题出在哪?
近日,快手可灵团队提出 T2I-CoReBench。首个同时覆盖 “构图能力” 与 “推理能力” 的全面性、高复杂度基准,用 1080 个挑战性 prompt 和 13,500+ 个精细评测问题,戳破了当前 T2I 模型的 “能力假象”。
T2I 模型要生成 “靠谱” 的图像,靠两大核心能力:(1)构图能力(Composition):把 prompt 里明确提到的元素(比如冰箱、菜板、岛台等)全部画对,包括物体、属性、位置关系。(2)推理能力(Reasoning):把 prompt 里隐含的结果(比如用力挤压一个番茄 → 番茄挤出汁)推断出来,生成合理画面。
但当前的评测基准仍然存在两个关键问题:(1)不全面:要么只评构图,要么只考推理,没法整体评估模型又能画全、又能想对的能力。且推理维度也相对局限,多集中在常识或简单因果,缺乏对逻辑、归纳、溯因等推理维度的全面覆盖。(2)太简单:构图场景一般只包含少量的视觉元素,且推理只考察单步的简单推理(比如挤番茄 → 出汁),完全达不到真实世界多物体、多因果的复杂度。
为了解决这两个问题,研究团队提出了 T2I-CoReBench,聚焦于评估 T2I 模型两种基本能力:构图(Composition)与推理(Reasoning)。不仅要 “测全”,还要 “测难”,让基准的评估结果真正反映 T2I 模型在实际场景中的表现。
T2I-CoReBench 聚焦于评估 T2I 模型两种基本能力:构图(Composition)与推理(Reasoning)。不同于过去工作靠 “主观经验” 设计评测维度,研究团队从两个经典分类框架出发,构建了严谨的评估体系,共计12 个维度,把 “构图” 和 “推理” 拆解得明明白白。
构图能力基于场景图理论:物体、属性、关系是共同构成画面的核心要素。同时考虑到文本内容在 T2I 应用中的重要性(如包装文字与商标),因而一共定义了多实例(MI)、多属性(MA)、多关系(MR)以及文本渲染(TR)四个维度。
推理能力基于哲学领域经典的 “三大推理框架”:演绎推理、归纳推理、溯因推理,细分出 T2I 场景下的关键任务:
演绎推理的核心逻辑是前提为真,则结论必为真。在 T2I 场景中表现为模型需严格依据 prompt 给定的规则、状态或步骤,生成确定性的视觉画面。具体定义了逻辑推理(LR)、行为推理(BR)、假设推理(HR)以及过程推理(PR)四个维度。
归纳推理的核心是从具体例子中提炼通用规则,再将规则应用到新场景。在 T2I 中表现为模型需先从 prompt 给出的示例中学会规律,再基于规律生成未被明确描述的视觉元素。具体定义了泛化推理(GR)和类比推理(AR)两个维度。
溯因推理的核心是从已知观察出发,重建最可能的隐含原因或背景。在 T2I 中表现为 prompt 仅描述 “结果状态” 或 “局部线索”,模型需调用常识、物理规律或因果逻辑,补全画面中 “未被提及但必须存在的元素”。包括常识推理(CR)和重构推理(RR)两个维度。
为避免模型在简单场景中 “刷分”,T2I-CoReBench 在 prompt 设计上特意 “加难度”,使其更贴近真实世界,从而倒逼模型暴露短板:
构图更密集:构图类 prompt 平均包含 20 个实例/属性/关系。例如“拥挤教室”需呈现铅笔、剪刀、胶棒等 35 个实例。推理更复杂:推理类 prompt 均为“密集推理场景”。如 火柴烧断弹性绳 → 绳子弹倒多米诺骨牌 → 弹珠滚进红水烧杯,需同时呈现 8 个结果,而非“一因一果”的简单逻辑。评测更精细:每个 prompt 配套 checklist,例如“拥挤教室”含 35 个是/否问题(如“图中有铅笔吗?”、“图中有剪刀吗?”),逐项独立评分,避免粗粒度评估带来的模糊性。最终,T2I-CoReBench 形成 1080 个 prompt 与 13536 个评测问题的规模,平均 prompt 长度为 170 tokens,checklist 中平均有 12.5 个问题,足够全面考验模型在复杂场景中的真实能力。
三、评测结果:构图有进步,推理仍是 “致命短板”研究团队在 T2I-CoReBench 上评测了 28 个主流 T2I 模型(21 个开源 + 7 个闭源,涵盖扩散、自回归、统一架构),结果既暴露了行业现状,也给出了明确方向。
在 T2I-CoReBench 的测试中,各模型的构图能力整体稳步提升:闭源最优模型 Seedream 4.0 得分 86.1,开源最优 Qwen-Image 亦达到 78.0,已接近先进闭源水平。然而在复杂场景下,即便是 Seedream 4.0,在多属性绑定(MA:84.5)和多关系生成(MR:75.0)方面仍显吃力,复杂构图控制依旧是亟待突破的难题。
关键发现 2:推理能力仍是 T2I 模型的主要瓶颈尽管构图能力稳步提升,但推理仍显薄弱:Imagen 4 Ultra 推理得分最高,但也仅为 72.9,比构图低 9.5 分,在逻辑与行为推理等维度表现不佳;开源模型差距更为明显,Qwen-Image 构图达 78.0,却仅在推理上得 49.3(落后 28.7 分)。这表明当前模型仍难以从提示词中正确推断隐含的视觉元素。
关键发现 3:扩散模型略占优势,指令理解是关键在开源模型中,扩散模型整体表现略优于自回归和统一范式,但差异不大。更强的指令编码器显著提升模型在构图与推理上的表现,例如 Qwen-Image 借助 Qwen2.5-VL 编码器取得最佳成绩。这表明未来应优先强化编码器端的指令理解与文本–图像对齐,同时保持解码范式的灵活性。
关键发现 4:提示词重写能缓解推理瓶颈,但仍不足以解决多模态难题研究团队评估了提示词重写(prompt rewriting)对 T2I 推理的作用,来补偿 T2I 模型的原生推理不足。采用 OpenAI o3 在生成前重写提示词,显式补充属性变化、动作结果与隐含线索。结果显示重写确可提升推理,原生推理能力较弱的模型受益更大;但仅靠文本推理仍不足:强模型(如 GPT-Image)在多项推理维度依然未过 80。鉴于 T2I 本质为多模态任务,文本重写难以克服视觉偏差与文本–图像耦合(如生成方形轮子的汽车),未来应探索更紧密的多模态交互。
基于评测结果,研究团队提出四个关键研究方向,为后续发展指明路径:
补充复杂场景数据:现有训练集多为简单场景,亟需增加 “高密度物体 + 多步推理” 的标注数据,以拓展模型的见识与泛化能力;深度融合 LLM/MLLM:将大模型的文本理解与推理能力嵌入 T2I 流程,例如先解析 prompt 的逻辑,再驱动图像生成;引入 LLM 式推理范式:借鉴 CoT 思想,让模型逐步推演逻辑链(如 “水杯掉地 → 水渍 → 杯子倾斜”),再生成对应画面;探索多模态交错推理机制:在生成过程中交替利用文本与视觉模态的推理能力,实现跨模态信息的相互补充与一致性推理,从而提升生成结果的逻辑性与逼真度。