原创 让你更懂AI的 2025-10-17 17:14 北京
首个“构图 × 推理”全维基准
文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench,用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题,首次系统揭示 T2I 模型“会画但不会想”的推理短板。
论文题目:
Easier Painting Than Thinking: Can Text-to-Image Models Set the Stage, but Not Direct the Play?
论文地址:
https://arxiv.org/abs/2509.03516
代码地址:
https://github.com/KwaiVGI/T2I-CoReBench
项目主页:
https://t2i-corebench.github.io/
研究背景与动机
T2I 模型要生成 “靠谱” 的图像,靠两大核心能力:1. 构图能力(Composition):把 prompt 里明确提到的元素(比如冰箱、菜板、岛台等)全部画对,包括物体、属性、位置关系。2. 推理能力(Reasoning):把 prompt 里隐含的结果(比如用力挤压一个番茄→ 番茄挤出汁)推断出来,生成合理画面。但当前的评测基准仍然存在两个关键问题:1. 不全面:要么只评构图,要么只考推理,没法整体评估模型又能画全、又能想对的能力。且推理维度也相对局限,多集中在常识或简单因果,缺乏对逻辑、归纳、溯因等推理维度的全面覆盖。2. 太简单:构图场景一般只包含少量的视觉元素,且推理只考察单步的简单推理(比如挤番茄→ 出汁),完全达不到真实世界多物体、多因果的复杂度。为了解决这两个问题,研究团队提出了 T2I-CoReBench,聚焦于评估 T2I 模型两种基本能力:构图(Composition)与推理(Reasoning)。不仅要“测全”,还要 “测难”,让基准的评估结果真正反映 T2I 模型在实际场景中的表现。T2I-CoReBench: 12 维评估体系 + 高复杂度场景
T2I-CoReBench 聚焦于评估 T2I 模型两种基本能力:构图(Composition)与推理(Reasoning)。不同于过去工作靠“主观经验” 设计评测维度,研究团队从两个经典分类框架出发,构建了严谨的评估体系,共计12 个维度,把 “构图” 和 “推理” 拆解得明明白白。评测结果:构图有进步,推理仍是“致命短板”
研究团队在 T2I-CoReBench 上评测了 28 个主流 T2I 模型(21 个开源 + 7 个闭源,涵盖扩散、自回归、统一架构),结果既暴露了行业现状,也给出了明确方向。未来方向:让 T2I 模型从 “会画画” 到 “会思考”
基于评测结果,研究团队提出四个关键研究方向,为后续发展指明路径:1. 补充复杂场景数据:现有训练集多为简单场景,亟需增加“高密度物体 + 多步推理” 的标注数据,以拓展模型的见识与泛化能力;2. 深度融合 LLM/MLLM:将大模型的文本理解与推理能力嵌入 T2I 流程,例如先解析 prompt 的逻辑,再驱动图像生成;3. 引入 LLM 式推理范式:借鉴 CoT 思想,让模型逐步推演逻辑链(如 “水杯掉地 → 水渍 → 杯子倾斜”),再生成对应画面;4. 探索多模态交错推理机制:在生成过程中交替利用文本与视觉模态的推理能力,实现跨模态信息的相互补充与一致性推理,从而提升生成结果的逻辑性与逼真度。更多阅读