52CV 2025-09-04 13:30 江苏
如何让AI根据我们提供的一张(或几张)图片,生成具有相同主体、但场景和风格各异的新图片?这就是“图像定制”技术,它在虚拟试衣、产品展示、IP创作等领域拥有巨大潜力。然而,现有方法通常需要为每个新主体进行耗时的模型微调,或者功能单一,难以在指定位置和自由创作之间灵活切换。近日,一篇名为《IC-Custom: Diverse Image Customization via In-Context Learning》的论文,提出了一种名为 IC-Custom 的统一框架,完美解决了这些痛点。
IC-Custom的灵感来源于大语言模型强大的“上下文学习”(In-Context Learning)能力。它将参考图像和目标画布拼接成一个“画板”(polyptych),让模型像阅读上下文一样理解任务,从而直接生成结果,完全无需针对新主体的微调。该方法不仅统一了“位置感知”(在指定区域生成)和“位置自由”(自由生成)两大模式,还能处理多种类型的参考图(真实照片、动漫角色等),效果惊艳。
论文作者: Yaowei Li¹, Xiaoyu Li²,³,, Zhaoyang Zhang²,³, Yuxuan Bian⁴, Gan Liu³, Xinyuan Li³, Jiale Xu²,³, Wenbo Hu²,³, Yating Liu⁵, Lingen Li⁴, Jing Cai³, Yuexian Zou¹, Yancheng He³, Ying Shan²,³
作者机构: ¹北京大学 (Peking University) ²ARC Lab, 腾讯PCG (Tencent PCG) ³腾讯 (Tencent) ⁴香港中文大学 (The Chinese University of Hong Kong) ⁵清华大学 (Tsinghua University)
背景:图像定制的“两难困境”
图像定制的目标是在保持主体身份一致性的前提下,生成多样化的图像。传统方法如DreamBooth需要数分钟甚至更长的微调,成本高昂。后续的免训练方法虽然加快了速度,但往往陷入“鱼与熊掌不可兼得”的困境:
位置感知(Position-aware):如一些图像修复(inpainting)方法,可以在图像的指定蒙版(mask)区域内植入主体,但无法从零开始自由创作。
位置自由(Position-free):如一些风格化方法,可以根据参考图生成全新场景,但通常不支持在特定位置进行精确控制。
通用性差:许多方法对参考图类型、蒙版类型(精确蒙版 vs. 用户随手画的涂鸦)和参考图数量(单张 vs. 多张)的支持有限。
上表对比了IC-Custom与之前多种图像定制方法的通用性,可以看到IC-Custom是唯一一个能够同时出色处理精确蒙版、用户涂鸦蒙版、位置自由生成和多参考图这四种主流任务的方法。
IC-Custom方法:统一框架,上下文生万物
IC-Custom的实现优雅而强大,它将复杂的定制任务统一到了一个基于Diffusion Transformer (DiT)的框架下。
如上图模型概览所示,其核心流程如下:
构建上下文画板(Polyptych Inputs):将一张或多张参考图与目标图(可以是带蒙版的图,也可以是空白画布)拼接在一起,形成一个统一的输入“画板”。
统一任务范式:无论是位置感知还是位置自由任务,都被统一为“根据上下文画板和文本提示,预测目标区域内容”的模式。位置自由生成被巧妙地视为一种“目标画布被完全蒙版”的特殊情况。
注入学习能力:通过为DiT模型添加LoRA适配器并解冻输入层,让模型学会在上下文中理解和推理,而无需改动主干网络。
关键创新:上下文多模态注意力 (ICMA)
为了让模型能清晰地分辨画板中的不同区域(哪里是参考?哪里是目标?)和理解不同的任务类型(是精确填充还是涂鸦填充?),作者们提出了一种名为 上下文多模态注意力(In-Context Multi-Modal Attention, ICMA) 的新机制。
ICMA主要包含两个创新点:
任务注册令牌(Register Tokens):引入几种可学习的特殊Token,用来告诉模型当前任务是位置感知(精确/涂鸦蒙版)还是位置自由。
边界感知位置编码:引入多种可学习的位置编码(如上图中的CE, TE, IE),用来明确标注不同图像(参考图、目标图)的边界,防止信息混淆。
实验效果:全方位超越
IC-Custom在多个基准测试上都取得了当前最佳(SOTA)的性能,无论是在客观指标还是在人工评估中都表现出色。
定量比较
如下表所示,在评估位置感知和位置自由任务的ProductBench和DreamBench两个基准上,IC-Custom在所有指标(身份一致性DINO/CLIP-I,文本对齐度CLIP-T)上全面超越了现有方法,并且在人工评估中获得了压倒性的偏好(例如,在一致性上获得78.5%的投票)。
定性比较
位置感知任务:如下图所示,相比其他方法,IC-Custom能更好地保留原始背景,并将主体和谐地融入新场景的光照、阴影和透视中,不会出现“悬浮感”或“溢出”蒙版的问题。
位置自由任务:如下图所示,其他方法容易产生伪影或错误理解,而IC-Custom在保持主体身份、视觉和谐度以及文本对齐方面均表现出色。
论文还展示了更多的生成结果,包括多参考图的融合以及各种消融实验,均证明了其框架的强大和设计的合理性。
总结
IC-Custom 提出了一种灵活、高效且统一的图像定制框架。通过创新的“上下文学习”范式和ICMA机制,它成功地将多种复杂的定制任务整合到一个单一模型中,实现了免微调、高质量、高灵活度的图像生成。这项工作不仅在技术上取得了显著突破,也为图像定制在工业界的大规模应用铺平了道路。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、分享、收藏、评论。
