52CV 2025-09-04 13:30 江苏

如何让AI根据我们提供的一张（或几张）图片，生成具有相同主体、但场景和风格各异的新图片？这就是“图像定制”技术，它在虚拟试衣、产品展示、IP创作等领域拥有巨大潜力。然而，现有方法通常需要为每个新主体进行耗时的模型微调，或者功能单一，难以在指定位置和自由创作之间灵活切换。近日，一篇名为《IC-Custom: Diverse Image Customization via In-Context Learning》的论文，提出了一种名为 IC-Custom 的统一框架，完美解决了这些痛点。

IC-Custom的灵感来源于大语言模型强大的“上下文学习”（In-Context Learning）能力。它将参考图像和目标画布拼接成一个“画板”（polyptych），让模型像阅读上下文一样理解任务，从而直接生成结果，完全无需针对新主体的微调。该方法不仅统一了“位置感知”（在指定区域生成）和“位置自由”（自由生成）两大模式，还能处理多种类型的参考图（真实照片、动漫角色等），效果惊艳。

论文作者: Yaowei Li¹, Xiaoyu Li²,³,, Zhaoyang Zhang²,³, Yuxuan Bian⁴, Gan Liu³, Xinyuan Li³, Jiale Xu²,³, Wenbo Hu²,³, Yating Liu⁵, Lingen Li⁴, Jing Cai³, Yuexian Zou¹, Yancheng He³, Ying Shan²,³

作者机构: ¹北京大学 (Peking University) ²ARC Lab, 腾讯PCG (Tencent PCG) ³腾讯 (Tencent) ⁴香港中文大学 (The Chinese University of Hong Kong) ⁵清华大学 (Tsinghua University)

论文地址: https://arxiv.org/abs/2507.01926

项目主页: https://liyaowei-stu.github.io/project/IC_Custom/

背景：图像定制的“两难困境”

图像定制的目标是在保持主体身份一致性的前提下，生成多样化的图像。传统方法如DreamBooth需要数分钟甚至更长的微调，成本高昂。后续的免训练方法虽然加快了速度，但往往陷入“鱼与熊掌不可兼得”的困境：

位置感知（Position-aware）：如一些图像修复（inpainting）方法，可以在图像的指定蒙版（mask）区域内植入主体，但无法从零开始自由创作。

位置自由（Position-free）：如一些风格化方法，可以根据参考图生成全新场景，但通常不支持在特定位置进行精确控制。

通用性差：许多方法对参考图类型、蒙版类型（精确蒙版 vs. 用户随手画的涂鸦）和参考图数量（单张 vs. 多张）的支持有限。

上表对比了IC-Custom与之前多种图像定制方法的通用性，可以看到IC-Custom是唯一一个能够同时出色处理精确蒙版、用户涂鸦蒙版、位置自由生成和多参考图这四种主流任务的方法。

IC-Custom方法：统一框架，上下文生万物

IC-Custom的实现优雅而强大，它将复杂的定制任务统一到了一个基于Diffusion Transformer (DiT)的框架下。

如上图模型概览所示，其核心流程如下：

构建上下文画板（Polyptych Inputs）：将一张或多张参考图与目标图（可以是带蒙版的图，也可以是空白画布）拼接在一起，形成一个统一的输入“画板”。

统一任务范式：无论是位置感知还是位置自由任务，都被统一为“根据上下文画板和文本提示，预测目标区域内容”的模式。位置自由生成被巧妙地视为一种“目标画布被完全蒙版”的特殊情况。

注入学习能力：通过为DiT模型添加LoRA适配器并解冻输入层，让模型学会在上下文中理解和推理，而无需改动主干网络。

关键创新：上下文多模态注意力 (ICMA)

为了让模型能清晰地分辨画板中的不同区域（哪里是参考？哪里是目标？）和理解不同的任务类型（是精确填充还是涂鸦填充？），作者们提出了一种名为 上下文多模态注意力（In-Context Multi-Modal Attention, ICMA） 的新机制。

ICMA主要包含两个创新点：

任务注册令牌（Register Tokens）：引入几种可学习的特殊Token，用来告诉模型当前任务是位置感知（精确/涂鸦蒙版）还是位置自由。

边界感知位置编码：引入多种可学习的位置编码（如上图中的CE, TE, IE），用来明确标注不同图像（参考图、目标图）的边界，防止信息混淆。

实验效果：全方位超越

IC-Custom在多个基准测试上都取得了当前最佳（SOTA）的性能，无论是在客观指标还是在人工评估中都表现出色。

定量比较

如下表所示，在评估位置感知和位置自由任务的ProductBench和DreamBench两个基准上，IC-Custom在所有指标（身份一致性DINO/CLIP-I，文本对齐度CLIP-T）上全面超越了现有方法，并且在人工评估中获得了压倒性的偏好（例如，在一致性上获得78.5%的投票）。

定性比较

位置感知任务：如下图所示，相比其他方法，IC-Custom能更好地保留原始背景，并将主体和谐地融入新场景的光照、阴影和透视中，不会出现“悬浮感”或“溢出”蒙版的问题。

位置自由任务：如下图所示，其他方法容易产生伪影或错误理解，而IC-Custom在保持主体身份、视觉和谐度以及文本对齐方面均表现出色。

论文还展示了更多的生成结果，包括多参考图的融合以及各种消融实验，均证明了其框架的强大和设计的合理性。

总结

IC-Custom 提出了一种灵活、高效且统一的图像定制框架。通过创新的“上下文学习”范式和ICMA机制，它成功地将多种复杂的定制任务整合到一个单一模型中，实现了免微调、高质量、高灵活度的图像生成。这项工作不仅在技术上取得了显著突破，也为图像定制在工业界的大规模应用铺平了道路。

了解最新 AI 进展，欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至：amos@52cv.net欢迎点赞、分享、收藏、评论。

阅读原文

跳转微信打开

背景：图像定制的“两难困境”

IC-Custom方法：统一框架，上下文生万物

关键创新：上下文多模态注意力 (ICMA)

实验效果：全方位超越

定量比较

定性比较

总结

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签