我爱计算机视觉 09月04日
IC-Custom:革新图像定制,实现免微调的灵活生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期提出的IC-Custom框架,通过借鉴大语言模型的上下文学习能力,为图像定制带来了重大突破。该框架能够将参考图片与目标画布拼接成“画板”,使AI无需针对新主体进行耗时微调,即可理解并生成具有相同主体但场景风格各异的新图片。IC-Custom统一了位置感知(在指定区域生成)与位置自由(自由创作)两种模式,并能处理真实照片、动漫角色等多种类型的参考图,有效解决了现有方法功能单一、微调耗时等痛点,在虚拟试衣、产品展示、IP创作等领域展现出巨大潜力。

💡 IC-Custom框架的核心创新在于其“上下文学习”范式,通过将参考图像和目标画布拼接成一个统一的“画板”,让AI模型能够如同理解文本上下文一样理解图像定制任务。这种方法避免了为每个新主体进行耗时微调的传统模式,实现了高效的图像生成。

🎯 该框架成功地统一了“位置感知”(在特定区域内精确生成)和“位置自由”(从零开始自由创作)两种图像定制模式。通过巧妙地将位置自由生成视为目标画布被完全蒙版的情况,IC-Custom提供了一个更加灵活和通用的解决方案,满足不同场景下的创作需求。

🌟 IC-Custom展现出卓越的通用性,能够处理多种类型的参考图,包括真实照片和动漫角色等,并且对蒙版类型(精确蒙版或用户随手绘制的涂鸦)以及参考图数量(单张或多张)都有良好的支持。这使得它在各种实际应用中都具有广泛的适用性。

🚀 在实验效果方面,IC-Custom在多个基准测试中均取得了当前最佳(SOTA)的性能,无论是在客观指标(如身份一致性、文本对齐度)还是主观的人工评估中,都显著优于现有方法。其生成的图像在保留主体身份、视觉和谐度以及与文本提示的对齐度方面表现出色。

52CV 2025-09-04 13:30 江苏

如何让AI根据我们提供的一张(或几张)图片,生成具有相同主体、但场景和风格各异的新图片?这就是“图像定制”技术,它在虚拟试衣、产品展示、IP创作等领域拥有巨大潜力。然而,现有方法通常需要为每个新主体进行耗时的模型微调,或者功能单一,难以在指定位置和自由创作之间灵活切换。近日,一篇名为《IC-Custom: Diverse Image Customization via In-Context Learning》的论文,提出了一种名为 IC-Custom 的统一框架,完美解决了这些痛点。

IC-Custom的灵感来源于大语言模型强大的“上下文学习”(In-Context Learning)能力。它将参考图像和目标画布拼接成一个“画板”(polyptych),让模型像阅读上下文一样理解任务,从而直接生成结果,完全无需针对新主体的微调。该方法不仅统一了“位置感知”(在指定区域生成)和“位置自由”(自由生成)两大模式,还能处理多种类型的参考图(真实照片、动漫角色等),效果惊艳。

    论文作者: Yaowei Li¹, Xiaoyu Li²,³,, Zhaoyang Zhang²,³, Yuxuan Bian⁴, Gan Liu³, Xinyuan Li³, Jiale Xu²,³, Wenbo Hu²,³, Yating Liu⁵, Lingen Li⁴, Jing Cai³, Yuexian Zou¹, Yancheng He³, Ying Shan²,³

    作者机构: ¹北京大学 (Peking University) ²ARC Lab, 腾讯PCG (Tencent PCG) ³腾讯 (Tencent) ⁴香港中文大学 (The Chinese University of Hong Kong)  ⁵清华大学 (Tsinghua University)

    论文地址: https://arxiv.org/abs/2507.01926

    项目主页: https://liyaowei-stu.github.io/project/IC_Custom/

背景:图像定制的“两难困境”

图像定制的目标是在保持主体身份一致性的前提下,生成多样化的图像。传统方法如DreamBooth需要数分钟甚至更长的微调,成本高昂。后续的免训练方法虽然加快了速度,但往往陷入“鱼与熊掌不可兼得”的困境:

    位置感知(Position-aware):如一些图像修复(inpainting)方法,可以在图像的指定蒙版(mask)区域内植入主体,但无法从零开始自由创作。

    位置自由(Position-free):如一些风格化方法,可以根据参考图生成全新场景,但通常不支持在特定位置进行精确控制。

    通用性差:许多方法对参考图类型、蒙版类型(精确蒙版 vs. 用户随手画的涂鸦)和参考图数量(单张 vs. 多张)的支持有限。

上表对比了IC-Custom与之前多种图像定制方法的通用性,可以看到IC-Custom是唯一一个能够同时出色处理精确蒙版、用户涂鸦蒙版、位置自由生成和多参考图这四种主流任务的方法。

IC-Custom方法:统一框架,上下文生万物

IC-Custom的实现优雅而强大,它将复杂的定制任务统一到了一个基于Diffusion Transformer (DiT)的框架下。

如上图模型概览所示,其核心流程如下:

    构建上下文画板(Polyptych Inputs):将一张或多张参考图与目标图(可以是带蒙版的图,也可以是空白画布)拼接在一起,形成一个统一的输入“画板”。

    统一任务范式:无论是位置感知还是位置自由任务,都被统一为“根据上下文画板和文本提示,预测目标区域内容”的模式。位置自由生成被巧妙地视为一种“目标画布被完全蒙版”的特殊情况。

    注入学习能力:通过为DiT模型添加LoRA适配器并解冻输入层,让模型学会在上下文中理解和推理,而无需改动主干网络。

关键创新:上下文多模态注意力 (ICMA)

为了让模型能清晰地分辨画板中的不同区域(哪里是参考?哪里是目标?)和理解不同的任务类型(是精确填充还是涂鸦填充?),作者们提出了一种名为 上下文多模态注意力(In-Context Multi-Modal Attention, ICMA) 的新机制。

ICMA主要包含两个创新点:

    任务注册令牌(Register Tokens):引入几种可学习的特殊Token,用来告诉模型当前任务是位置感知(精确/涂鸦蒙版)还是位置自由。

    边界感知位置编码:引入多种可学习的位置编码(如上图中的CE, TE, IE),用来明确标注不同图像(参考图、目标图)的边界,防止信息混淆。

实验效果:全方位超越

IC-Custom在多个基准测试上都取得了当前最佳(SOTA)的性能,无论是在客观指标还是在人工评估中都表现出色。

定量比较

如下表所示,在评估位置感知和位置自由任务的ProductBench和DreamBench两个基准上,IC-Custom在所有指标(身份一致性DINO/CLIP-I,文本对齐度CLIP-T)上全面超越了现有方法,并且在人工评估中获得了压倒性的偏好(例如,在一致性上获得78.5%的投票)。

定性比较

位置感知任务:如下图所示,相比其他方法,IC-Custom能更好地保留原始背景,并将主体和谐地融入新场景的光照、阴影和透视中,不会出现“悬浮感”或“溢出”蒙版的问题。

位置自由任务:如下图所示,其他方法容易产生伪影或错误理解,而IC-Custom在保持主体身份、视觉和谐度以及文本对齐方面均表现出色。

论文还展示了更多的生成结果,包括多参考图的融合以及各种消融实验,均证明了其框架的强大和设计的合理性。

总结

IC-Custom 提出了一种灵活、高效且统一的图像定制框架。通过创新的“上下文学习”范式和ICMA机制,它成功地将多种复杂的定制任务整合到一个单一模型中,实现了免微调、高质量、高灵活度的图像生成。这项工作不仅在技术上取得了显著突破,也为图像定制在工业界的大规模应用铺平了道路。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、分享、收藏、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

IC-Custom 图像定制 AI艺术生成 上下文学习 Image Customization AI Art Generation In-Context Learning
相关文章