我爱计算机视觉 09月12日
字节跳动提出USO模型,实现风格与主体的协同解耦生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

字节跳动智能创作团队提出USO(Unified Style-Subject Optimized)模型,成功打破了AIGC图像生成领域中主体驱动与风格驱动的“对立”局面。USO通过创新的协同解耦范式,利用大规模跨任务三元组数据集和两阶段解耦学习,实现了在一个统一框架下同时精通主体一致性和风格迁移。模型还引入了风格奖励学习,进一步提升了生成图像的质量和风格保真度。USO在多个基准测试中表现出SOTA性能,并发布了首个联合评估基准USO-Bench,为定制化图像生成技术开辟了新方向。

💡 **协同解耦范式:** USO模型的核心创新在于提出了“协同解耦”的理念,认为主体驱动和风格驱动在本质上是内容与风格的解耦与重组。通过跨任务的联合学习,模型能够同时学习识别和保留主体特征,并应用指定的艺术风格,从而打破了传统上两者不可兼得的局面。

📊 **大规模三元组数据集与两阶段解耦:** 为了实现协同解耦,USO构建了一个包含内容参考图、风格参考图和风格化内容图的大规模三元组数据集。模型在此数据集上进行两阶段训练:首先进行风格对齐训练,让模型认识和注入风格;随后进行内容-风格解耦训练,通过独立的编码器处理内容和风格,促进特征分离,实现自由组合。

🏆 **风格奖励学习与SOTA性能:** 为了进一步提升生成质量,USO引入了风格奖励学习(SRL)机制,训练一个奖励模型来评估生成图像与目标风格的相似度,并指导生成模型进行优化。在USO-Bench基准测试中,USO在主体驱动、风格驱动以及联合驱动任务上均取得了显著领先的SOTA性能,证明了其强大的通用性和效果。

🚀 **统一生成能力与未来展望:** USO是首个在单一框架内同时实现SOTA级别主体一致性和风格相似性的模型,能够灵活地将任意主体与任意风格进行组合。这项工作不仅是一个强大的AIGC工具,更重要的是其背后的“协同演进、互为增益”的解耦思想,预示着定制化图像生成技术将迈向新高度。

CV君 2025-09-03 12:29 江苏

创新的协同解耦范式

在AIGC图像生成领域,有两个非常主流且看似“对立”的需求:主体驱动生成(Subject-driven)风格驱动生成(Style-driven)

主体驱动:类似于制作“数字分身”,追求的是让特定的人物、宠物或物品(主体)在不同场景、不同姿势下保持高度的一致性,代表技术有LoRA、InstantID等。

风格驱动:类似于“滤镜”或“画风迁移”,追求的是将一张图片的艺术风格(如梵高油画、吉卜力动画)应用到新的内容上,代表技术有IP-Adapter、StyleAlign等。

传统上,这两个任务被视为“鱼和熊掌不可兼得”的独立赛道。专攻主体的模型,风格泛化能力往往不尽人意;而专攻风格的模型,又很难保证主体人物不“走形”。

近日,来自字节跳动智能创作团队的研究者们挑战了这一固有观念,他们认为,这两个任务的本质核心都是内容与风格的解耦与重组,完全可以在一个统一的框架下实现。基于此,他们提出了 USO (Unified Style-Subject Optimized) 模型,一个通过解耦学习和奖励学习,成功统一并同时精通两项任务的定制化生成模型。

论文标题:USO: Unified Style and Subject-Driven Generation via Disentangled and Reward Learning

作者:Shaojin Wu, Mengqi Huang, Yufeng Cheng, Wenxu Wu, 等 (字节跳动UXO团队)

机构:ByteDance (字节跳动)

论文地址https://arxiv.org/abs/2508.18966

项目主页https://bytedance.github.io/USO/

代码与模型https://github.com/bytedance/USO

核心思想:从“对立”到“统一”的跨任务协同解耦

现有方法通常只在单一任务内部进行“内容-风格”解耦,这是一种“孤立”的解耦。例如,风格迁移模型只关心如何提炼“风格”,而将“内容”视为需要排除的噪声;反之,主体驱动模型只关心如何提炼“主体特征”,而将“风格”视为噪声。

USO的作者们认为,这种方式是片面的。他们提出了一个更深刻的见解:一个任务中需要被“排除”的特征,恰恰是另一个任务中需要被“包含”的特征。学习如何为风格迁移任务排除主体特征,反过来能帮助主体驱动任务更好地识别和保留主体特征。这是一种跨任务的协同互补式解耦(Cross-task Co-disentanglement)

基于这一思想,USO框架旨在通过联合学习,让模型同时理解“什么是风格”和“什么是主体”,从而在生成时能够根据需求自由地组合它们,实现从风格驱动、主体驱动到二者结合的全面统一。

USO的技术实现:三步走策略

为了实现上述目标,USO采用了一套环环相扣的技术方案,主要包括三大部分:

1. 构建大规模跨任务三元组数据集

高质量的数据是模型学习解耦能力的基础。研究者首先构建了一个大规模的三元组数据集,每条数据包含 <内容参考图,风格参考图,风格化的内容图>。这个数据集的巧妙之处在于它的构建过程:

他们先利用一个先进的主体驱动模型(UNO)和两个专门训练的“专家模型”(一个负责风格化,一个负责去风格化),系统性地生成了大量高质量的风格化图像。这些数据不仅包含了保留原始布局的风格化结果,还包含了布局发生改变的样本,这使得模型能够学习到更深层次、与布局无关的内容与风格解耦。

2. 两阶段解耦学习方案

有了高质量的数据集,USO通过一个两阶段的训练框架来学习解耦能力。

阶段一:风格对齐训练 (Style Alignment Training)此阶段的目标是让模型学会“认识”风格。研究者使用一个强大的语义编码器(SigLIP)来提取风格参考图的特征,并通过一个轻量级的“分层投影仪”(Hierarchical Projector)将其注入到预训练的T2I模型(如FLUX.1或SD)中。这一步使得模型具备了根据参考图生成相应风格的能力。

阶段二:内容-风格解耦训练 (Content-Style Disentanglement Training)这是实现解耦的核心。在这一阶段,模型同时接收内容参考图风格参考图的输入。关键在于,内容和风格由两个独立的编码器处理,这从结构上就促进了特征的分离,避免了“内容泄露”(即风格参考图中的内容串扰到最终生成结果中)。模型在精心构建的三元组数据集上进行训练,学会将指定的内容(主体)与指定的风格进行融合。

3. 风格奖励学习 (Style Reward Learning, SRL)

为了进一步提升风格的保真度和生成的质量,USO引入了类似强化学习的奖励学习机制。

他们训练了一个奖励模型,该模型专门用于判断生成图像与目标风格的相似度。在USO的训练过程中,这个奖励模型会给出一个“奖励信号”,引导生成模型向着“风格更逼真”的方向进行优化。这个过程(如上算法流程所示)显著提升了模型的最终性能,不仅风格更像,连主体一致性和画面美学质量也得到了改善。

实验效果:全面领先的SOTA性能

为了全面评估USO的性能,研究者们还发布了首个能够同时评估主体一致性风格相似性的基准测试集——USO-Bench

定量比较

在USO-Bench上,无论是在主体驱动任务(左侧)还是风格驱动任务(右侧)中,USO的各项指标(如CLIP-I, DINO, CSD)均显著优于现有的所有开源SOTA模型。

在更具挑战性的风格-主体联合驱动任务上,USO同样大幅领先,证明了其强大的统一生成能力。

定性比较

通过生成效果图可以更直观地感受到USO的强大。

主体驱动生成:给定人物照片,USO能生成主体一致性极高且质感真实自然的图像,优于其他方法。

风格驱动生成:无论是细腻的笔触还是抽象的艺术风格,USO都能精准捕捉并迁移,效果惊人。

风格-主体联合生成:这是最能体现USO统一能力的地方。模型可以完美地将任意主体和任意风格进行自由组合。

总结与价值

USO的提出,为个性化、定制化的图像生成领域带来了重要的突破。其核心贡献在于:

提出了创新的协同解耦范式:打破了风格和主体生成任务各自为战的局面,证明了通过跨任务的联合学习可以实现更彻底的内容-风格解耦,并相互促进。

构建了强大的统一生成模型:USO是首个在单一框架内同时实现SOTA级别主体一致性和风格相似性的模型,其效果和通用性都令人印象深刻。

引入了奖励学习增强:将奖励学习范式成功应用于风格生成,为进一步提升生成模型的精细控制力和美学质量提供了有效途径。

发布了首个联合评估基准:USO-Bench填补了该领域在综合评估上的空白,为后续研究提供了公平、全面的比较平台。

CV君认为,USO不仅是一个强大的AIGC工具,更重要的是它背后“协同演进、互为增益”的解耦思想。这项工作无疑会将定制化图像生成技术推向一个新的高度,让“鱼与熊掌兼得”的创作体验变得触手可及。

了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

USO AIGC 图像生成 风格迁移 主体驱动 解耦 字节跳动 协同学习 USO-Bench AI Image Generation Style Transfer Subject-Driven Disentanglement ByteDance Co-learning
相关文章