我爱计算机视觉 15小时前
WithAnyone:实现高保真、可控的身份一致性图像生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

针对AI图像生成中人物身份一致性难题,复旦大学与StepFun团队提出了创新方案“WithAnyone”。该模型通过大规模成对数据集MultiID-2M和创新的对比身份损失,有效解决了现有方法“复制粘贴”的伪影问题。WithAnyone能够在不同场景、姿势和表情下保持人物身份的真实一致性,并实现丰富的变化和灵活的控制,显著优于现有主流模型,为可控ID生成开辟了新路径。研究成果已开源,并迅速在社区引起关注。

💡 **身份一致性难题的突破**:WithAnyone创新性地解决了AI生成图像中人物身份“复制粘贴”的问题,使得生成的虚拟人物在不同场景、姿势和表情下都能保持高度一致的身份特征,提升了图像的真实感和自然度。

📊 **大规模成对数据集MultiID-2M**:为解决ID一致性生成,研究团队构建了MultiID-2M这一大规模数据集,包含约200万张图像,其中50万张为精确ID标注的成对多人图像。该数据集为模型学习“在变化中保持不变”提供了前所未有的丰富数据。

⚖️ **核心算法创新:对比身份损失**:WithAnyone模型引入了ID Contrastive Loss,通过将同一ID的不同照片作为正样本、不同ID的照片作为负样本,迫使模型学习到真正定义个体身份的、跨越姿态和表情变化的稳定特征,从而实现高保真且可控的ID生成。

🚀 **多阶段训练与卓越性能**:模型采用四阶段训练流程,从预训练到成对数据微调,再到质量微调,逐步提升模型能力。实验结果和用户研究均表明,WithAnyone在身份相似度、复制粘贴抑制、提示词遵循度和美学质量上均显著优于现有方法。

CV君 2025-11-06 17:35 江苏

全新训练范式,实现高保真、多样可控的ID生成。

最近,AI图像生成领域最头疼的问题之一,莫过于如何让生成的虚拟人物不仅长得像,还能在不同场景、姿势和表情下保持身份的一致性。很多模型生成的“写真”,仔细一看,总感觉像是把同一张脸生硬地“复制粘贴”到不同的身体上,缺乏真实感和自然感。

今天,CV君要和大家分享一项来自复旦大学和StepFun团队的最新研究成果——WithAnyone。这项工作直面“复制粘贴”这一痛点,提出了一套全新的解决方案,让AI在生成多人图像时,既能保证每个人的身份特征,又能实现丰富的变化和灵活的控制。

“WithAnyone”寓意着能够将任何人的身份(Anyone)自然、可控地融入任何新情境(With)的生成模型。

论文标题: WithAnyone: Towards Controllable and ID Consistent Image Generation

作者团队: Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

所属机构: 复旦大学, StepFun

论文地址: https://arxiv.org/abs/2510.14975

项目主页: https://doby-xu.github.io/WithAnyone/

代码仓库: https://github.com/Doby-Xu/WithAnyone

WithAnyone 效果示例“复制粘贴”的困境与破局之路

相信大家在玩各种AI绘画应用时都遇到过类似问题:想让AI画一个特定人物的不同生活照,结果发现AI只是机械地重复同一张面孔,无论换什么背景、摆什么姿势,脸部的光影、角度甚至微表情都一成不变。这种现象,研究者们称之为“复制粘贴”(Copy-Paste)伪影。

上图展示了现有方法在面对“一位金发女士,化着淡妆”这样的简单提示时,生成的图像(InstantID, PULID)与参考图(Input)过于相似,几乎是“复制粘贴”,而WithAnyone则能根据提示生成更自然、更多样化的结果。

导致这个问题的主要原因是,现有方法大多在训练时缺少高质量的“成对数据”——即同一个ID在不同情境下(不同姿势、表情、光照)的多张照片。因此,模型只能采用一种基于“重建”的训练方式,也就是让模型学习如何完美复现输入的参考图。这种训练方式虽然能提高“脸部相似度”,但本质上是让模型走了捷径,学会了“复制”,而不是真正理解和保留一个人的“身份ID”。

为了打破这种局面,WithAnyone团队从数据和算法两个层面进行了创新。

MultiID-2M:为ID一致性量身打造的大规模数据集

正所谓“工欲善其事,必先利其器”。要教会AI“神似”而非“形似”,首先需要一个强大的数据集。为此,团队构建了一个名为 MultiID-2M 的大规模成对数据集。

如上图所示,MultiID-2M的构建过程非常精细,分为四步:

收集和聚类单人ID数据:从网络收集大量单人图像,并基于人脸识别特征进行聚类,为每个ID建立一个丰富的参考图像库。

收集多人ID数据:通过特定关键词(如人名、场景)进行靶向搜索,收集包含多个ID的合影。

ID图像配对:将单人数据和多人数据中的人脸进行匹配,形成“(单人参考图,合影目标图)”这样的成对数据。

后处理:进行质量控制、美学评分和风格化处理,最终形成高质量的训练数据。

这个数据集包含了约200万张图像,其中有50万张是带有精确ID标注的成对多人图像,为模型学习“在变化中保持不变”提供了前所未有的丰富数据。

WithAnyone模型:对比学习与四阶段训练范式

有了高质量的数据,接下来就是算法的设计。WithAnyone模型的核心思想是,在训练中明确地告诉模型,哪些是“同一个人”,哪些是“不同的人”,从而引导模型学习到更鲁棒的身份表示。

核心架构与损失函数

WithAnyone的架构设计颇具巧思。对于每张参考人脸,模型会同时使用两种编码器:

人脸识别网络(Face-Recognition Network): 提取具有身份区分性的高层语义信号(即“这人是谁”)。

通用图像编码器(General Image Encoder): 捕捉补充性的中层特征(如发型、配饰等)。

在训练目标上,除了常规的扩散损失,WithAnyone引入了两个关键的ID损失函数:

GT对齐的ID损失(GT-aligned ID loss): 直接将生成图像的人脸与“真实目标图像”(Ground-Truth)的人脸进行比对,而不是与可能存在姿态、表情差异的“参考图像”比对。这避免了模型为了迁就参考图而产生“复制粘贴”。

对比身份损失(ID Contrastive Loss): 这是整个方法最核心的创新之一。它利用了MultiID-2M的成对数据,在训练时构建正负样本。简单来说,就是将“同一ID的不同照片”作为正样本,拉近它们的特征距离;将“不同ID的照片”作为负样本,推远它们的特征距离。通过这种方式,模型被“逼着”去学习那些真正能定义一个人身份的、跨越姿态和表情变化的核心特征。

四阶段训练流程

为了让模型稳定地学习,研究者设计了一个循序渐进的四阶段训练流程:

固定提示的重建预训练:初期使用固定的、简单的文本提示(如“两个人”)进行训练,让模型先专注于学习基本的ID注入能力。

带图文标题的重建预训练:引入更丰富的图文标题,使模型将ID学习与文本控制对齐。

成对数据微调(Paired Tuning):这是关键一步。将50%的训练数据换成MultiID-2M中的成对数据,迫使模型放弃“复制粘贴”的捷径,学习生成具有多样性的、身份一致的图像。

质量微调:最后在一个高质量的子集上进行微调,提升最终生成图像的质感和美学表现。

实验效果:显著优于现有方法

理论是算法的美好预期,实践才是算法的成功标准。WithAnyone的效果到底如何?

定量分析

研究团队建立了一个新的评测基准MultiID-Bench,专门用来衡量ID一致性生成中的两个关键指标:身份相似度(Sim(GT)) 和 复制粘贴程度(Copy-Paste)

从上表的单人生成结果可以看出,WithAnyone在保持高身份相似度(Sim(GT) 0.460)的同时,获得了极低的复制粘贴分数(CP 0.144),远优于InstantID、PuLID等主流方法。

这张权衡图(Trade-off)非常直观地展示了WithAnyone的优势。其他模型几乎都落在一个“高相似度必然导致高复制粘贴”的曲线上,而WithAnyone成功地打破了这一权衡,做到了“鱼与熊掌兼得”,实现了右上角(高相似度、低复制粘贴)的理想效果。

在多人生成任务上,WithAnyone同样表现出色。

定性对比

光看数字可能不够直观,让我们直接看图(这里被公众号处理过,最好是打开论文看原高清大图)。

无论是单人还是多人场景,WithAnyone(最右列)生成的图像都展现了极高的灵活性和控制力。当提示词要求人物有特定表情或动作时,其他模型往往无法摆脱参考图的束缚,而WithAnyone则能忠实地执行指令,生成表情自然、姿态多样的图像,同时精准地保持了每个人的身份特征。

更多示例可查看: https://doby-xu.github.io/WithAnyone/

用户研究

为了验证模型的真实表现,团队还进行了一项用户研究。结果显示,在身份相似度、复制粘贴抑制、提示词遵循度和美学质量等所有维度上,WithAnyone都获得了用户的最高评价。

社区反应

这篇工作放在arXiv上和开源不到三周,获得了github star 450+,Huggingface数据集tredning次页,也收到了推特上很多大V的转发(AK Huggingface paper daily)。

最近ComfyUI社区也有人注意到这项工作,制作了相关插件ComfyUI-WithAnyone,极大降低了社区爱好者的使用难度,可谓技术快速落地了。

总结

CV君认为,WithAnyone的成功,关键在于它抓住了问题的核心:要解决ID一致性,不能只在算法上“卷”,更要从数据源头入手。通过构建MultiID-2M这样一个高质量的成对数据集,并设计出与之匹配的对比身份损失,WithAnyone为ID一致性生成任务提供了一个非常扎实且有效的范式。

这项研究不仅为我们带来了一个强大的新模型,更重要的是,它为社区提供了一个宝贵的数据集和一个全新的评测基准,无疑将推动整个领域向着更可控、更真实、更实用的方向发展。作者已经开源了代码,感兴趣的朋友可以去项目主页一探究竟。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

WithAnyone AI图像生成 身份一致性 ID生成 深度学习 计算机视觉 AI image generation identity consistency ID generation deep learning computer vision
相关文章