我爱计算机视觉 10月29日 17:05
UniLiP:统一多模态理解、生成与编辑的CLIP新适配
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

UniLiP模型巧妙解决了多模态理解和重建之间的权衡难题。通过创新的两阶段自蒸馏训练,它不仅在保持CLIP强大的语义理解能力的同时,实现了高质量的图像无损重建,还通过双条件架构增强了生成和编辑任务的精度。UniLiP能够无缝集成到大型多模态模型中,并在多个基准测试中以更少参数量超越现有SOTA模型,为统一多模态模型提供了新的范式。

💡 **无损重建与语义保留的统一**:UniLiP通过独特两阶段自蒸馏训练,解决了CLIP特征在用于重建时易丢失细节、导致理解能力下降的问题。第一阶段对解码器进行对齐,学习从CLIP特征重建图像;第二阶段则微调CLIP,利用自蒸馏约束其特征,在注入像素细节的同时保留原有语义,实现了理解性能不降反增,完美兼顾了高级语义与像素细节。

🚀 **双条件编辑架构提升精度**:为克服传统方法在图像编辑中信息瓶颈导致的细节退化或不一致问题,UniLiP引入了双条件架构。它结合了大型多模态模型的隐变量(保留图像细节)和查询嵌入(激发推理能力),将复杂任务解耦。MLLM专注于高级推理,扩散模型DiT则基于这些丰富线索进行高保真度图像合成,确保了编辑任务的高度一致性与精确性。

🏆 **SOTA性能与高效参数**:UniLiP在图像生成(GenEval, WISE)和图像编辑(ImgEdit)等多个基准测试中展现出卓越性能。以更少的模型参数量,它超越了BAGEL等更大模型,达到了行业领先水平。无论是生成美观且紧密遵循提示的图像,还是在编辑时保持非编辑区域的一致性,UniLiP均表现出色,显示了其作为统一多模态模型的强大潜力。

🧩 **无缝集成与模型灵活性**:UniLiP设计灵活,可直接替换现有MLLM(如InternVL)中的CLIP模块,且不损失甚至略微提升其理解性能。其1B和3B版本分别基于InternVL和SANA集成,采用InternViT作为视觉编码器,像素解码器来自DC-AE,训练数据完全开源,展示了其广泛的应用前景和易于集成性。

52CV 2025-10-28 16:24 江苏

论文标题:UniLiP: Adapting CLIP for Unified Multimodal Understanding, Generation and Editing

论文地址:https://www.arxiv.org/pdf/2507.23278

项目地址:https://github.com/nnnth/UniLIP

模型地址:https://huggingface.co/kanashi6/UniLIP-3B

🌍 背景:视觉表征中理解和重建的权衡

统一的多模态模型需同时具备丰富的语义(用于理解)和精细的细节(用于生成/编辑)。像VAE这样的早期方法,因其特征缺少语义,导致理解性能较差 。目前统一编码器多基于类似CLIP的语义编码器构建,但它们普遍面临一个理解与重建性能之间的权衡挑战 :

直接量化并重建CLIP特征,会削弱其原有的强大理解能力 。

冻结的CLIP训练解码器,则因特征细节丢失导致重建质量低下,难以支持编辑 。例如,近期的RAE模型使用冻结的DINOv2进行重建,其重建PSNR仅达到了19.23 。

为应对这一挑战,UniLIP采用两阶段训练及自蒸馏损失策略 。该方法使其在实现高质量图像重建的同时,能完整保留CLIP原有的语义理解性能,成为一个强大的统一编码器,在生成和编辑任务上表现突出 。

动机🚀 亮点无损重建训练:UniLIP提出新颖的两阶段自蒸馏方案,赋予CLIP高质量图像重建能力(压缩,PSNR ),同时保持其卓越的理解能力 8。UniLIP可直接替换MLLM(如InternVL)中的CLIP模块,保持甚至略微提升理解性能 。

双条件编辑架构:与RAE仅在ImageNet上实验不同,UniLIP进行了大规模生成和编辑训练 。为实现精准编辑,UniLIP设计了双条件架构,同时利用大模型的隐变量(保留图像细节)和查询嵌入(激发推理能力),确保编辑任务的高度一致性 。

SOTA性能:UniLIP以更少的参数量() 12在GenEval ()、WISE () 和 ImgEdit () 等多个生成和编辑基准上超越了BAGEL()等更大模型 13。

🧠 方法CLIP重建训练,理解不降反增重建训练

为解决CLIP特征细节缺失导致的重建模糊问题,UniLIP提出创新的两阶段训练方案。该方案基于一个包含 CLIP、像素解码器及投影层的自编码器架构。

第一阶段:解码器对齐。 此阶段冻结 CLIP,仅训练像素解码器和投影层,使其学习从固定的 CLIP 特征中重建图像。训练目标为:

其中  代表像素级重建损失, 代表使用LPIPS度量计算的感知损失。

第二阶段:自蒸馏微调。 由于原始 CLIP 特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将共同训练 CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:

其中  是蒸馏损失的权重, 表示原始CLIP特征, 是微调后的CLIP特征。UniLIP经验性地发现将  设为1就足够了。

该方案克服了语义理解与像素重建的权衡(如下表所示,理解性能不降反增),实现了高保真压缩和完备的特征表示(兼具高级语义与像素细节) 。

基线理解用于图像生成和编辑的双条件架构双条件架构

UniLIP 借鉴了 MetaQuery 范式,但突破了其在图像编辑任务中的信息瓶颈。传统方法仅用固定数量的查询嵌入(Query Embeddings)连接 MLLM 与扩散模型,这在传递参考图像丰富的像素级细节时力不从心,常导致编辑结果细节退化或内容不一致。

为此,UniLIP提出了一种双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件 ,有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM 专注于高级推理和意图理解,DiT 则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。

💪 实验模型架构:无缝衔接MLLM

UniLIP包括1B和3B两个版本,分别基于InternVL3 (1B/2B) 与SANA (0.6B/1.6B) 集成 。视觉编码器采用InternViT,像素解码器来自DC-AE 。

训练数据:完全使用开源数据

UniLIP的生成数据来自BLIP3-o,包括38M的预训练数据和60k的指令微调数据。UniLIP的编辑预训练数据来自GPT-Image-Edit-1.5M,指令微调数据来自包含46K编辑数据的ShareGPT-4o-Image。

图像重建:远超Frozen CLIP重建性能

UniLIP在256x256分辨率下超越了对CLIP进行量化的方法 。在448x448分辨率下,由于打开CLIP进行重建训练,UniLIP显著优于使用扩散解码器的Emu2 。

多模态理解:完美保持InternVL性能理解性能

UniLIP可以直接替换InternVL的视觉编码器在理解基准上进行测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同规模最好的理解性能,并超越了采用量化CLIP特征的更大模型(如Tar 7B)

图像生成:小模型,SOTA性能生成性能

在GenEval (0.90) 和WISE (0.63) 图像生成基准上,UniLIP凭借卓越的文图对齐能力,不仅超越了同规模模型,还达到了与BAGEL等更大模型相当的水平。

图像编辑:精准编辑,超越更大模型编辑性能

在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了OmniGen2等先进模型。其强大性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征,确保了编辑的精确性和非编辑区的一致性。

可视化可视化

在生成任务中,UniLIP可以生成美观且紧密遵循用户提示的图像;而在编辑任务中,UniLIP可以在准确修改图像的同时保持周围区域的一致性。

🌟 总结

UniLIP通过精心设计的两阶段自蒸馏训练,有效解决了CLIP在统一模型中面临的语义理解与像素细节保留的矛盾 。其创新的双条件架构无缝连接了MLLM与扩散模型,确保了生成和编辑任务的高保真度与一致性,为下一代统一多模态模型提供了新范式 。

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

UniLiP CLIP 多模态学习 图像生成 图像编辑 自蒸馏 多模态理解 UniLiP CLIP Multimodal Learning Image Generation Image Editing Self-Distillation Multimodal Understanding
相关文章