PaperWeekly 09月02日
TokLIP:用CLIP语义赋能视觉Token,统一多模态理解与生成
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

腾讯ARC Lab联合多所高校机构提出的TokLIP,旨在解决多模态AI中理解与生成割裂的难题。它通过将CLIP的高层语义注入视觉Token,弥合了视觉Token与统一多模态理解生成之间的鸿沟。与现有方法相比,TokLIP仅需20%的训练数据便能在图像分类、图文检索和多模态理解等任务上达到SOTA水平。该框架保留了视觉Token的形式统一性,同时融入了CLIP的语义理解力,实现了高效且通用的多模态能力,为AI的视觉感知和表达提供了新思路。

💡 **语义化视觉Token:** TokLIP的核心创新在于利用CLIP的语义信息对图像进行离散化处理,使得每个视觉Token不仅包含底层结构信息,还被赋予了与语言对齐的高层语义。这使得模型可以直接处理带有语义标签的Token,显著提升了跨模态对齐和任务泛化能力,解决了传统视觉Token语义信息不足的问题。

🚀 **统一理解与生成:** 该框架成功地将擅长高层语义表示的CLIP与能够将图像离散化的视觉Tokenizer结合起来。通过这种方式,TokLIP在保持形式统一性的同时,融入了CLIP级别的语义理解力,打破了理解与生成能力相互割裂的瓶颈,实现了统一的多模态理解与生成。

📊 **高效的训练范式:** TokLIP采用了一种“轻量而统一”的训练范式,它通过直接将语义注入视觉Token,避免了对重构损失的依赖,降低了训练复杂度。同时,继承预训练的CLIP权重,使得模型在相同算力下能更快收敛,并取得了更优的性能,所需训练数据量远少于同类方案。

📈 **多任务性能卓越:** 实验结果表明,TokLIP在图像分类、图文检索任务上超越了现有离散语义方法和部分连续视觉编码器。当集成到多模态大语言模型(MLLM)中时,其语义Token能够无缝嵌入,显著提升了模型在问答和推理等下游任务上的准确性。此外,在自回归图像生成任务中,TokLIP也展现出更低的FID效果,证明语义信息有助于提升生成质量。

让你更懂AI的 2025-09-01 23:10 北京

理解 × 生成一次到位

腾讯 ARC Lab 联合中科院自动化所、香港城市大学、浙江大学等机构提出 TokLIP,在视觉 token 与统一多模态理解生成之间,架起了一座语义桥梁,训练数据量仅需同类方法的 20%,还可以在图像分类、图文检索和多模态理解等多项任务中达成 SOTA。

论文标题:

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation

论文地址:

https://arxiv.org/abs/2505.05422

论文代码:

https://github.com/TencentARC/TokLIP

模型权重:

https://huggingface.co/TencentARC/TokLIP

背景问题与研究动机

过去几年里,人工智能的发展已经从单一模态走向多模态。无论是图像、视频,还是文本,人们都希望机器能够像人类一样,既能“看懂”世界,也能“说清”所见。这背后的关键问题是:如何在同一个模型中实现统一的理解(comprehension)与生成(generation)能力

目前的自回归多模态大模型对图像的编码大多依赖两类核心部件。一类是视觉编码器(如 CLIP),它擅长把图像转化为高层语义表征,从而实现跨模态对齐,但是难以支持视觉生成任务。

另一类是视觉 tokenizer(如 VQ-VAE 系列),它能把图像离散化成 token,使其在形式上与文本一致,方便自回归 Transformer 联合建模。

比如 Emu3 和 Chameleon 采用了“全模态离散化”的方案,把图像、文本甚至其他模态统一转化为离散 token,交给大语言模型直接处理,这种方法在形式上实现了统一,但缺点在于:离散 token 包含的信息大多为图像底层特征,导致语义信息不足,统一训练的代价高昂,多模态理解任务性能受限。

另一方面,VILA-U 等工作则强调通过离散化 CLIP 特征来增强视觉理解,但往往在语义对齐与底层重建的统一之间产生冲突,加大训练损失的优化难度,可能出现“理解强但生成弱”或者“生成顺畅但语义模糊”的问题。

因此,多模态领域迫切需要一种新的方法,能够既保留视觉 tokenizer 的形式统一性,又融入 CLIP 级别的语义理解力,从而打破“理解与生成割裂”的瓶颈。

TokLIP的结构与核心设计

2.1 视觉Token语义化:让图像“能说话”

TokLIP 的关键创新在于引入 CLIP 的语义来对视觉 token 进行语义化处理。这意味着,图像被分解为的每一个离散 token,不仅携带底层结构信息,还被注入了与语言对齐的高层语义信息。

这样,后续的自回归模型不再面对“无意义的符号串”,而是直接处理带有语义标签的 token,从而在跨模态对齐和任务泛化能力上都显著提升。换句话说,TokLIP 让视觉 token 不再只是“图像的残片”,而是变成了“会说话的语义单元”。

2.2 TokLIP框架与训练流程

在模型架构上,TokLIP 采用了视觉 tokenizer 与 ViT-based token encoder 相结合的方式,并通过语义监督损失学习图像高层特征。

具体而言,图像先经过一个预先加载的 VQGAN 进行离散化编码,离散 Tokens 再通过一个 MLP 层被投影到从 CLIP 初始化的 ViT-based token encoder,得到高层语义特征后,我们使用蒸馏和对比学习的损失函数优化 MLP 层和 token encoder。

为了保证自回归生成任务的能力,我们使用了 Causal 的 Token encoder,保证自回归生成图像过程不存在信息泄漏。

与以往将连续图像高层特征离散化训练的方案不同,TokLIP 在训练过程中直接将语义注入到视觉 token 中,这种设计的好处在于:

这种“轻量而统一”的训练范式,使 TokLIP 在兼顾理解与生成能力的同时,降低了训练优化难度和资源需求,同时可以随着 VQGAN 和 CLIP 的技术更迭而得到进一步增强。

训练得到的 TokLIP 在嵌入 MLLM 的时候,我们会将 low-level 的 tokens 和 high-level 的 clip features 进行 concat 后,送入 MLLM 进行自回归编码,这样的架构设计在增强视觉 tokens 语义的前提下保证了离散化方案的统一理解生成能力。

实验效果

3.1 实验设置

TokLIP 基于 预训练 VQGAN,提供三种版本:TokLIP-B(256×256,VQGAN 来自 LlamaGen);TokLIP-L(384×384,同样来自 LlamaGen);TokLIP-XL(512×512,采用 IBQ,26 万 codebook)。

所有模型都用 16 倍下采样,encoder 初始化自 SigLIP2,并通过两层 MLP 将 VQGAN 特征映射到语义空间。训练数据涵盖 CapsFusion、CC12M、LAION-high-resolution,其中 TokLIP-B 额外加入 LAION400M 子集。

3.2 图像分类与图文检索任务

在图像分类与跨模态检索中,TokLIP 超越了 VILA-U、QLIP 等离散语义方法,并超过了部分连续的视觉编码器,证明语义化 VQ token 的有效性。更重要的是,TokLIP 所需训练数据远少于同类方案,却依然取得领先性能,展现出一种轻量而高效的解决路径。

3.3 多模态理解任务

当 TokLIP 被接入多模态大语言模型(MLLM)时,其语义 token 能无缝嵌入现有的语言建模框架。实验中,我们在常用的 7 个下游任务上进行了评估,结果表明:TokLIP 在离散化方案中取得了很有竞争力的结构,证明了 TokLIP 能够提供带有语义信息的输入,使得 MLLM 在问答与推理时更加准确。

3.4 自回归图像生成任务

在自回归生成(AR Generation)任务上,TokLIP 的语义化 token 在这一环节提供了语义信息,实验表明,TokLIP 比仅使用 VQGAN 在不同训练设置下都取得了更低的 FID 效果,证明了语义信息可以帮助生成任务。

结语

TokLIP 通过创新性地将语义化 VQ token 与 CLIP 级语义对齐相结合,为离散 tokens 注入高层语义,有效提升了离散化方案的理解与生成的能力。

凭借独特的架构设计和高效的数据利用,TokLIP 在分类、检索、MLLM 理解及自回归生成等多模态任务中均展现出优异表现。它为统一的理解与生成范式提供了一种轻量而高效的解决方案,也为未来多模态模型的发展开辟了新的方向。

目前,TokLIP 的模型和训练代码已经开源,欢迎大家使用评论,给我们的 GitHub 点个 star!

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

TokLIP 多模态AI 视觉Token CLIP AI理解 AI生成 腾讯ARC Lab 计算机视觉 自然语言处理 Multimodal AI Visual Tokens AI Understanding AI Generation Computer Vision Natural Language Processing
相关文章