机器之心 10月28日 23:25
视觉基础模型驱动的新型图像 Tokenizer
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了一种名为 VFMTok 的新型视觉 Tokenizer,它利用冻结的预训练视觉基础模型(VFMs)来构建,旨在解决传统 Tokenizer 在图像生成中存在的低层细节丰富但高层语义信息不足、潜在空间冗余以及对 CFG 依赖等问题。VFMTok 通过多层特征提取、区域自适应量化和语义重建目标,实现了更高效、高质量的图像重建和自回归图像生成。实验表明,VFMTok 相比传统方法,在重建质量、生成速度和 CFG-free 性能上均有显著提升,为构建下一代 Tokenizer 提供了新思路。

💡 **VFMTok 创新性地利用冻结的预训练视觉基础模型 (VFMs) 构建 Tokenizer**:与传统从零开始训练的 Tokenizer 不同,VFMTok 采用已具备丰富语义理解能力的 VFM 作为编码器,直接提取图像特征。这一方法有效克服了传统 Tokenizer 仅侧重低层细节而缺乏高层语义信息的弊端,为图像生成任务提供了更鲁棒的表征基础。实验表明,仅使用冻结 VFM 作为编码器,其线性探针准确率就远超传统 VQGAN。

🧩 **区域自适应量化 (Region-Adaptive Quantization) 提升效率与质量**:针对图像中物体形状不规则导致的 Tokenizer 冗余问题,VFMTok 设计了区域自适应量化方案。通过可学习的锚点查询和可变形注意力机制,VFMTok 能够聚焦于图像中模式一致的区域进行特征采样,并对这些区域进行量化。这种方法显著降低了潜在特征空间的冗余度,使得可以用更少的 Token(256 个)来表征一张图像,同时提升了重建质量和码本利用率。

✨ **语义重建目标 (Semantic Reconstruction Objective) 增强语义保真度**:由于 VFM 参数在 Tokenizer 训练阶段被冻结,VFMTok 设计了一个共享的轻量级 Vision Transformer (ViT) 来同时进行图像重建和 VFM 语义特征重建。通过一个双重目标函数,VFMTok 确保了生成图像的语义一致性,使得模型在无需 CFG 的情况下也能实现高保真度的图像生成,显著减少了推理时间,并提升了生成性能。

🚀 **卓越的性能表现与效率提升**:VFMTok 在图像重建和自回归图像生成任务上均展现出优异的性能。它不仅能用更少的 Token 实现更好的重建质量和更快的训练收敛速度(提升 3 倍),还能在参数量和训练迭代次数更少的情况下超越同类 SOTA 模型。尤其值得注意的是,VFMTok 在有无 CFG 下性能几乎一致,证明了其潜在空间的语义一致性,从而实现了约 4 倍的推理速度提升。


视觉 Tokenizer 的困境与破局


近年来,自回归(Autoregressive, AR)模型在语言生成领域的成功激发了其在图像生成领域的应用,涌现出 DALL-E、Parti、VAR 和 LlamaGen 等代表性工作。这类技术高度依赖于 VQGAN 等视觉 Tokenizer,它负责将高维、冗余的像素空间映射到一个低维、紧凑的离散潜在空间,是决定生成模型上限的基石。


然而,以 VQGAN 为代表的传统 Tokenizer 通常需要从零开始训练,其训练目标由像素级重建损失函数主导,导致其产生的潜在空间:


    富含低层细节特征却缺乏高层语义信息:能很好地还原图像细节,但潜在编码本身缺乏高层语义信息。

    较高的潜在空间冗余: VAGAN 基于图像块 (patch) 逐一进行量化,而图像中的物体通常是不规则的区域,基于图像块的量化降低了 tokens 的编码效率。

    无视结构特性的表征:潜在空间的组织较为混乱,使得生成模型不仅需要更长的训练时间来学习其潜在空间分布,而且往往得借助 CFG(Classifier-Free Guidance, CFG)等技巧来实现高保真度的图像生成,增加了模型推理时间。


与此同时,预训练的视觉基础模型(Visual Foundation Models, VFMs),如 CLIP、DINOv2、SigLIP2 等,在提取丰富语义且可泛化视觉特征方面表现出了强大的能力。这些模型通过自监督或语言监督的方式进行训练,它们能够有效抽象出图像中的高层语义信息,因此这些预训练的视觉基础模型大多应用于图像内容理解任务当中。直接将其应用于图像重建和生成任务上却鲜有人探索。


基于此,香港大学 CVMI Lab 和阶跃星辰 AIGC 团队提出一个大胆假设:原本为视觉理解任务设计的预训练视觉基础模型,其潜在特征是否也能直接作为图像重建与生成的鲁棒结构化表征?


为了验证这一猜想,我们探索了一个基础视觉模型新的应用新方向:用冻结的预训练视觉基础模型构造离散的视觉 Tokenizer,将其应用于图像重建和自回归图像生成任务上。


我们发现,相比于传统的视觉 Tokenizer 模型,视觉基础模型驱动的图像 Tokenizer 在这两项任务上均表现出优异的性能。



    论文标题: Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation

    论文地址:  https://arxiv.org/pdf/2507.08441

    Huggingface: https://huggingface.co/papers/2507.08441

    Github: 

    https://github.com/CVMI-Lab/VFMTok.git (Vanilla version)

    https://github.com/CVMI-Lab/VFMTok-RAR.git (Ultra version)


探索性发现


为了验证视觉基础模型 (VFMs) 能否构造高质量的视觉 Tokenizer,我们首次尝试使用不同的冻结的预训练基础视觉模型 (VFMs) 提取图像特征,将其送入 VQGAN 的编码器中进行端到端训练。训练阶段只有量化器(quantilizer)和解码器中的参数会进行更新,随后用它完成自回归图像生成任务。


实验表明:冻结的视觉基础模型 (VFMs) 提取的图像特征可以直接用于图像重建,且训练好的视觉 Tokenizer 在自回归图像生成任务上的表现优于传统的视觉 Tokenizer 模型。


这一发现凸显了预训练视觉基础模型 (VFMs) 构造高质量视觉 Tokenizer 的巨大潜力。



核心思想


基于我们的探索性发现:冻结的视觉基础模型 (VFMs) 可以直接构造高质量的视觉 Tokenizer 并进行端到端地训练,我们对构造的视觉 Tokenizer 的结构进行进一步的优化 —— 利用视觉基础模型 (VFMs) 提取图像的多层特征 (Multi-level Features Extraction),这有助于同时捕获图像中的低层细节特征和高层语义信息。


同时,我们注意到现有的量化机制 (quantization) 都是对图像块 (patch) 逐一量化,而图像中物体一般都是形状不规则的,因此我们设计了区域自适应的量化 (Region-Adaptive Quantization) 方案。该方案可以进一步降低潜在特征空间的冗余度,提高视觉 tokens 的利用效率。


此外,因为视觉基础模型的参数是冻结的,因此在重建图像内容的同时,我们也设计了语义特征重建的目标函数 (Semantic Reconstruction Objective),来提升视觉 Tokenizer 的语义保真度。我们将基于视觉基础模型 (VFMs) 的 Tokenizer 称之为 VFMTok。


VFMTok 架构图


关键技术细节


    多层图像特征提取 (Multi-level Features Extraction)

为了同时捕获图像低层细节特征和高层语义信息方便图像重建,VFMTok 采用冻结的预训练的视觉基础模型 (VFMs) 作为编码器提取多层级语义特征。VFMTok 按照等间隔的方式从预训练基础模型 (VFMs) 中提取多层特征 (multi-level features)。


    区域自适应量化 (Region-Adaptive Quantization)

为了实现区域自适应量化 (Region-Adaptive Quantization) 机制,VFMTok 通过可学习「锚点查询」(Anchor Queries)结合可变形注意力机制(Deformable Attention)自适应地从多层级特征 (multi-level features) 中进行区域自适应的特征采样 (Region-Adaptive Sampling)。


这种方式能聚焦于采样图像中模式一致的区域。随后,VFMToks 对可学习「锚点查询」(Anchor Queries)进行量化 (quantization)。这种方式可以有效提升 token 的利用效率 —— 用更少的 tokens(256)来表征一张图像。



    语义重建目标(Semantic Reconstruction Objective)

因为视觉基础模型在 Tokenizer 的训练阶段参数是冻结的,因此 VFMTok 在重建图像的同时,也会重建冻结的基础模型(VFM)最后一层的语义特征。


为了实现这一点,VFMTok 解码阶段设计了一个共享的轻量级 Vision Transformer(ViT)。这个 ViT 接收区域自适应量化后的 tokens,结合一个可学习的 mask token 以及一组可学习的位置编码(Positional Embedding)作为输入,分别产生用于图像重建和语义重建的特征。共享 ViT 的设计既减少了参数量又保证了语义保真度。其双重目标函数是:



其中  是传统的视觉 Tokenizer 使用的一系列常规损失函数, 是重建出的 VFM 特征与原始 VFM 特征之间的余弦相似度损失函数。


训练完成后,VFMTok 可以被应用于图像自适应回归任务上,基于 next-token prediction 的方式生成高质量的图像内容。


实验亮点与分析


1.卓越的重建生成质量与效率

大量实验表明,基于视觉基础模型 (VFMs) 构造的视觉 Tokenizer——VFMTok,具备高质量、高效率的图像重建和自回归图像生成能力。


    更好的图像重建质量:相较于传统的视觉 Tokenizer,VFMTok 可以用更少的 token 数量(仅用 256 个)实现更优的重建质量(0.89 rFID, 215.4 rIS)和更高的码本利用率 (100%),超越了之前大部分传统的离散 Tokenizers。



    更快的生成训练收敛速度:相比于经典的 VQGAN 这类 Tokenizer,VFMTok 能够显著提升自回归模型训练阶段的收敛速度 —— 训练收敛速度提升了 3 倍。



    更好的生成性能:在 ImageNet 256x256 的 class-to-image 生成任务上,VFMTok-1.4B 模型在参数量更少、训练迭代次数更少的情况下,自回归生成性能超越了同类 LlamaGen-3B。此外,在接入更好的自回归图像生成框架 RAR 后,实现了 SOTA 的图像生成性能(gFID: 1.36)。



    CFG-free 优越性:值得注意的是,VFMTok 在有无 CFG 的情况下性能几乎一致(gFID: 2.07 vs 2.04),而 LlamaGen 则会从 2.19 急剧恶化至 9.38。这证明了其潜在空间具有极强的语义一致性,无需 CFG 即可实现高保真度的 class-to-image 图像生成,可以进一步减少图像生成时间。


    更快的推理速度:由于 tokens 数量减半(256 vs. 576),自回归模型的生成过程长度减半,推理速度因此获得了约 4 倍的提升。


2.消融实验的有力证明

仅使用冻结的 VFM 作为编码器,线性探针准确率(linear probing)就从 VQGAN 的 23.1% 提升至 56.4%。引入区域自适应量化 (Region-Adaptive Quantization) 和语义特征重建 (Semantic Reconstruction Objective) 后,VFMTok 仅用 256 个 Token 就能在重建质量(rFID 0.89 vs 0.95) 上全面超越使用 576 个 Token 的 VQGAN 基线 Tokenizer。



总结与展望


VFMTok 首次证明了冻结的视觉基础模型 (VFMs) 提取的图像特征能有效用于图像重建与生成,同时可以提升 Tokenizer 语义表征能力,使自回归 (AR) 图像生成模型收敛更快,并能实现 CFG-free 的高保真图像合成。VFMTok 提出的区域自适应量化机制,通过有效利用图像区域的固有冗余实现紧凑编码,在减少视觉 token 数量的同时提升性能,实现高效且高质量的自回归图像生成。


大量实验验证了 VFMTok 在图像重建和自回归生成中的有效性,确立了预训练视觉基础模型 (VFMs) 构造高质量、高效率 Tokenizer 的主导地位。


由此可见,利用 VFM 的先验知识是构建高质量潜在空间的必由之路,也是构建下一代 Tokenizer 的关键,这比任何从零开始的正则化或约束都更根本、更有效。预训练视觉基础模型的巨大潜力值得我们在未来深入挖掘,最终可能探索出一个能够有效兼容所有生成模型的、语义丰富、高质高效的「统一 Tokenizer」。


VFMTok 论文与代码均已公开,欢迎感兴趣的同学阅读、复现以及深入讨论。


作者介绍


本文作者主要来自于香港大学 CVMI Lab 和阶跃星辰 AIGC 团队。阶跃星辰 AIGC 团队主要致力于图像生成底模、图像编辑底模、世界模型以及 RL 后训练研究和落地。欢迎志同道合的同学交流和加入,一起为 AIGC 社区贡献力量。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

VFMTok 视觉基础模型 图像生成 Tokenizer 自回归模型 视觉基础模型 Region-Adaptive Quantization Semantic Reconstruction CFG-free Visual Foundation Models Image Generation Autoregressive Models
相关文章