机器之心 09月22日 21:33
苹果发布ATOKEN:统一视觉表征迈出关键一步
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

苹果研究团队近期提出了ATOKEN,一个革命性的统一视觉分词器,旨在解决图像、视频和三维资产在AI研究中被割裂处理的痛点。ATOKEN能够在一个框架下统一处理这三种视觉模态,并同时实现高保真重建与语义理解。该技术采用纯Transformer架构,支持任意分辨率和时长输入,并通过无对抗训练目标和渐进式训练方法,在各类视觉任务上取得了业界领先的性能,标志着通用视觉表征的重大进展。

✨ **统一视觉模态处理**:ATOKEN是首个能在图像、视频和三维资产上实现统一处理的视觉分词器。它打破了传统上需要为不同视觉模态设计独立模型和分词器的限制,将它们编码到共享的四维潜在空间中,从而实现跨模态的泛化能力,为构建通用视觉表征奠定基础。

🏗️ **高保真重建与语义理解并存**:与现有仅专注于单一任务的分词器不同,ATOKEN在统一框架下同时实现了高保真重建和强大的语义理解能力。通过优化的训练目标(如感知损失和Gram矩阵损失)以及专门设计的Transformer架构,它能在大幅压缩下保持精细的图像细节,并有效捕捉视频和三维数据的时空语义信息。

📈 **渐进式训练与性能提升**:ATOKEN采用了创新的四阶段渐进式训练方法,从单张图像逐步扩展到视频和三维资产。研究发现,这种多模态的联合训练不仅不会削弱单一模态的性能,反而能够相互增强,从而在图像、视频和三维资产的重建及语义理解任务上均取得了业界领先或高度竞争力的结果。

🚀 **赋能下游应用**:ATOKEN的统一视觉表征能力使其能够支持广泛的下游AI应用,包括图像生成、文本生成视频、图像生成三维等生成任务,以及多模态大语言模型等理解任务。其在各类基准测试中的优异表现预示着下一代多模态AI系统正加速走向现实。

2025-09-22 18:24 北京

向通用的统一视觉表征迈进

机器之心报道

编辑:冷猫

苹果新品发售的热度还没消退,大家都在讨论新手机的硬件进化。

而在 AI 功能方面,苹果仍然没有拿出什么颠覆性的应用,Apple Intelligence 在国内仍然遥遥无期。

再叠加上近期苹果 AI 团队和硬件团队的人才流失,这一切似乎对苹果而言都不是太乐观。

虽说苹果在大模型领域上总是吃瘪,但说一个不冷不热的知识:苹果在计算机视觉领域的智能研究是其传统强项。

在构建和视觉相关的大模型时,有一个非常显著的痛点。视觉模态包含图像、视频和三维这三种,这些视觉模态具备不同是数据维度和表征方式,在研究中几乎不可避免的需要分开处理,使得视觉模型被拆分为三个相不互通的研究领域,难以实现视觉领域的统一泛化。

但大语言模型却已经通过统一的分词方案展现出了强大的泛化能力。

然而,视觉 AI 仍然呈现出割裂状,不同任务与模态依赖专门化的模型:图像、视频和三维资产通常需要独立的分词器,这些分词器往往只在 高保真重建 或 语义理解 其中之一上进行优化,而极少兼顾二者。

为此,Apple 研究团队提出了 ATOKEN(A Unified Tokenizer for Vision) ,针对这一核心局限,提出了首个能够在所有主要视觉模态上进行统一处理的视觉分词器,并同时兼顾重建质量与语义理解。

这一成果标志着朝着创建具备 通用性与泛化能力的视觉表征 迈出了重要一步。

AToken 是首个在图像、视频和三维资产上同时实现高保真重建与语义理解的统一视觉分词器。与现有仅针对单一模态、专注于重建或理解的分词器不同,AToken 将多样化的视觉输入编码到共享的 四维潜在空间 中,在单一框架下统一了任务与模态。

具体而言,研究团队引入了 纯 Transformer 架构,并采用 四维旋转位置嵌入 来处理任意分辨率与时长的视觉输入。为确保训练稳定性,研究团队提出了一种 无对抗的训练目标,结合感知损失与 Gram 矩阵损失,实现了最先进的重建质量。同时,通过 渐进式训练,AToken 从单张图像逐步扩展到视频和三维资产,并支持 连续与离散潜在 token。

ATOKEN 在图像、视频和三维资产上实现了统一分词,通过共享的四维表示同时支持 高保真重建 与 语义理解任务。

核心创新:统一四维表示

ATOKEN 的核心创新在于提出了一个共享的稀疏 4D 潜在空间,将所有视觉模态表示为 特征–坐标对集合:

在这种表示下:

这种稀疏表示能够优雅地处理 任意分辨率与时序长度,并在单一架构下实现对多样化视觉格式的原生处理。基于这一统一潜在表示,系统分别导出两个投影:用于 重建任务的 z_r 和用于 语义理解的 z_s,并可选用 有限标量量化(FSQ) 以支持离散分词。

Transformer 架构

ATOKEN 架构采用稀疏 Transformer 编码器 - 解码器,具有 4D RoPE 定位、无对抗训练和用于重建与理解的双目标优化。

ATOKEN 采用纯 Transformer 架构,超越了传统的卷积方法。该系统利用:

渐进式训练

四阶段的渐进式训练课程逐步构建模型能力,并证明多模态学习不仅不会削弱单一模态性能,反而能够增强。

ATOKEN 采用了精心设计的 四阶段训练课程:

这一渐进式训练方法揭示了一个关键结论:多模态训练会增强而非削弱单一模态性能,这与传统上关于多目标学习中 「任务干扰」 的普遍认知相反。

实验结果与性能

ATOKEN 在各类评测指标上均表现出 业界领先或高度竞争力:

图像分词(Image Tokenization)

ATOKEN 在大幅压缩比下仍能保持高质量图像重建,保留了精细的纹理、细节与文字清晰度。

视频处理(Video Processing)

视频重建保持了与专用方法相当的时间一致性与运动流畅性,同时支持任意长度的视频序列。

三维资产处理(3D Asset Handling)

图 7:3D 重建在颜色一致性上优于专用方法,这得益于 ATOKEN 在图像与视频训练中学到的跨模态颜色理解能力。

在下游应用中,AToken 同时支持生成任务(如基于连续与离散 token 的图像生成、文本生成视频、图像生成三维)和理解任务(如多模态大语言模型),并在各类基准上取得了有竞争力的性能。

这些结果表明,基于统一视觉分词的下一代多模态 AI 系统正逐渐成为现实。

更多细节,请参阅原论文。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ATOKEN 统一视觉表征 计算机视觉 AI 苹果 Transformer 多模态学习 Unified Vision Representation Computer Vision Artificial Intelligence Apple Multimodal Learning
相关文章