我爱计算机视觉 08月18日
ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

为解决现有视频-文本预训练模型依赖高延迟Vision Transformer(ViT)架构,难以在手机等移动设备上部署的问题,南京大学、蚂蚁集团和上海人工智能实验室的研究者们联合开发了MobileViCLIP。该模型通过对高效图像模型MobileCLIP进行巧妙的时序改造,注入时空RepMixer和时空注意力机制,实现了在移动设备上比现有SOTA模型快数十倍的推理速度,同时保持了强大的零样本检索和分类能力。MobileViCLIP的出现填补了高效端侧视频-文本预训练模型的空白,为在移动设备上部署多模态AI应用扫清了性能障碍,是模型效率优化领域的重要范例。

💡 MobileViCLIP:一款专为移动设备设计的高效视频-文本模型,旨在解决现有模型在手机等终端部署困难的问题。它通过对已有的高效图像-文本模型(MobileCLIP)进行改造,注入时序建模能力,成功实现了速度与性能的卓越平衡。

⚙️ 核心改造技术:模型通过引入“时空RepMixer”和“时空注意力”两个巧妙的模块化设计,为MobileCLIP的图像编码器增加了时序理解能力。时空RepMixer通过结构重参数化技术融合1D深度可分离卷积,在不增加推理耗时和参数量的情况下捕捉时序信息;时空注意力则通过添加时序位置编码,使注意力机制能理解帧的顺序和长距离时间关系。

🚀 速度与性能的飞跃:在移动设备上,MobileViCLIP的推理速度比现有SOTA模型快数十倍,例如MobileViCLIP-Small比InternVideo2-L14快55.4倍。同时,它在视频检索和零样本动作识别等任务上,展现出与重量级模型相当甚至更优的性能,实现了“又快又好”。

🌟 推动端侧AI发展:MobileViCLIP的成功为在手机、AR/VR眼镜等移动设备上部署更强大的视频理解、视频搜索、人机交互等多模态AI应用提供了关键的技术支撑,是模型效率优化和端侧AI发展的重要里程碑。

CV君 2025-08-18 13:17 江苏

代码将开源

关注公众号,发现CV技术之美

视频-文本预训练模型(如Video-CLIP)在视频搜索、分类和理解等任务上取得了巨大成功,但这些强大的模型几乎无一例外地基于庞大而高延迟的Vision Transformer(ViT)架构,使其难以在手机等移动设备上部署和运行。当我们在手机上享受流畅的短视频体验时,背后复杂的AI理解和检索任务却始终被“云端”高昂的计算成本所限制。

为了打破这一瓶颈,让强大的视频-文本理解能力真正走向终端,来自南京大学、蚂蚁集团和上海人工智能实验室的研究者们,共同开发了一款名为 MobileViCLIP 的高效视频-文本模型。该模型巧妙地在速度和性能之间取得了前所未有的平衡,在移动设备上的推理速度比现有SOTA模型快数十倍,同时保持了极具竞争力的零样本检索和分类能力,为在移动端部署强大的多模态AI应用探索出了可行的道路。

论文基本信息

论文标题: MobileViCLIP: An Efficient Video-Text Model for Mobile Devices

作者: Min Yang, Zihan Jia, Zhilin Dai, 等

机构: 南京大学,蚂蚁集团,上海人工智能实验室

论文地址: https://arxiv.org/abs/2508.07312

代码仓库: https://github.com/MCG-NJU/MobileViCLIP

录用会议: ICCV 2025

核心思想:从高效图像模型到高效视频模型

从头开始设计一个高效的视频-文本模型是极其困难的。研究者们另辟蹊径,提出了一条更聪明的路径:从一个已经非常高效的图像-文本模型(MobileCLIP)出发,通过最小化、最高效的改造,将其“升级”为视频模型。

如上图所示,整个改造过程的核心是为MobileCLIP的图像编码器注入时序建模能力,而这种注入是通过两个巧妙的模块化设计完成的:

1. 时空RepMixer (Spatiotemporal RepMixer)

MobileCLIP中的RepMixer模块原本只在空间维度上混合信息。研究者通过在其中加入一个1D深度可分离卷积来沿时间维度对特征进行建模。最关键的是,这个新增的1D卷积层采用了结构重参数化(structural reparameterization)技术,这意味着在推理时,它可以被数学上等效地融合进前面的卷积层中,从而在不增加任何推理耗时和参数量的情况下,为模型赋予了宝贵的时序信息捕捉能力。

2. 时空注意力 (Spatiotemporal Attention)

对于模型中的注意力模块,改造同样轻巧。研究者仅仅通过添加可学习的时序位置编码(Temporal Positional Embeddings, TPE),就使得原本只处理空间信息的注意力机制能够理解帧的顺序和长距离时间关系,从而升级为时空注意力。

通过这两个“微创手术”,MobileViCLIP成功地将一个高效的图像编码器转化为了一个高效的视频编码器,并随后在千万级的大规模视频-文本数据集InternVid上进行微调,使其具备了强大的视频理解能力。

实验结果:速度与精度的极致平衡

MobileViCLIP的性能表现堪称惊艳,完美地诠释了什么叫“又快又好”。

速度与性能对比

下图直观地展示了MobileViCLIP在速度-性能权衡上的巨大优势。在移动设备(iPad Air 2020)上,MobileViCLIP-Small的推理速度是强大的InternVideo2-L14的55.4倍,是InternVideo2-S14的6.7倍。在速度大幅领先的同时,其在MSR-VTT视频检索任务上的R@1分数与InternVideo2-L14相当,并显著优于InternVideo2-S14。

零样本与微调任务表现

在多个视频-文本检索和零样本动作识别任务上,MobileViCLIP均表现出色,以极低的延迟实现了与重量级模型相媲美甚至更优的性能。

零样本视频检索结果:

零样本动作识别结果:

此外,该模型作为特征提取器,在视频高光检测、时序动作定位等更复杂的下游任务中,同样展现了强大的能力。

消融研究

消融实验证明,论文提出的时空RepMixer和时空注意力两个模块对于模型的性能提升都至关重要。

总结与贡献

MobileViCLIP的出现,成功地填补了高效端侧视频-文本预训练模型的空白。其核心贡献在于:

    提出高效的视频-文本架构: 通过对高效图像-文本模型进行巧妙的、可重参数化的时序改造,首次实现了一款专为移动设备设计的高性能视频-文本模型。

    实现极致的速能均衡: 在移动设备上实现了数十倍于现有SOTA模型的推理速度,同时保持了极具竞争力的零样本理解和检索能力。

    推动端侧多模态AI发展: 该工作为在手机、AR/VR眼镜等移动设备上部署更强大的视频理解、视频搜索、人机交互等多模态AI应用扫清了关键的性能障碍。

CV君认为,MobileViCLIP是模型效率优化领域的一个杰出范例。它所展示的“从高效图像模型出发,通过可重参数化进行时序升级”的设计哲学,对于未来开发更多轻量化、多模态的端侧AI模型具有重要的指导意义。

了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、分享、收藏、评论。

END

欢迎加入「MLLM交流群👇备注:LLM

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MobileViCLIP 视频-文本模型 移动端AI 模型效率
相关文章