AI视频压缩新标杆：CompressAI-Vision平台开源评测

我爱计算机视觉 09月28日 17:17

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

随着AI在各领域的广泛应用，海量视频数据的处理成为一个挑战。面向机器的视频压缩（VCM）应运而生，旨在为AI模型优化视频传输。然而，不同算法的评测标准不一，缺乏统一的衡量尺度。为此，研究者们联合推出了CompressAI-Vision开源平台，提供一个公平、可复现的评估框架，支持远程推理和分割推理两种主流场景。该平台被MPEG采纳为制定新一代“面向机器的特征编码（FCM）”标准的官方评估平台，旨在建立行业标准，加速AI视觉压缩技术的发展。

🎯 **统一评测标准，解决行业乱象**：CompressAI-Vision作为一个通用的开源跑分平台，旨在为面向机器的视频压缩（VCM）领域建立一套公平、可复现的评测标准。它通过提供一个统一的“擂台”，让各种压缩算法在相同的条件下进行比较，解决了当前领域因AI模型、数据集和评测标准不一而导致的“武林大会”式乱象，为技术选型和发展奠定了基础。

🚀 **支持两大核心场景，引领技术前沿**：该平台重点支持远程推理（压缩像素数据以供云端AI分析）和分割推理（终端设备提取中间特征并压缩传输，云端完成剩余AI模型运算）两种主流的机器视觉应用场景。特别是对分割推理的良好支持，使其成为压缩特征数据、实现更高效AI处理的关键工具，并已被MPEG采纳为制定新一代“面向机器的特征编码（FCM）”标准的官方评估平台。

🛠️ **灵活模块化架构，赋能研究创新**：CompressAI-Vision拥有灵活且模块化的架构设计，用户可以通过简单的YAML配置文件组合评测流水线。它支持多种数据集、多种主流视觉模型（如Faster R-CNN, YOLOX等）以及多种编解码器（包括传统视频编码和VCM/FCM参考软件）。这种高度的可插拔性和灵活性，极大地便利了研究者测试不同压缩方法在不同任务和模型下的性能表现。

📊 **量化性能对比，清晰呈现优劣**：平台的核心产出是“码率-精度”曲线，能够直观地展示不同压缩算法在特定任务上的性能。横轴代表压缩程度（码率），纵轴代表任务精度（如mAP、MOTA）。通过这些曲线，用户可以清晰地比较不同算法、不同编码标准甚至同一标准下不同编码器（如VTM vs. HM）的优劣，为技术决策提供坚实的数据支持，并展示了FCM和VCM相比传统远程推理的性能优势。

CV君 2025-09-28 12:12 江苏

AI看的视频怎么压？谁家技术强？这个开源平台给你一把标尺。

大家好！如今，从自动驾驶到安防监控，AI摄像头无处不在。一个随之而来的问题是：海量的视频数据，如果都原封不动地传到云端分析，带宽和成本谁顶得住？于是，一个新领域应运而生——面向机器的视频压缩（Video Coding for Machines, VCM）。

它的核心思想很简单：压缩视频，不再是为了给人眼看，而是为了给AI模型“看”。只要AI能看懂，任务能完成，画质差点没关系。但问题来了，A家的压缩算法说自己好，B家的也说自己牛，到底谁更胜一筹？由于大家用的AI模型、数据集、评测标准五花八门，整个领域就像一个“武林大会”，各派打法不一，没法公平比武。

为了解决这个乱局，来自InterDigital、国立韩巴大学（Hanbat National University）和佳能（Canon）的研究者们联手打造并开源了一个通用跑分平台——CompressAI-Vision。

论文标题: CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks

作者: Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé

机构: InterDigital,国立韩巴大学, 佳能

论文地址: https://arxiv.org/abs/2509.20777

项目地址: https://github.com/InterDigitalInc/CompressAI-Vision

CompressAI-Vision：一个标准的“跑分平台”

简单来说，CompressAI-Vision不是一个新的压缩算法，而是一个统一的、开源的评估框架。它提供了一个公平、可复现的“擂台”，让所有面向机器的压缩算法都能在同一个标准下比试高下。它的价值在于建立秩序和标准，而这对于一个新兴领域至关重要。

更厉害的是，这个平台已经被国际标准组织MPEG采纳，作为其制定新一代“面向机器的特征编码（Feature Coding for Machines, FCM）”标准的官方评估平台。这相当于官方盖章认证，其重要性不言而喻。

平台支持的关键场景

CompressAI-Vision的设计考虑得非常周全，它主要支持两种最主流的“机器视觉”应用场景。

远程推理 (Remote Inference) ：这是最常见的场景。终端设备（比如摄像头）将拍摄到的原始图像或视频进行压缩，然后通过网络传输到云端的服务器，由服务器上强大的AI模型进行分析（比如目标检测）。这种方式压缩的是像素数据。

分割推理 (Split Inference) ：这是一种更前沿、更高效的场景。终端设备不再是“傻瓜式”地压缩图像，而是会先运行AI模型的前几层，提取出关键的“中间特征（intermediate features）”。然后，它只压缩和传输这些特征（数据量通常比原始图像小得多），云端服务器接收到特征后，再运行模型的剩余部分，完成任务。这种方式压缩的是特征数据，也是FCM标准的核心。

灵活且强大的平台架构

CompressAI-Vision的架构设计得非常灵活和模块化，用户可以通过简单的YAML配置文件，像搭积木一样组合自己的评测流水线。

可插拔的组件：用户可以自由选择和替换评测的各个环节，包括：

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签