index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
随着AI在各领域的广泛应用,海量视频数据的处理成为一个挑战。面向机器的视频压缩(VCM)应运而生,旨在为AI模型优化视频传输。然而,不同算法的评测标准不一,缺乏统一的衡量尺度。为此,研究者们联合推出了CompressAI-Vision开源平台,提供一个公平、可复现的评估框架,支持远程推理和分割推理两种主流场景。该平台被MPEG采纳为制定新一代“面向机器的特征编码(FCM)”标准的官方评估平台,旨在建立行业标准,加速AI视觉压缩技术的发展。
🎯 **统一评测标准,解决行业乱象**:CompressAI-Vision作为一个通用的开源跑分平台,旨在为面向机器的视频压缩(VCM)领域建立一套公平、可复现的评测标准。它通过提供一个统一的“擂台”,让各种压缩算法在相同的条件下进行比较,解决了当前领域因AI模型、数据集和评测标准不一而导致的“武林大会”式乱象,为技术选型和发展奠定了基础。
🚀 **支持两大核心场景,引领技术前沿**:该平台重点支持远程推理(压缩像素数据以供云端AI分析)和分割推理(终端设备提取中间特征并压缩传输,云端完成剩余AI模型运算)两种主流的机器视觉应用场景。特别是对分割推理的良好支持,使其成为压缩特征数据、实现更高效AI处理的关键工具,并已被MPEG采纳为制定新一代“面向机器的特征编码(FCM)”标准的官方评估平台。
🛠️ **灵活模块化架构,赋能研究创新**:CompressAI-Vision拥有灵活且模块化的架构设计,用户可以通过简单的YAML配置文件组合评测流水线。它支持多种数据集、多种主流视觉模型(如Faster R-CNN, YOLOX等)以及多种编解码器(包括传统视频编码和VCM/FCM参考软件)。这种高度的可插拔性和灵活性,极大地便利了研究者测试不同压缩方法在不同任务和模型下的性能表现。
📊 **量化性能对比,清晰呈现优劣**:平台的核心产出是“码率-精度”曲线,能够直观地展示不同压缩算法在特定任务上的性能。横轴代表压缩程度(码率),纵轴代表任务精度(如mAP、MOTA)。通过这些曲线,用户可以清晰地比较不同算法、不同编码标准甚至同一标准下不同编码器(如VTM vs. HM)的优劣,为技术决策提供坚实的数据支持,并展示了FCM和VCM相比传统远程推理的性能优势。
CV君 2025-09-28 12:12 江苏
AI看的视频怎么压?谁家技术强?这个开源平台给你一把标尺。

大家好!如今,从自动驾驶到安防监控,AI摄像头无处不在。一个随之而来的问题是:海量的视频数据,如果都原封不动地传到云端分析,带宽和成本谁顶得住?于是,一个新领域应运而生——面向机器的视频压缩(Video Coding for Machines, VCM)。
它的核心思想很简单:压缩视频,不再是为了给人眼看,而是为了给AI模型“看”。只要AI能看懂,任务能完成,画质差点没关系。但问题来了,A家的压缩算法说自己好,B家的也说自己牛,到底谁更胜一筹?由于大家用的AI模型、数据集、评测标准五花八门,整个领域就像一个“武林大会”,各派打法不一,没法公平比武。
为了解决这个乱局,来自InterDigital、国立韩巴大学(Hanbat National University)和佳能(Canon)的研究者们联手打造并开源了一个通用跑分平台——CompressAI-Vision。
论文标题: CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks作者: Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé机构: InterDigital,国立韩巴大学, 佳能论文地址: https://arxiv.org/abs/2509.20777项目地址: https://github.com/InterDigitalInc/CompressAI-VisionCompressAI-Vision:一个标准的“跑分平台”简单来说,CompressAI-Vision不是一个新的压缩算法,而是一个统一的、开源的评估框架。它提供了一个公平、可复现的“擂台”,让所有面向机器的压缩算法都能在同一个标准下比试高下。它的价值在于建立秩序和标准,而这对于一个新兴领域至关重要。
更厉害的是,这个平台已经被国际标准组织MPEG采纳,作为其制定新一代“面向机器的特征编码(Feature Coding for Machines, FCM)”标准的官方评估平台。这相当于官方盖章认证,其重要性不言而喻。
平台支持的关键场景CompressAI-Vision的设计考虑得非常周全,它主要支持两种最主流的“机器视觉”应用场景。
远程推理 (Remote Inference) :这是最常见的场景。终端设备(比如摄像头)将拍摄到的原始图像或视频进行压缩,然后通过网络传输到云端的服务器,由服务器上强大的AI模型进行分析(比如目标检测)。这种方式压缩的是像素数据。分割推理 (Split Inference) :这是一种更前沿、更高效的场景。终端设备不再是“傻瓜式”地压缩图像,而是会先运行AI模型的前几层,提取出关键的“中间特征(intermediate features)”。然后,它只压缩和传输这些特征(数据量通常比原始图像小得多),云端服务器接收到特征后,再运行模型的剩余部分,完成任务。这种方式压缩的是特征数据,也是FCM标准的核心。灵活且强大的平台架构CompressAI-Vision的架构设计得非常灵活和模块化,用户可以通过简单的YAML配置文件,像搭积木一样组合自己的评测流水线。

可插拔的组件:用户可以自由选择和替换评测的各个环节,包括:
数据集:支持多种公开数据集,如COCO, OpenImages, FLIR等。视觉模型:集成了多种主流的视觉模型,如Faster R-CNN, Mask R-CNN, YOLOX, RTMO等,覆盖目标检测、实例分割、姿态估计等多种任务。编解码器:不仅支持传统的视频编码标准(如AVC, HEVC, VVC),还支持正在开发中的VCM和FCM的参考软件。对分割推理的良好支持:平台预先定义了多种模型(如下表所示)的“分割点”,方便研究者测试在网络的不同深度上提取和压缩特征的效果。对于3D的特征张量,平台还提供了默认的“平铺(tiling)”方法,将其转换成2D图像序列,以便送入标准的视频编码器。
平台应用展示:用数据说话这篇论文的核心不是提出一个新算法并刷榜,而是展示CompressAI-Vision这个平台如何工作,以及它的价值。其中最重要的产出,就是“码率-精度”曲线(Rate-Accuracy Curve)。

上图就是典型的“码率-精度”曲线。横轴是码率(kbps),代表压缩程度;纵轴是任务精度(比如目标跟踪的MOTA或目标检测的mAP)。曲线越靠左上方,说明该压缩方法性能越好,因为它能用更低的码率(更小的文件)达到更高的任务精度。
通过这些曲线,研究者可以一目了然地比较不同算法的优劣。例如,上图就清晰地展示了在特定任务上,FCM和VCM的参考软件相比于传统的远程推理(只压缩像素)有明显的性能优势。
此外,平台还能用于对比不同编码标准(如下表所示),或同一标准下不同内部编码器(如VTM vs. HM)的性能差异,为技术选型和标准制定提供了坚实的数据支持。

总结与展望CV君认为,CompressAI-Vision的发布,是面向机器的视觉压缩领域一件里程碑式的大事。它就像是为这个新兴领域提供了一套标准的“度量衡”和“工具箱”。它的价值不在于一两个SOTA结果,而在于它为整个社区建立了一个公平竞争和合作创新的基础平台。
随着越来越多的AI应用走向端侧和边缘侧,如何高效地“压缩特征”而非“压缩像素”将变得越来越重要。CompressAI-Vision的出现,无疑将大大加速这一进程。
项目已经完全开源,并且被MPEG采纳,对视频编码和计算机视觉交叉领域感兴趣的同学,这绝对是一个宝藏项目!欢迎大家去GitHub上探索!
阅读原文
跳转微信打开