原创 52CV 2025-10-16 12:47 江苏
从“数据驱动”走向“知识驱动”,从“视觉空间”走向“语义空间”,从“黑盒检测”走向“可解释推理”,从“封闭世界”走向“开放世界”
如果你还在纠结视频异常检测任务如何预测/重建,如何设计MIL框架,那你可能错过了一次正在发生的范式迁徙:研究从视觉空间的边界学习,悄然转向语义空间的理解与推理。从深度神经网络(DNN)到多模态/大语言模型(MLLM/LLM),VAD不止在涨点,更在换脑。
作者团队的长文综述为这场迁徙搭建了一棵“统一分析框架树”,将SVAD/WVAD/UVAD等传统谱系与OSVAD/OVVAD/TVAD/ITVAD等新兴VAD任务汇于一图,系统梳理任务目标、输入模态、模型结构与优化策略。这是首个系统性梳理从传统深度学习到大模型时代VAD技术演进的综合性综述,为研究者提供了一幅完整的技术演进地图,也为从业者指明了技术选型与未来发展的方向。
统一框架:搭建理解VAD的思维地图面对VAD领域纷繁复杂的方法和技术路线,研究者往往感到困惑:半监督、弱监督、开放集、Training-free、指令微调……这些不同的范式之间究竟是什么关系?它们各自适用于什么场景?如何在它们之间做出选择?
为回答这些问题,该研究团队提出了一个创新性的统一分析框架,从五个维度来理解与比较所有VAD方法:任务形式、任务模态、输入模态、模型架构与优化策略。这个框架的独特之处在于,它不仅兼容传统的DNN方法,也能够自然容纳新兴的大模型方法,使研究者能够在一个统一坐标系中理解整个领域的技术图景
大模型如何改变游戏规则要理解大语言模型与多模态大模型为何能够给VAD带来革命性改变,需要回到一个根本性问题:人脑是如何识别异常的?当人类观察一个场景时,并非简单比对像素或特征向量,而是首先将视觉信息抽象为语义表示,然后在语义空间中运用常识与规则进行推理判断。这种基于语义空间的异常检测方法,具有高度的可解释性与泛化能力。
传统的DNN方法则采取了截然不同的路径。它们通常将标注信息从语义空间映射到视觉特征空间,然后在视觉空间中学习分类边界。这个过程存在两个根本性的局限:首先,人为预定义的映射规则受到标注信息偏见的影响,限制了模型的泛化能力;其次,对语义信息的隐式利用大大限制了模型的可解释性。这也是为什么传统方法往往在特定数据集上表现优异,但一旦应用到新场景就性能骤降的根本原因。
LLM和MLLM的出现,让VAD有可能回归到类似人脑的处理方式。这些大模型具备三个关键能力:首先,它们可以直接将视觉信号抽象为可理解的语义信息;其次,它们在预训练阶段已经获得了丰富的语义知识和常识推理能力;最后,它们支持通过提示词(prompt)进行无缝交互,无需额外的训练开销。这意味着,我们可以在语义空间中直接构建分类边界或进行异常识别,从而获得更好的泛化性和可解释性。
全景式的方法图谱基于该研究团队提出的统一框架,团队对VAD领域的主流方法进行了全面而深入的梳理,构建了一个清晰的技术图谱。该图谱不仅涵盖了传统DNN方法,也系统归纳了新兴大模型方法,为研究者提供一个“导航系统”。
在传统VAD方法类别中,半监督方法只使用正常样本进行训练,通过自监督学习(重建、预测、插值、拼图、对比学习、去噪)或单类分类(高斯分类器、对抗分类器、单类分类器)来学习正常模式边界。这类方法的优势在于标注成本低,但容易对训练场景过拟合,在新场景中产生较高误报率。弱监督方法使用视频级异常标签,通过多实例学习(MIL)框架在更强监督信号下学习,显著提升性能与场景适应能力,但需要收集异常样本且算法设计更为复杂。无监督方法则完全不依赖标注,让模型自主学习异常边界,理论上最为灵活,但实践中算法复杂且效果往往不如有监督方法。
对于每一类方法,作者团队都详细分析其核心范式、输入模态选择、模型架构设计与优化策略。例如,在半监督VAD中,总结了重建/预测、视频帧插值、拼图游戏、对比学习、去噪等多种自监督任务的设计思路、优缺点与适用场景;梳理了RGB、光流、骨架等不同输入模态在帧级、块级、对象级的使用方式;对比了自编码器、GAN、扩散模型、VLM等不同架构的特点;归纳了伪异常生成、记忆库、知识蒸馏等关键优化技术。在弱监督VAD中,区分了单阶段与两阶段MIL范式,分析了C3D、I3D、VideoSwin、CLIP等不同预训练模型的选择,总结了时空建模、知识蒸馏、度量学习、提示工程等在视觉与语义空间的优化策略。
对于每一种方法范式,团队不仅提供了技术原理的详细阐述,还给出了代表性工作的性能对比表格,便于读者直观了解不同方法在主流数据集上的表现。团队也坦诚指出各类方法的局限性:传统方法在简单数据集上已近饱和但泛化能力有限;开放世界方法在真正的新异常面前仍显不足;免训练方法受限于大模型的幻觉问题;指令微调方法则面临数据构建与计算成本的挑战。这种客观全面的分析,有助于研究者与从业者在技术选型时做出更明智的决策。
视频异常检测正站在一个激动人心的十字路口。从早期的手工特征工程,到深度学习的主导地位,再到如今大语言模型带来的范式革命,该领域在短短十几年间经历了三次重大的技术跃迁。当下正处于第三次跃迁的关键时刻——从“数据驱动”走向“知识驱动”,从“视觉空间”走向“语义空间”,从“黑盒检测”走向“可解释推理”,从“封闭世界”走向“开放世界”。
这场变革的意义不仅在于技术本身的进步,更在于其为VAD的实际应用开辟了全新的可能性。传统方法因标注成本高、泛化能力弱、可解释性差而难以大规模部署的困境,正在被大模型的强大能力逐步打破。未来的VAD系统将呈现多模态协同、深度语义理解、高效轻量、持续适应、人机协作的智能体形态——不仅能准确发现异常,还能解释异常原因、预测可能后果、与人类自然交流,并在新场景中快速适应,成为智能监控与公共安全领域不可或缺的助手。
同时,团队也清醒地认识到这条道路仍充满挑战。大模型的计算开销、幻觉问题、数据需求、隐私风险等,仍需要研究社区的共同努力来解决。传统方法在资源受限与领域特定场景中的价值亦不应被忽视——技术的多样性正是应对应用多样性的保证。未来的VAD生态应当是一个多元共存、相互补充的生态,而非简单的技术替代。
作者团队撰写本综述的初衷,是希望为这一快速发展的领域搭建一座桥梁——连接传统方法与新兴技术,连接理论研究与实际应用,连接不同背景的研究者与从业者。无论读者是刚进入该领域、希望快速了解全貌并找到切入点的学生,还是希望把握前沿趋势并发现新研究空间的研究者,亦或是一线工程师、需要为实际项目选择合适技术方案的从业者,团队都希望本综述能够成为可靠的指南针与工具箱。
如果文章对您有帮助,请引用:
@article{gao2025evolution,
title={The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM},
author={Gao, Shibo and Yang, Peipei and Guo, Haiyang and Liu, Yangyang and Chen, Yi and Li, Shuai and Zhu, Han and Xu, Jian and Zhang, Xu-Yao and Huang, Linlin},
journal={arXiv preprint arXiv:2507.21649},
year={2025}
}
本文核心作者包括来自北京交通大学的高诗博(主要研究方向为视频异常检测、多模态大模型应用)、中科院自动化所的杨沛沛研究员、张煦尧研究员和徐健研究员(主要研究方向为视频异常检测、持续学习、多模态大模型)、同济大学的刘洋教授(主要研究方向为视频异常检测、环境感知、多模态人工智能技术和智慧工业等)和昆山杜克大学的孙鹏教授(主要研究方向为AI-协助智能运输系统(ITS),互联网的车辆、无线传感器网络(无线)和移动车辆云/边缘计算等)。
综述地址:https://arxiv.org/abs/2507.21649项目地址:https://github.com/ShbGao-ProMax/A-Comprehensive-Survey-of-Video-Anomaly-Detection-Evolution-from-DNNs-to-MLLMs本文由论文作者授权原创发布,如有投稿请发邮件至:amos@52cv.net
