我爱计算机视觉 前天 17:07
视频异常检测:从深度学习到大模型的技术演进
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文综述了视频异常检测(VAD)领域的技术演进,从传统的深度学习方法转向基于大语言模型(LLM)和多模态大模型(MLLM)的新范式。文章提出了一个统一分析框架,涵盖任务形式、模态、模型架构和优化策略,系统梳理了SVAD、WVAD、OSVAD等多种VAD任务。研究指出,大模型能够将视觉信号抽象为语义信息,并在语义空间中进行推理,这更接近人脑的异常识别方式,有望解决传统方法在泛化性、可解释性方面的局限。综述详细介绍了半监督、弱监督、无监督等传统方法,并深入分析了大模型如何通过语义理解和推理革新VAD领域,为研究者和从业者提供了技术选型和未来发展方向的指导。

💡 **范式迁移:从视觉到语义的转变** 视频异常检测(VAD)正经历一场从“数据驱动”到“知识驱动”,从“视觉空间”到“语义空间”的范式迁移。传统方法多在视觉特征空间学习边界,受标注信息偏见影响且可解释性差。新兴的大模型(LLM/MLLM)能够直接将视觉信号抽象为语义信息,并在语义空间中利用常识和规则进行推理,这更符合人脑的异常识别机制,有望实现更好的泛化性和可解释性。

🗺️ **统一分析框架:理解VAD技术图景** 为应对VAD领域方法论的复杂性,研究团队提出了一个创新的统一分析框架,从任务形式、任务模态、输入模态、模型架构与优化策略五个维度对所有VAD方法进行比较。该框架不仅兼容传统的DNN方法,也能自然容纳新兴的大模型方法,为研究者提供了一个清晰的“思维地图”,便于理解不同范式间的关系及其适用场景。

🚀 **大模型赋能:革新VAD的潜力** LLM和MLLM的出现为VAD带来了革命性改变。它们具备将视觉信号转化为语义信息、内含丰富语义知识和常识推理能力、以及支持通过提示词(prompt)进行交互的能力。这使得VAD可以直接在语义空间中构建分类边界或进行异常识别,从而获得更强的泛化能力和可解释性,解决传统方法在应用到新场景时性能骤降的问题。

📊 **方法图谱与挑战:全面梳理与展望** 综述构建了一个包含传统DNN方法和新兴大模型方法的全景式技术图谱,详细分析了半监督、弱监督、无监督等方法的优缺点与适用场景,并归纳了输入模态、模型架构、优化策略等关键技术。文章也坦诚指出了各类方法的局限性,如传统方法的泛化能力有限,大模型的计算开销、幻觉问题等,并强调未来的VAD生态将是多元共存、相互补充的。

原创 52CV 2025-10-16 12:47 江苏

从“数据驱动”走向“知识驱动”,从“视觉空间”走向“语义空间”,从“黑盒检测”走向“可解释推理”,从“封闭世界”走向“开放世界”

如果你还在纠结视频异常检测任务如何预测/重建,如何设计MIL框架,那你可能错过了一次正在发生的范式迁徙:研究从视觉空间的边界学习,悄然转向语义空间的理解与推理。从深度神经网络(DNN)到多模态/大语言模型(MLLM/LLM),VAD不止在涨点,更在换脑。

作者团队的长文综述为这场迁徙搭建了一棵“统一分析框架树”,将SVAD/WVAD/UVAD等传统谱系与OSVAD/OVVAD/TVAD/ITVAD等新兴VAD任务汇于一图,系统梳理任务目标、输入模态、模型结构与优化策略。这是首个系统性梳理从传统深度学习到大模型时代VAD技术演进的综合性综述,为研究者提供了一幅完整的技术演进地图,也为从业者指明了技术选型与未来发展的方向。

统一框架:搭建理解VAD的思维地图

面对VAD领域纷繁复杂的方法和技术路线,研究者往往感到困惑:半监督、弱监督、开放集、Training-free、指令微调……这些不同的范式之间究竟是什么关系?它们各自适用于什么场景?如何在它们之间做出选择?

为回答这些问题,该研究团队提出了一个创新性的统一分析框架,从五个维度来理解与比较所有VAD方法:任务形式、任务模态、输入模态、模型架构与优化策略。这个框架的独特之处在于,它不仅兼容传统的DNN方法,也能够自然容纳新兴的大模型方法,使研究者能够在一个统一坐标系中理解整个领域的技术图景

大模型如何改变游戏规则

要理解大语言模型与多模态大模型为何能够给VAD带来革命性改变,需要回到一个根本性问题:人脑是如何识别异常的?当人类观察一个场景时,并非简单比对像素或特征向量,而是首先将视觉信息抽象为语义表示,然后在语义空间中运用常识与规则进行推理判断。这种基于语义空间的异常检测方法,具有高度的可解释性与泛化能力。

传统的DNN方法则采取了截然不同的路径。它们通常将标注信息从语义空间映射到视觉特征空间,然后在视觉空间中学习分类边界。这个过程存在两个根本性的局限:首先,人为预定义的映射规则受到标注信息偏见的影响,限制了模型的泛化能力;其次,对语义信息的隐式利用大大限制了模型的可解释性。这也是为什么传统方法往往在特定数据集上表现优异,但一旦应用到新场景就性能骤降的根本原因。

LLM和MLLM的出现,让VAD有可能回归到类似人脑的处理方式。这些大模型具备三个关键能力:首先,它们可以直接将视觉信号抽象为可理解的语义信息;其次,它们在预训练阶段已经获得了丰富的语义知识和常识推理能力;最后,它们支持通过提示词(prompt)进行无缝交互,无需额外的训练开销。这意味着,我们可以在语义空间中直接构建分类边界或进行异常识别,从而获得更好的泛化性和可解释性

全景式的方法图谱

基于该研究团队提出的统一框架,团队对VAD领域的主流方法进行了全面而深入的梳理,构建了一个清晰的技术图谱。该图谱不仅涵盖了传统DNN方法,也系统归纳了新兴大模型方法,为研究者提供一个“导航系统”。

在传统VAD方法类别中,半监督方法只使用正常样本进行训练,通过自监督学习(重建、预测、插值、拼图、对比学习、去噪)或单类分类(高斯分类器、对抗分类器、单类分类器)来学习正常模式边界。这类方法的优势在于标注成本低,但容易对训练场景过拟合,在新场景中产生较高误报率。弱监督方法使用视频级异常标签,通过多实例学习(MIL)框架在更强监督信号下学习,显著提升性能与场景适应能力,但需要收集异常样本且算法设计更为复杂。无监督方法则完全不依赖标注,让模型自主学习异常边界,理论上最为灵活,但实践中算法复杂且效果往往不如有监督方法。

对于每一类方法,作者团队都详细分析其核心范式、输入模态选择、模型架构设计与优化策略。例如,在半监督VAD中,总结了重建/预测、视频帧插值、拼图游戏、对比学习、去噪等多种自监督任务的设计思路、优缺点与适用场景;梳理了RGB、光流、骨架等不同输入模态在帧级、块级、对象级的使用方式;对比了自编码器、GAN、扩散模型、VLM等不同架构的特点;归纳了伪异常生成、记忆库、知识蒸馏等关键优化技术。在弱监督VAD中,区分了单阶段与两阶段MIL范式,分析了C3D、I3D、VideoSwin、CLIP等不同预训练模型的选择,总结了时空建模、知识蒸馏、度量学习、提示工程等在视觉与语义空间的优化策略。

对于每一种方法范式,团队不仅提供了技术原理的详细阐述,还给出了代表性工作的性能对比表格,便于读者直观了解不同方法在主流数据集上的表现。团队也坦诚指出各类方法的局限性:传统方法在简单数据集上已近饱和但泛化能力有限;开放世界方法在真正的新异常面前仍显不足;免训练方法受限于大模型的幻觉问题;指令微调方法则面临数据构建与计算成本的挑战。这种客观全面的分析,有助于研究者与从业者在技术选型时做出更明智的决策。

邀请你加入这场变革

视频异常检测正站在一个激动人心的十字路口。从早期的手工特征工程,到深度学习的主导地位,再到如今大语言模型带来的范式革命,该领域在短短十几年间经历了三次重大的技术跃迁。当下正处于第三次跃迁的关键时刻——从“数据驱动”走向“知识驱动”,从“视觉空间”走向“语义空间”,从“黑盒检测”走向“可解释推理”,从“封闭世界”走向“开放世界”。

这场变革的意义不仅在于技术本身的进步,更在于其为VAD的实际应用开辟了全新的可能性。传统方法因标注成本高、泛化能力弱、可解释性差而难以大规模部署的困境,正在被大模型的强大能力逐步打破。未来的VAD系统将呈现多模态协同、深度语义理解、高效轻量、持续适应、人机协作的智能体形态——不仅能准确发现异常,还能解释异常原因、预测可能后果、与人类自然交流,并在新场景中快速适应,成为智能监控与公共安全领域不可或缺的助手。

同时,团队也清醒地认识到这条道路仍充满挑战。大模型的计算开销、幻觉问题、数据需求、隐私风险等,仍需要研究社区的共同努力来解决。传统方法在资源受限与领域特定场景中的价值亦不应被忽视——技术的多样性正是应对应用多样性的保证。未来的VAD生态应当是一个多元共存、相互补充的生态,而非简单的技术替代。

作者团队撰写本综述的初衷,是希望为这一快速发展的领域搭建一座桥梁——连接传统方法与新兴技术,连接理论研究与实际应用,连接不同背景的研究者与从业者。无论读者是刚进入该领域、希望快速了解全貌并找到切入点的学生,还是希望把握前沿趋势并发现新研究空间的研究者,亦或是一线工程师、需要为实际项目选择合适技术方案的从业者,团队都希望本综述能够成为可靠的指南针与工具箱。

如果文章对您有帮助,请引用:

@article{gao2025evolution,

title={The Evolution of Video Anomaly Detection: A Unified Framework from DNN to MLLM},

author={Gao, Shibo and Yang, Peipei and Guo, Haiyang and Liu, Yangyang and Chen, Yi and Li, Shuai and Zhu, Han and Xu, Jian and Zhang, Xu-Yao and Huang, Linlin},

journal={arXiv preprint arXiv:2507.21649},

year={2025}

}

本文核心作者包括来自北京交通大学的高诗博(主要研究方向为视频异常检测、多模态大模型应用)、中科院自动化所的杨沛沛研究员、张煦尧研究员和徐健研究员(主要研究方向为视频异常检测、持续学习、多模态大模型)、同济大学的刘洋教授(主要研究方向为视频异常检测、环境感知、多模态人工智能技术和智慧工业等)和昆山杜克大学的孙鹏教授(主要研究方向为AI-协助智能运输系统(ITS),互联网的车辆、无线传感器网络(无线)和移动车辆云/边缘计算等)。

综述地址:https://arxiv.org/abs/2507.21649

项目地址:https://github.com/ShbGao-ProMax/A-Comprehensive-Survey-of-Video-Anomaly-Detection-Evolution-from-DNNs-to-MLLMs

本文由论文作者授权原创发布,如有投稿请发邮件至:amos@52cv.net

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

视频异常检测 VAD 深度学习 大模型 LLM MLLM 语义空间 知识驱动 技术演进 综述 Video Anomaly Detection Deep Learning Large Models Semantic Space Knowledge-driven Technological Evolution Survey
相关文章