OpenMMSec：首个多模态AI安全基准数据集开源

Datawhale 10月27日 23:48

随着多模态AI技术飞速发展，AI生成内容日益逼真，带来了信息安全挑战。为应对此，蚂蚁安全与智能实验室发布了百万量级的开放式多模态AI安全基准数据集OpenMMSec，已全面开源。该数据集覆盖图像、视频、音频三大模态，旨在为AI安全评测提供更全面、标准化的工具。它包含丰富的真实与伪造样本，并围绕图像防篡改、AI视频智能交互认证、泛终端智能语音交互认证设计了相应的检测任务，旨在帮助研究者和开发者测试模型在对抗性攻击下的表现，为数字身份和信息安全构筑技术防线。

📊 **OpenMMSec 数据集概览**：该数据集是首个开放式多模态AI安全基准，整合了图像、视频、音频三大模态，旨在解决AI生成内容日益逼真带来的信息安全挑战。它包含了大规模的真实和伪造样本，为AI安全研究和模型评测提供了重要资源，涵盖了从图片篡改到深度伪造的多种场景。

🖼️ **图像与视频安全认证**：在图像方面，OpenMMSec 包含全要素交互认证任务，能够判断图片真伪并定位篡改区域，评价指标包括 Image-Level 的 Macro-F1 和 Pixel-Level 的 Average Binary-F1。视频任务则聚焦AI视频智能交互认证，通过整体检测、伪造帧和区域定位来评估模型性能，其中整体检测性能占权重60%。

🗣️ **音频安全与通用性**：音频任务专注于泛终端智能语音交互认证，检测AI合成语音，并以 F1 分数作为核心指标。数据集数据源广泛，涵盖手机、电脑、智能眼镜等多种设备采集的真实语音，以及文本转语音、音色转换等技术生成的伪造语音。这对于应对模拟亲人声音进行诈骗等现实风险尤为重要。

🚀 **应对前沿挑战**：随着Sora 2等技术的出现，AI生成内容在逼真度、物理规律模拟和多模态（音视频同步）方面都有巨大飞跃，给传统检测方法带来严峻挑战。OpenMMSec 的出现，为应对这些前沿挑战提供了关键的评估工具和数据支撑，推动AI安全技术的持续演进。

原创筱可 2025-10-27 22:02 浙江

首个开放式多模态AI安全基准数据集。

Datawhale干货

作者：筱可，Datawhale成员

随着多模态大模型技术的发展，我们能用 AI 做的事情越来越多，比如让模型理解图片、生成视频和克隆声音。

但与此同时，一个现实的问题也摆在了我们面前，AI 生成的内容越来越逼真，虽然带来了一定的技术便利性，比如社交媒体上，大家可以很轻松地给视频添加特效，也可以很方便地使用类似即梦这样的软件生成图片或者视频，但是技术的进步同时也会带来一些恶意行为，技术本身是无罪的，但是有的人使用AI去生成逼真的图片，或者视频，如何分辨真假，保证信息安全，成了一个重要的挑战。

为应对这一全球性挑战，由中国图象图形学学会、蚂蚁集团、云安全联盟CSA大中华区主办，广泛联合学界、机构共同组织发起2025全球AI攻防挑战赛。

比赛结束后，蚂蚁安全与智能实验室发布了一个百万量级的名为 OpenMMSec 的开放式多模态AI安全基准数据集，近期全面开源了。

开放式多模态AI安全评测基准OpenMMSec主页

开源地址：https://tianchi.aliyun.com/dataset/210595

今天我们会从数据和评价指标两个方面对这个高质量的数据集进行深度的解读。

为什么我们需要一个新的 AI 安全数据集？

在 OpenMMSec 出现之前，虽然已经有一些用于 AI 安全评测的数据集，但它们大多存在一些局限性。有的只关注单一模态，比如只包含图片或只包含音频；有的应用场景比较单一；还有的覆盖的攻击类型不够全面。当我们面对像 Gemini、Qwen-Image 这类强大的多模态模型时，显然需要一个更全面、更标准化的评测工具来检验它们的安全性。

OpenMMSec 的目标就是提供一个覆盖图像、视频、音频三大模态的综合性安全基准数据集。它通过一个大规模的、包含真实和伪造样本的数据集，帮助研究者和开发者测试他们的模型在面对对抗性攻击时的表现。

开放式多模态AI安全评测基准OpenMMSec数据列表

OpenMMSec 主要围绕图像、视频和音频这三个方面，设计了相应的防伪检测任务。

图像任务：图片全要素交互认证

这个任务简单来说，就是判断一张图片是真实的还是被篡改过的。更有挑战性的是，如果图片是局部篡改的，算法还需要准确地圈出被修改的区域。

数据集介绍

为了支持这个任务，数据集提供了大约 10 万条图片数据。

这些数据来源很丰富，既整合了像 Doctamper、DeepFakeFace、COCO 等多个公开数据集，也包含了一些业务场景数据，使用的开源数据集包括篡改数据集（Doctamper、OSTF、DeepFakeFace、SFHQ和GenImage）和真实数据集（Object365和COCO）。

图片来源：[11]

图片的类型覆盖很广，包括自然篡改图像、文档篡改图像、AI 生成的人脸图像等等，这四个类别涵盖了当前数字图像内容安全面临的主要挑战。

前三类可以看作是对已有图像的修改，而最后一类则是从无到有的创造。

自然篡改图像 (Natural Image Tampering)：对这类普通手机、相机照片进行后期处理，以达到欺骗目的，类似我们常说的 “P图”。

文档篡改图像 (Document Image Tampering)：这类图像特指对各类文档的扫描件或照片进行篡改。这类检测的特点是，算法不仅要关注图像像素层面的异常，还要结合文本内容、字体、布局等特征进行分析。

人脸篡改图像 (Face Tampering / Forgery)：这是近年来非常热门且备受关注的一个领域，专门针对图像或视频中的人脸进行修改或替换。由于人脸信息的敏感性和在身份验证中的广泛应用，这类篡改的潜在风险非常大。

AIGC 生成图像 (AIGC Generated Images)：AIGC 生成图像和前面三类有本质的区别。前面三类都是基于一张真实存在的图片进行修改，而 AIGC 图像是模型根据提示词或其他输入，完全从零开始创造出来的图像。

图片伪造检测的评价指标

面对这么多的伪造图片，OpenMMSec的评价方式分为两个层级，分别为整体和局部。

Image-Level（图像级别）

Image-Level 指的是在整张图片的层面上进行评估。

我们可以把它理解为一个宏观的、整体性的判断。它不关心图片内部的具体细节，只回答一个核心问题：“这张图片是真实的还是伪造的？”

在这个数据集，有提到我们的评测方式，我们只需要提交对应的结果就可以对我们的检测结果进行评测，这里对应的提交结果是Label字段：

Label = 0代表这是一张真实、未经篡改的图片。

Label = 1代表这是一张伪造图片。这里包含了局部被修改的情况，也包括整张图都是 AIGC 生成的情况。

所以，Image-Level评估的就是你的算法在区分真图和假图这个二分类问题上的准确性。

Macro-F1（宏平均 F1-Score）

Macro-F1 是一种计算 F1 分数的具体方式，通常用在多分类或二分类任务中，用来衡量 Image-Level 的性能。

要理解 Macro-F1，我们先简单回顾下 F1 分数。它同时考虑了准确率 (Precision)和召回率 (Recall)，是这两者的调和平均数，能更均衡地评价一个模型的表现。

这里的 TP 是指正确预测为正例的数量，FP (False Positive) 是指错误预测为正例的数量，FN 是指错误预测为负例的数量。

那么Macro是什么意思呢？

在这个任务里，我们有两个类别：Label=0 (真实) 和 Label=1 (伪造)。Macro-F1 的计算步骤是：

独立计算每个类别的 F1 分数：把伪造(Label=1) 当作正类，计算出一个 F1 分数，我们称之为 F1伪造。把真实(Label=0) 当作正类，计算出另一个 F1 分数，我们称之为F1真实。

对所有类别的 F1 分数取算术平均值：

使用 Macro-F1 的一个主要原因是，它给予每个类别同等的权重。无论数据集中真实图片和伪造图片的数量相差多大，这种计算方式都能公平地评估模型在每个类别上的表现。如果模型只擅长预测数量多的那个类别，其 Macro-F1 分数也不会很高。举个例子：假设我们有一个图像防伪检测任务，测试集里共有1000 张图片，但数据分布非常不均衡：

真实图片 (Label=0): 990 张 (这是多数类)

伪造图片 (Label=1): 10 张 (这是少数类)

现在，我们有一个偷懒的模型。这个模型能力很差，它只会做一个最简单的预测：把所有图片都预测为“真实图片” (Label=0)。

我们来看看用不同的评价指标，这个模型会得到什么样的分数。

可以看到，准确率（Accuracy）虽然很高，但 Macro-F1 却很低。所以如果模型只擅长预测数量多的那个类别， Macro-F1 分数也不会很高，这也给大家提一个醒，当模型的F1正确率是49%左右的时候，那么模型可能没有分类能力的情况也是存在的。

Pixel-Level (像素级别)

与 Image-Level 相对，Pixel-Level 指的是在图像的像素层面上进行评估。

在这个比赛中，对应的提交结果是 Region 字段，它是一个 RLE (Run-Length Encoding) 格式的字符串，用来编码一个二值的掩码（Mask）。这个掩码的大小和原图一样，掩码上标记为 1 的像素点，就代表算法认为是篡改的区域。关于 RLE 格式，可以参考维基百科上的介绍：https://en.wikipedia.org/wiki/Run-length_encoding

其中 Region 的字段示例如下所示：

"{""size"": [256, 384], ""counts"": ""jlY121""}"

所以，Pixel-Level 评估的是你的算法定位篡改区域的精确度。

平均 Binary-F1 (Average Binary-F1)

平均 Binary-F1 是用来衡量 Pixel-Level 性能的指标。

这里的Binary (二元)指的是在像素层面，我们只关心两种状态：

正类：这个像素是被篡改过的。

负类：这个像素是真实的、原始的。

对于每一张需要进行 Pixel-Level 评估的图片（即那些真实存在篡改区域的图片），评估过程如下：

将算法预测的篡改区域掩码（Prediction Mask）与真实的篡改区域掩码（Ground Truth Mask）进行比较。

逐个像素点进行统计，得出 TP, FP, FN 的值：

TP（True Positive）：某个像素点在真实掩码和预测掩码中都标记为篡改

FP（False Positive）：某个像素点在真实掩码中是真实的，但被算法错误地标记为篡改。

FN（False Negative）：某个像素点在真实掩码中是篡改的，但算法没能检测出来。

基于这些像素的统计值，计算出这张图片的 Binary-F1 分数。

最后，将所有参与评估的图片的 Binary-F1 分数加起来，再除以图片的总数，就得到了平均 Binary-F1。

这个图像任务的评价指标同时考虑了图像级别的分类准确率和像素级别的区域定位精度，最终得分由两者加权得到。这样的设计既能覆盖细粒度的像素伪造-篡改也能用来判断整体的情况。

视频任务：AI视频智能交互认证

视频任务被称为AI视频智能交互认证，目标同样是检测视频中的伪造痕跡。相比图像，视频增加了时间维度，复杂度自然也更高。它的评价指标分成了三个部分，整体检测性能、伪造帧定位性能和伪造区域定位性能。最终得分由这三项加权构成，其中整体检测性能的权重占了60%。

截止25年10月18号， OpenMMSec上的视频数据已经达到十几GB的数据了。我下载了其中一小部分的数据，下面就是一个人脸篡改的视频伪造。

视频来源：[11]

数据集介绍

OpenMMSec的视频防伪检测评测基准提供了约1万条数据，汇集了大量开源和业务场景数据。这些数据致力于覆盖多种复杂的视频伪造场景，包括：

Deepfake 换脸：将视频中一个人的脸替换成另一个人，技术已能达到高度逼真。

面部表情操纵：在不改变身份的情况下，改变人物的面部表情或动作。

说话脸生成：根据驱动源（如照片），生成目标人物在交谈的视频。

视频内容添加/删除：在视频中智能地插入或移除物体、人物，并填充背景。

唇形同步（Lip-sync）：调整人物唇形，使其与新的音频内容精确匹配。

整段视频生成：完全由AI模型根据文本或图像提示生成的虚拟视频片段。

（图源：《Deepfake Generation and Detection: A Benchmark and Survey》）

这些复杂的伪造手段要求模型不仅要识别出视频是否被篡改，还要能区分不同的伪造类型和手法。

视频伪造检测的评价指标

与图像任务类似，视频防伪检测的评价细分为多个维度，以全面衡量检测效果。最终得分由以下三项指标加权构成，其中整体检测性能的权重占了60%：

1. 整体检测性能 (Overall Detection Performance) - Micro-F1

这个指标评估的是模型对每个视频整体是否包含伪造内容的判断能力。它是一个二分类任务，判断视频是真实还是伪造。Micro-F1 的计算方式与 Macro-F1 有所

不同，它会先聚合所有视频的 TP、FP、FN，然后再计算总体的 Precision、Recall 和 F1 Score。

其中，分别表示第个视频的真阳性、假阳性和假阴性数量。这种计算方式更侧重于样本多的类别对整体分数的影响。

2. 伪造帧定位性能 (Forgery Frame Localization) - mtIoU

mtIoU (mean Temporal Intersection over Union) 衡量的是算法在时间维度上，识别出视频中哪些帧被篡改的准确性。如果一个视频的某个时间段（比如从第 100 帧到第 200 帧）被篡改，算法需要预测出一个时间段（比如从第 95 帧到第 205 帧），mtIoU 会计算预测时间段与真实时间段的重叠程度。

3. 伪造区域定位性能 (Forgery Region Localization) - mvIoU

mvIoU (mean Visual Intersection over Union) 更进一步，它不仅关注时间，还关注空间。这个指标用于评估算法在每一帧中，精确识别出被篡改的具体像素区域（Bounding Box 或 Mask）的能力。

其中和分别是 Ground Truth 和预测结果时间帧的并集和交集。对于每个被识别为篡改的帧，vIoU 会计算预测的篡改区域与真实篡改区域的空间 IoU。mvIoU 则是所有相关帧的 vIoU 的平均值。这个指标对于需要进行精细化篡改溯源的场景至关重要。

最终得分 (Overall Score)

最终的综合得分会根据以上三项指标进行加权计算，其中整体检测性能（Micro-F1）占主要权重，而帧定位和区域定位性能则作为辅助但重要的指标：

前沿挑战：Sora 2带来的巨大压力

就在最近，OpenAI 正式发布了Sora 2，我看了它的发布公告和演示视频，感受非常深刻，因为 Sora 2 能直接生成非常逼真的音频和视频，你可以通过下面的视频来直观体会下他的强大。

视频来源：[3]
Prompt:
Vikings Go To War — North Sea Launch (10.0s, Winter cool daylight / early medieval)...

Sora2 发布的公告里提到一个例子，过去的模型在生成投篮不中的画面时，篮球可能会直接传送进篮筐。但Sora 2生成的视频里，投失的篮球会真实地从篮板上弹开，说明它不再仅仅是画面的拼接，而是在一定程度上模拟了物理世界的基本规律。这种物理准确性的提升，会让传统的基于画面瑕疵或逻辑错误的检测方法变得更加困难。

还有值得注意的部分是Sora 2 不仅能生成高度逼真的画面，还能同步创作复杂的背景音效、人声和对话。

这对我们目前将图像、视频、音频分开检测的范式提出了一个巨大的挑战。Sora 2生成的视频是自带声音的，也就说检测的难度会更大。

Sora 2刚发布的时候，微信视频号上很多Sora 2 生成的视频，没有很明显被检测到，就足以证明他的检测难度相较于其他的ai生成视频更大。

公告里还公布了一个叫客串的功能，用户录制一段自己的简短视频和音频，Sora 2就能精准还原外貌和声音，并将其植入到任何生成的场景中。

这让我想到了 OpenMMSec 的核心目标，数字身份AI大模型智能交互认证安全。当任何人都可以轻易地将自己或他人的逼真影像和声音植入任意场景时，身份认证的防线将面临前所未有的压力。

所以，当我们回过头来看 OpenMMSec 这个数据集时，它的意义就更加凸显。

音频任务：泛终端智能语音交互认证

最后是音频任务，即泛终端智能语音交互认证。这个任务相对前两个更聚焦一些，主要是检测一段音频是不是由AI合成的。在评价时，任务将伪造音频 Spoof 视为正类，使用F1分数作为核心指标。数据集包含了手机、电脑、智能眼镜等多种设备采集的真实语音，伪造数据则由文本转语音、音色转换等多种技术生成。

数据集介绍

OpenMMSec的语音防伪检测评测基准包含了近 8 万条（79686条）测试数据，整合了大量的真实语音和深度伪造语音样本。在数据来源上，这个数据集的最大特点就是「泛终端」。真实语音数据来源于不同场景和多种采集设备，包括手机、电脑、智能眼镜等。同时，融合了 3D-Speaker Dataset（用于说话人验证）和 LibriTTS-R（大规模高质量语音合成数据集）等开源资源，涵盖了由各类先进生成模型创建的伪造语音。

举个例子，我从 OpenMMSec 里面的语音部分数据集里拿出了两个语音的样本，第一个我听起来像是AI生成的，因为一般人不会这样说话。而第二个样本，应该是真人的语音数据。

语音来源：[11]

数据集里面不仅仅包含中文的语音，还有大量的英文的语音，前者应该有大量来自音频采集设备的中文数据，后者则来自开源数据集更多。

我也找了一篇 2024年语音合成的论文，也就是 Fish-Speech 的论文，论文中提到在语音克隆任务中，生成的音频在单词错误率（WER）上甚至低于人类的地面实况录音。这意味着，从清晰度的角度看，AI 合成的语音可能比某些真实录音更完美。

我在他们的官网上试了一个音频生成的例子，你可以参考如下示例。

语音来源：[13]
Prompt：
我有多喜欢你，可能我自己都描述不出来，就像你是月亮，我是星星，满天星河只为你。

对于我来说，我如果仅仅凭借自己的听觉，是没法判断这段语音是AI合成的还是人说出来的。这不像我们听书时候使用的那种讲书的语调，能够一听就判断出来。如果说上面的示例缺点的话，就是太完美，有点像是录音棚里录出来的。不过他这里转出来的语音似乎少了两个字，这也算TTS模型的一些缺陷吧，在其他类似的 TTS 模型身上我也见到类似的情况出现，比如FunAudioLLM/CosyVoice2-0.5B。