Safe-Sora：为AI视频内容注入版权保护的图形水印新思路

原创 CV君 2025-10-16 12:47 江苏

让AI视频“精准溯源”，隐形水印新思路。

随着Sora等视频生成模型的爆发式增长，如何为AI生成内容进行版权溯源和认证，成了一个亟待解决的问题。在图片生成领域，隐形水印已经是一种常见的技术，但在视频生成中，相关的探索还比较少。最近，来自清华大学、中国科学院自动化研究所、华南理工大学等机构的研究者们，共同提出了一种名为Safe-Sora的视频水印框架，首次尝试将图形水印直接嵌入到视频生成过程中。

CV君觉得，这项工作为解决AIGC视频内容的版权和滥用问题提供了一个非常新颖且有效的思路。它不仅仅是简单地给视频打上标签，而是通过一种更智能、更鲁棒的方式，将“身份信息”融入到视频的“基因”里。

论文标题: Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking

作者: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu

机构: 清华大学，中国科学院，华南理工大学，广东省人工智能与数字经济实验室（深圳），新加坡管理大学

论文地址: https://arxiv.org/abs/2505.12667

代码仓库: https://github.com/Sugewud/Safe-Sora

研究背景：为AIGC视频装上“安全锁”

近年来，从VideoCrafter2到Open-Sora，视频生成技术的发展日新月异，这极大地改变了数字内容的创作方式。但与此同时，版权保护、内容真实性验证等问题也日益凸显。

现有的视频水印技术，大多是借鉴图像领域的思路，比如在视频的潜在噪声中嵌入二进制比特串信息。但这种方式能承载的信息量很有限，而且不够直观。相比之下，图形水印（比如logo或图标）信息容量更大，也更符合人类的识别习惯，能作为更可靠的版权凭证。因此，Safe-Sora提出了首个将图形水印直接嵌入到视频生成过程的框架，如下图所示。

论文的作者们发现，水印的嵌入效果和水印图像与载体内容的视觉相似度密切相关。如下图所示，当水印和图像内容更相似时（LPIPS更低），嵌入后的图像质量和提取出的水印质量都更高（PSNR更高）。这个发现也构成了Safe-Sora方法的核心动机之一：我们应该把水印的不同部分，藏在视频中最像它的地方。

Safe-Sora：时空-频率感知的隐形水印框架

基于以上观察，研究者们设计了Safe-Sora框架。这个名字也很有意思，“Safe”体现了其用于安全、版权保护的目的，而“Sora”则点明了其主要应用场景——面向Sora这类大型视频生成模型。

整个框架可以分为三个核心部分：由粗到精的自适应补丁匹配、水印嵌入和水印提取。

由粗到精的自适应补丁匹配（Coarse-to-Fine Adaptive Patch Matching）

为了让水印“藏”得更深、更无痕，Safe-Sora首先会将水印图片切成一个个小“补丁”（Patch）。然后，它会施展一套“乾坤大挪移”，为每个补丁在视频的所有帧、所有区域里，寻找一个最“情投意合”的位置。

这个过程分为两步：

粗粒度帧匹配：先在时间维度上，为每个水印补丁找到视觉上最相似的视频帧。

细粒度区域匹配：在选定的帧内，再进一步找到最相似的空间区域，然后将补丁嵌入进去。

通过这种方式，水印信息被巧妙地分散到了整个视频的时空维度中，大大降低了对视频质量的影响。

水印嵌入与提取：创新的SFMamba模块

如何将分散的水印信息高效地融合进视频，又能在需要时准确地提取出来？这是整个任务的难点。为此，作者们首次将最近在视觉领域大放异彩的Mamba（一种状态空间模型）引入了水印任务，并设计了时空-频率Mamba（Spatial-Frequency Mamba, SFMamba）模块。

SFMamba的核心思想是同时在空间域和频率域处理信息。它包含一个2D版本用于空间特征融合，以及一个3D版本用于时空交互。

特别是在3D频率扫描中，作者提出了一种新颖的时空局部扫描策略（spatiotemporal local scanning strategy）。该策略利用3D小波变换将视频分解为从低频到高频的8个子带，然后以一种分层的方式（先从低频到高频，再从高频到低频）进行扫描处理。这种设计能够高效地捕捉时空维度上的长距离依赖关系，对于分布在不同帧的水印信息的融合与提取至关重要。

水印的提取网络则是一个逆过程，同样利用SFMamba模块，从加了水印的视频（甚至是被攻击、被扭曲后的视频）中，将隐藏的图形水印恢复出来。

实验效果：既“隐形”又“强悍”

Safe-Sora的效果到底怎么样？一句话总结就是：水印藏得几乎看不见，而且非常强悍，不怕各种攻击。

量化结果

从下表中可以看到，无论是在水印质量（PSNR、SSIM等指标越高越好）还是视频质量（PSNR、SSIM等指标越高越好，LPIPS、FVD等指标越低越好）上，Safe-Sora都全面超越了现有的几种主流方法。

特别值得注意的是FVD（Fréchet Video Distance）这个指标，它衡量了视频的时序连贯性。传统基于图像的水印方法由于是逐帧处理，严重破坏了视频的连贯性，导致FVD分数很高。而Safe-Sora得益于其时空建模能力，FVD值仅为3.77，远低于第二名的154.35，这意味着加了水印的视频在流畅度上几乎和原视频没有差别。