原创 CV君 2025-10-16 12:47 江苏
让AI视频“精准溯源”,隐形水印新思路。
随着Sora等视频生成模型的爆发式增长,如何为AI生成内容进行版权溯源和认证,成了一个亟待解决的问题。在图片生成领域,隐形水印已经是一种常见的技术,但在视频生成中,相关的探索还比较少。最近,来自清华大学、中国科学院自动化研究所、华南理工大学等机构的研究者们,共同提出了一种名为Safe-Sora的视频水印框架,首次尝试将图形水印直接嵌入到视频生成过程中。
CV君觉得,这项工作为解决AIGC视频内容的版权和滥用问题提供了一个非常新颖且有效的思路。它不仅仅是简单地给视频打上标签,而是通过一种更智能、更鲁棒的方式,将“身份信息”融入到视频的“基因”里。
论文标题: Safe-Sora: Safe Text-to-Video Generation via Graphical Watermarking
作者: Zihan Su, Xuerui Qiu, Hongbin Xu, Tangyu Jiang, Junhao Zhuang, Chun Yuan, Ming Li, Shengfeng He, Fei Richard Yu
机构: 清华大学,中国科学院,华南理工大学,广东省人工智能与数字经济实验室(深圳),新加坡管理大学
研究背景:为AIGC视频装上“安全锁”
近年来,从VideoCrafter2到Open-Sora,视频生成技术的发展日新月异,这极大地改变了数字内容的创作方式。但与此同时,版权保护、内容真实性验证等问题也日益凸显。
现有的视频水印技术,大多是借鉴图像领域的思路,比如在视频的潜在噪声中嵌入二进制比特串信息。但这种方式能承载的信息量很有限,而且不够直观。相比之下,图形水印(比如logo或图标)信息容量更大,也更符合人类的识别习惯,能作为更可靠的版权凭证。因此,Safe-Sora提出了首个将图形水印直接嵌入到视频生成过程的框架,如下图所示。
论文的作者们发现,水印的嵌入效果和水印图像与载体内容的视觉相似度密切相关。如下图所示,当水印和图像内容更相似时(LPIPS更低),嵌入后的图像质量和提取出的水印质量都更高(PSNR更高)。这个发现也构成了Safe-Sora方法的核心动机之一:我们应该把水印的不同部分,藏在视频中最像它的地方。
Safe-Sora:时空-频率感知的隐形水印框架
基于以上观察,研究者们设计了Safe-Sora框架。这个名字也很有意思,“Safe”体现了其用于安全、版权保护的目的,而“Sora”则点明了其主要应用场景——面向Sora这类大型视频生成模型。
整个框架可以分为三个核心部分:由粗到精的自适应补丁匹配、水印嵌入和水印提取。
由粗到精的自适应补丁匹配(Coarse-to-Fine Adaptive Patch Matching)
为了让水印“藏”得更深、更无痕,Safe-Sora首先会将水印图片切成一个个小“补丁”(Patch)。然后,它会施展一套“乾坤大挪移”,为每个补丁在视频的所有帧、所有区域里,寻找一个最“情投意合”的位置。
这个过程分为两步:
粗粒度帧匹配:先在时间维度上,为每个水印补丁找到视觉上最相似的视频帧。
细粒度区域匹配:在选定的帧内,再进一步找到最相似的空间区域,然后将补丁嵌入进去。
通过这种方式,水印信息被巧妙地分散到了整个视频的时空维度中,大大降低了对视频质量的影响。
水印嵌入与提取:创新的SFMamba模块
如何将分散的水印信息高效地融合进视频,又能在需要时准确地提取出来?这是整个任务的难点。为此,作者们首次将最近在视觉领域大放异彩的Mamba(一种状态空间模型)引入了水印任务,并设计了时空-频率Mamba(Spatial-Frequency Mamba, SFMamba)模块。
SFMamba的核心思想是同时在空间域和频率域处理信息。它包含一个2D版本用于空间特征融合,以及一个3D版本用于时空交互。
特别是在3D频率扫描中,作者提出了一种新颖的时空局部扫描策略(spatiotemporal local scanning strategy)。该策略利用3D小波变换将视频分解为从低频到高频的8个子带,然后以一种分层的方式(先从低频到高频,再从高频到低频)进行扫描处理。这种设计能够高效地捕捉时空维度上的长距离依赖关系,对于分布在不同帧的水印信息的融合与提取至关重要。
水印的提取网络则是一个逆过程,同样利用SFMamba模块,从加了水印的视频(甚至是被攻击、被扭曲后的视频)中,将隐藏的图形水印恢复出来。
实验效果:既“隐形”又“强悍”
Safe-Sora的效果到底怎么样?一句话总结就是:水印藏得几乎看不见,而且非常强悍,不怕各种攻击。
量化结果
从下表中可以看到,无论是在水印质量(PSNR、SSIM等指标越高越好)还是视频质量(PSNR、SSIM等指标越高越好,LPIPS、FVD等指标越低越好)上,Safe-Sora都全面超越了现有的几种主流方法。
特别值得注意的是FVD(Fréchet Video Distance)这个指标,它衡量了视频的时序连贯性。传统基于图像的水印方法由于是逐帧处理,严重破坏了视频的连贯性,导致FVD分数很高。而Safe-Sora得益于其时空建模能力,FVD值仅为3.77,远低于第二名的154.35,这意味着加了水印的视频在流畅度上几乎和原视频没有差别。
视觉效果
口说无凭,眼见为实。下面的对比图直观地展示了Safe-Sora的强大。
第一组对比中,无论是猫咪在花园里玩耍,还是飞船在宇宙中穿梭,经过Safe-Sora处理后的视频,肉眼几乎无法分辨出与原视频的差异。而从差异图(Difference map)中可以看到,其他方法都留下了明显的修改痕跡。
下面这几组在不同场景下的效果图,进一步证明了其普适性和高质量。无论是海鸥、热气球还是瀑布,水印都完美地“隐身”了。
鲁棒性测试
一个好的水印,不仅要“藏得好”,还要“打不掉”。作者对Safe-Sora进行了多种“酷刑”测试,包括随机擦除、高斯模糊、高斯噪声、旋转、以及视频压缩(H.264)等。
如下图所示,在各种攻击下,Safe-Sora提取出的水印质量(橙色线)始终保持在最好水平,展现了极强的鲁棒性。尤其是在视频领域最常见的H.264压缩攻击下,其他方法性能都出现了大幅下降,而Safe-Sora依然坚挺。
消融实验
作者还通过消融实验证明了框架中几个关键设计的有效性。例如,去掉“补丁匹配(”这一模块,一致性下降。在应用后,水印对原视频的扰动(差异图中的高亮区域)显著减少,视频质量得到明显提升。
此外,该方法也展示了在不同视频生成模型(如VideoCrafter2和Open-Sora)上的通用性。
总结
总而言之,Safe-Sora为AIGC时代下的视频内容版权保护和溯源提供了一个开创性的解决方案。它不仅在效果上达到了新的高度,其将状态空间模型应用于水印任务的尝试,也为后续的研究开辟了新的道路。
大家对这个方法怎么看?欢迎在评论区留下你的看法!
本文由论文原作者审核并授权原创发布。
