机器之心 前天 17:42
对抗样本迁移性评估:一项系统性研究与新见解
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文首次针对23种代表性攻击与11种代表性防御方法在ImageNet数据集上进行了全面的对抗迁移性评估。研究发现,许多现有评估方法存在超参数设置不公平、攻击隐蔽性指标单一等问题,导致研究结论存在盲区甚至误导。通过建立更公平的评估框架,本文揭示了早期攻击方法DI的强大性能,指出扩散类防御方法可能存在“虚假安全感”,并强调了攻击隐蔽性与迁移性之间的负相关关系。研究呼吁未来的对抗攻防研究应采用更严格、全面的评估标准,并公开代码和超参数以促进社区的真实进展。

🎯 **系统性评估的必要性与挑战**:文章指出,当前对对抗样本迁移性的评估存在严重不足,如攻击方法对比时超参数设置不公平、攻击隐蔽性指标单一等。这导致研究结论可能被高估或低估,误导防御设计。本文通过对23种攻击和11种防御进行首次系统性、公平的评估,旨在纠正这些缺陷,提供更可靠的见解。

💡 **颠覆性研究发现**:在公平的超参数设定下,早期攻击方法DI的性能甚至优于后续许多所谓的改进方法,这挑战了以往的普遍认知。同时,原本声称对白盒攻击有效的扩散类防御方法DiffPure,却极易被黑盒迁移攻击绕过,揭示了其“虚假安全感”。这些发现对理解对抗鲁棒性的内在机制至关重要。

⚖️ **迁移性与隐蔽性的权衡**:研究发现,几乎所有攻击方法在提升迁移性的同时,都会牺牲攻击的隐蔽性,且这种牺牲通过多样化的感知指标(如PSNR、SSIM、LPIPS)和“攻击溯源”分析得以量化。因此,在评估对抗样本时,必须同时考虑迁移性和多维度隐蔽性指标,以实现更合理的攻防设计。

🚀 **未来研究展望与呼吁**:作者呼吁研究界在进行方法对比时,务必采用一对一、超参数合理的公平设计,报告迁移性时应包含多种感知/隐蔽性指标,并分析攻击的可追溯性。评估防御有效性时,必须纳入可迁移黑盒攻击的考验,特别是对扩散/去噪类防御。公开代码、超参数和评估脚本是促进社区真实进展的关键。

2025-10-27 13:21 北京

首次针对23种代表性攻击与11种代表性防御方法在 ImageNet 数据集上开展对抗迁移性综合评估。

本文第一作者 / 通讯作者赵正宇来自西安交通大学,共同第一作者张焓韡、李仞珏分别来自德国萨尔大学、中科工业人工智能研究院。其他合作者分别来自法国马赛中央理工、法国 INRIA 国家信息与自动化研究所、德国 CISPA 亥姆霍兹信息安全中心、清华大学、武汉大学、西安交通大学。

对抗样本(adversarial examples)的迁移性(transferability)—— 在某个模型上生成的对抗样本能够同样误导其他未知模型 —— 被认为是威胁现实黑盒深度学习系统安全的核心因素。尽管现有研究已提出复杂多样的迁移攻击方法,却仍缺乏系统且公平的方法对比分析:(1)针对攻击迁移性,未采用公平超参设置的同类攻击对比分析;(2)针对攻击隐蔽性,缺乏多样指标。

为了解决上述问题,本文依据通用机器学习全周期阶段,将迁移攻击方法系统性划分为五大类,并首次针对 23 种代表性攻击与 11 种代表性防御方法(包括针对迁移的防御与现实世界的视觉系统 API),在 ImageNet 数据集上开展对抗迁移性综合评估,并通过大规模用户实验评估对抗隐蔽性。

本文证实上述评估缺陷确实导致了理解盲区甚至误导性结论,而解决这些缺陷后带来一系列新见解,例如:(1)早期攻击方法 DI 性能反而超越所有后续同类攻击;(2) 原本声称白盒防御方法 DiffPure 却极易被(黑盒)迁移方法攻破;(3)几乎所有攻击方法在提升迁移性的同时,实则牺牲了(通过多样化指标量化的)攻击隐蔽性。

研究现状

对抗样本的迁移性是研究深度学习系统鲁棒性的重要课题。在真实世界中,攻击者往往无法访问目标模型的内部参数或训练集(黑盒情形)。攻击在一个 / 一类模型上生成后能否在另一个未知模型上保持效力(即攻击迁移性),直接决定了攻击的实际威胁水平与防御的有效性。

当前相关研究存在两个长期被忽略但是影响深远的问题:

这种不严格的比较与不完整的度量导致使得某些方法被高估或低估,进而误导防御设计与研究方向。

创新发现

依托前文所建立的评估框架,我们得以从实验结果中更清晰地分析对抗鲁棒性的内在因素。以下部分将概述主要发现与启发性结论:

1. 在公平的超参数设定下,早期方法 DI 竟优于后续众多所谓改进方法:许多后来被认为更强的迁移攻击,实则得益于更有利的实验设定。一旦把超参数公平化,DI 类的早期方法便会遥遥领先。因此,我们需要公平对比来避免误导性结论。这不仅关系到学术层面的研究,更关系到实际系统对抗威胁的判断与防御优先级的设定。

2. 扩散(diffusion)类防御方法依赖 “虚假安全感”:基于扩散原理进行去噪的防御方法虽然声称在白盒或某些自适应攻击下表现很强,但黑盒(迁移)攻击反而可以很大程度上绕过这些防御。因此,此类防御方法只是由于评估不完善带来的 “虚假安全感”

3. 相同 Lp 约束下,不同攻击在隐蔽性上有巨大差异,且隐蔽性与迁移性之间呈负相关:即便所有攻击都受同一 Lp 限制,在视觉感知度量(PSNR/SSIM/LPIPS 等)上依然差距很大。因此,除了常用 Lp 约束外,需要同时报告迁移性与多维度隐蔽性指标,以便合理权衡攻击迁移性与隐蔽性。

具体评估建议与攻防设计参考如下:

评估框架与结果

本文依据通用机器学习全周期阶段,将迁移攻击方法系统性划分为五大类,如下图所示:

本文涉及了 23 种代表性攻击与 11 种代表性防御方法,如下表所示:

针对攻击迁移性,本文从两个维度入手修正与完善现有评估基准:(1)引入完整的迁移攻击方法分类,并进行公平的类内(intra-category)比较;(2)从 “攻击溯源(attack traceback)” 角度设计隐蔽性评估。更具体地说,本文抛弃了将不同类攻击方法直接对比的传统策略,而是对同类攻击进行一对一、超参数公平化的对比实验:统一攻击强度约束(相同 Lp 限制)、统一优化 / 迭代预算,并在同一组目标模型 / 防御上逐项比较。

针对攻击隐蔽性,本工作不再仅依靠单一 Lp 值来进行衡量,而是引入多样化的感知质量指标(例如常用的 PSNR/SSIM/LPIPS 等)并结合更细粒度的隐蔽性特征。另外,本文创新性地引入 “攻击溯源” 视角,分析攻击是如何产生可见 / 可追溯的扰动(例如是否集中于图像某些高频区域、是否具有结构化模式、扰动是否容易被现有检测器或去噪机制识别)。

未来展望

我们呼吁研究界在对比任何(攻防)方法时务必采用一对一、超参数合理的公平设计;报告迁移性时同时报告多种感知 / 隐蔽性指标(不仅是 Lp),并分析攻击的可追溯性特征;在评估防御有效性时,必须纳入可迁移黑盒攻击的考验,尤其是对扩散 / 去噪类防御要采用更全面的测试;公开代码、超参数与评估脚本,以便社区复现与累积真实进展。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

对抗样本 迁移性 深度学习安全 ImageNet 鲁棒性 Adversarial Examples Transferability Deep Learning Security Robustness
相关文章