原创 谢启亮 2025-08-06 21:30 四川
本文研究了防御对抗攻击的一个新方面,即对抗攻击的可追溯性。
原文标题:Tracing the Origin of Adversarial Attack for Forensic Investigation and Deterrence
原文作者:Han Fang , Jiyi Zhang , Yupeng Qiu , Jiayang Liu ,Ke Xu , Chengfang Fang ,Yang Liu
原文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Fang_Tracing_the_Origin_of_Adversarial_Attack_for_Forensic_Investigation_and_ICCV_2023_paper.html
发表会议:ICCV
笔记作者:谢启亮@安全学术圈
主编:黄诚@安全学术圈
编辑:张贝宁@安全学术圈
1、背景介绍
深度神经网络容易受到对抗攻击。本文扮演调查员的角色,希望追踪攻击并识别源头,即生成对抗样本的特定模型。由此产生的技术将有助于攻击事件的取证调查,并对潜在攻击者起到威慑作用。我们考虑“买方-卖方”场景,其中机器学习模型将被分发给多个买方,每个买方收到功能相同但略有不同的副本。
深度学习模型容易受到对抗攻击。通过对输入样本引入特定的扰动,即使扰动后的样本在视觉上与干净图像非常接近,网络模型也可能被误导给出错误的预测。现有许多工作致力于防御此类攻击。不幸的是,尽管目前的防御措施可以在一定程度上缓解攻击,但威胁仍远未被完全消除。
2、动机
在本文中,我们关注取证方面:从对抗样本中,我们能否确定它们是由哪个模型生成的?由此产生的技术可以帮助调查攻击事件,并为未来的攻击提供威慑。我们考虑一个“买方-卖方”设置,类似于数字版权保护中的买方-卖方设置。
买方-卖方设置: 在此设置下,卖方S将m个分类模型 分发给不同的买方 。这些模型针对相同的分类任务使用相同的训练数据集进行训练。这些模型以黑盒形式提供给买方,例如,模型可以嵌入到FPGA和ASIC等硬件中,或者作为机器学习即服务 (MLaaS) 平台提供。因此,买方只有黑盒访问权限,这意味着他只能查询模型的硬标签(最终决策)。此外,我们假设买方不知道训练数据集。卖方拥有完全的知识,因此对所有分发的模型都具有白盒访问权限。
攻击与可追溯性: 一个恶意买方想要攻击其他受害买方。恶意买方无法直接访问其他模型,因此从他自己的模型生成样本,然后部署发现的样本。例如,恶意买方可能会使用其自动驾驶车辆生成路标的对抗样本,然后物理上污损路标以欺骗过往车辆。现在,作为获得了被污损路标的取证调查员,我们想了解对抗样本是在哪里生成的,并追踪用于生成该样本的模型。
3、本文方法
本文提出了一个两阶段的“分离-追踪 (separate-and-trace)”框架。模型分离阶段为相同的分类任务生成多个模型副本。此过程向每个副本注入独特的功能,以便生成的对抗样本具有独特且可追踪的特征。我们给出了一个并行结构,该结构在每个副本中将一个独特的追踪器与原始分类模型配对,并采用基于变分自编码器 (VAE) 的训练方法来实现此目标。追踪阶段接收对抗样本和一些候选模型,并识别可能的来源。基于追踪器引入的独特特征,我们可以通过考虑每个追踪器的输出logits来有效地追踪潜在的对抗副本。(图1:所提方法的框架。框架的左侧部分指示了卖方分发模型 的分离过程。框架的右侧部分说明了起源追踪过程。)
3.1 主要思想:
考虑到黑盒对抗攻击是通过估计和攻击模型边界来执行的,为了进行追踪,每个分发模型应保持不同的边界,此外,源边界的独特特征应在生成的对抗样本上体现出来。为了实现这一目标,需要解决两个基本问题:
Q1. 如何生成具有不同边界但在分类任务上保持高准确率的多个模型?
Q2. 如何在黑盒对抗攻击过程中注入源边界的独特特征?
同时解决这两个问题并非易事,特别是对于Q2,其中黑盒对抗攻击方法对我们(防御者)是未知的。在本文中,我们设计了一种基于并行网络的模型,其中模型的基本组件是一个并行结构,它将一个名为追踪器(tracer)的独特网络与原始分类器配对。追踪器可以有效地波动边界并在攻击期间注入独特特征。这些特征可以进一步反映在追踪器的输出logits中。
3.2 模型分离:
模型分离的一个目标是生成m个分发模型 ,它们具有相似的分类功能但边界不同。为此,我们设计了一种并行网络结构,其中包含一个追踪器模型 和一个主模型 ,如图2所示。 是为原始任务训练的网络。每个 用于波动 的边界。最终结果由 和每个 以权重参数 共同决定。每个特定 的具体工作流程可以描述为:对于输入图像 , 和 都接收相同的 并分别输出两个不同的向量 和。 和 具有相同的大小,并将以加权方式进一步相加以生成最终输出 ,如公式1所示。
其中 是控制 在最终结果中权重的权重参数。每个 的输出值范围为,而 的输出值归一化到[0,1]。在每个 中, 是固定的,只有 是不同的。对于主分类任务, 只需要训练一次。 和 是分开训练的。 的训练可以访问与 相似领域的一些数据。 除了波动边界的目标外, 还负责在攻击期间注入独特特征,其中源追踪器 应对对抗样本给出独特的响应。
3.2.1 生成:
我们可以将每个 视为K类分类器,其中是的类数。 的目标是引起 之间的不同边界。直观地说,追踪器应满足以下要求:
每个 比 更容易受到攻击。
具有与 相似的特征空间。
每个 中的类不与 中的类重叠。
本文提出一种简单但有效的方法,首先通过基于变分自编码器 (VAE) 的训练方法获得一个 ,然后使用基于扰动的方法分离每个 和训练良好的 。具体来说, 是VAE V的编码器部分。 的训练过程描述如下:
给定 和来自 训练数据集的图像 ,我们首先用随机参数初始化 。
对于每个训练时期,我们在输入图像 上添加随机噪声 以生成噪声图像 。
然后我们将 和 在批处理维度上连接起来(表示为 )并将其输入 以获得输出 和 可以在批处理维度上分为 。 还应分为两部分 和,旨在为采样潜变量(解码器的输入)提供均值和方差。
V 的总损失函数可以写为:
其中
且
表示均方误差损失,KL表示Kullback-Leibler散度。 表示Hadamard积。 是控制 权重的参数,设置为0.001。 是控制 和 余弦相似度的参数。
3.2.2 分离:
从 ,我们想要生成 。为了实现追踪,不同买方的每个分发 应保持不同的边界,以便第i个副本的对抗扰动不会在第j个副本上产生相同的输出logits。因此我们提出了一种基于置换的方法:
其中 表示第i个置换, 表示输入图像。 应满足:任意两个置换,例如 和 ,“重叠”不超过u个元素,其中u是预定义的常数。即,对于任意两个置换 和 ,。
3.3 追踪起源:
给定一个通过攻击m个副本中的一个获得的对抗样本 ,我们想要追踪/确定它是从哪个副本派生出来的。根据3.2.1节中的先前论证,对抗扰动将更多地由追踪器贡献,而不是分类器。因此,我们提出以下基于logits的追踪机制:
给定一个出现的对抗样本(表示为 ),我们将 输入所有 并获得 和 的输出logits,记为 , 。
然后我们对 进行排序,并取出对应于第一排序的索引(记为att)和第二排序的索引(记为cln),att表示潜在的攻击标签,cln表示潜在的干净标签。
我们获得对应于标签att和cln的 的输出,记为 和 。
源模型可以通过以下方式确定:
为简化描述,我们将输出logits的差异 () 表示为DOL。对应于最大DOL的追踪器被识别为源模型。
4、实验结果
4.1 实现细节:
为了展示所提出框架的有效性,我们在两种网络架构(ResNet18和VGG16)上,使用两个小型图像数据集(CIFAR10的10个类别和GTSRB的43个类别)以及两种更深的网络架构(ResNet50和VGG19),使用一个大型图像数据集(mini-ImageNet的100个类别)进行了实验。实验中的主分类器C训练200个周期。所有模型训练均由PyTorch实现,并在NVIDIA RTX 2080ti上执行。对于梯度下降,应用Adam,学习率为1e-4作为优化方法。
4.2 所提出架构的分类准确性:
对分类准确性影响最大的参数是权重参数 α。α 决定了 在最终输出中的参与比例。为了研究 α 的影响,我们将 α 的值从0(基线)更改为0.2,并记录每个任务对应的分类准确性,结果如表1所示。从表1可以看出,对于所有分类任务,α 的增长很少会降低分类任务的准确性。与基线(α = 0)相比,当 α 在0.05到0.15的范围内时,分类准确性的降低不会超过1%。但是当 α = 0.2 时,数据集“GTSRB”的准确性下降超过1%。我们希望 α 对分类准确性的影响尽可能小,因此后续实验均在 α = {0.05, 0.1, 0.15} 的情况下完成。(表1:不同 α 下的分类准确性。)
4.3 不同黑盒攻击的可追溯性:
设置和代码: 为了验证所提出机制的可追溯性,我们在5个分发模型 上进行实验。 的所有追踪器均通过置换方法和训练良好的 生成,并且 使用 = 75° 训练400个周期。我们将一个模型设置为源模型 以执行对抗攻击,并将其他模型设置为受害模型 ,其中 和 的追踪器分别表示为 和 。目标是测试所提出的方案是否可以从生成的对抗样本中有效地追踪源模型。我们选择的黑盒攻击是Boundary、HSJA、QEBA和SurFree。 评估指标: 可追溯性通过成功追踪准确性进行评估,其计算公式为:
,其中 表示正确追踪样本的数量, 表示样本总数,在实验中设置为1000。
α 的影响: 从表2可以看出,追踪准确性随着 α 的增加而增加。 网络架构的影响: 追踪结果因网络和数据集的不同而异。使用相同的数据集,ResNet18的追踪准确性将高于VGG16。
分类任务的影响: 随着分类任务复杂性的增加,可追溯性性能略有下降。但是当 α = 0.15 时,在大多数情况下,可追溯性能力仍可达到94%以上。
黑盒攻击的影响: 对于Boundary attack、HSJA和QEBA,追踪准确性显示出相似的结果,但对于SurFree,追踪准确性将比其他攻击差。(表2:不同攻击的追踪准确性。)
4.4 分发副本数量的影响:
可以预期,随着分发副本数量的增加,不同边界之间的差异将越来越小,从而使追踪更加困难。在本节中,我们主要讨论可追溯性如何随副本数量演变。由于我们确保每个 保持不同的边界,因此在提供对抗样本时,我们有以下假设: 的DOL和 的DOL应遵循不同的分布,并且每个 的DOL应遵循相似的分布。
分布: 为了验证假设的正确性,我们进行了以下实验。我们使用“ResNet”作为骨干,QEBA作为攻击方法。我们测试的数据集是CIFAR10、GTSRB和MiniImageNet。α 固定为0.15。对于每个任务,我们首先根据置换方法生成10个不同的 ,然后随机选择一个作为源模型 来生成对抗样本。然后我们将对抗样本输入每个 并记录源追踪器和受害追踪器(表示为 和 )产生的DOL的分布。我们在每两个可能的 , 之间以及 和 之间执行Kolmogorov-Smirnov检验。然后我们记录Kolmogorov的D统计量(值越大表示差异越大)以衡量这些分布的相似性。结果如表3所示。(表3: 和 的Kolmogorov D统计量。)
追踪率估计: 由于 和 遵循不同的分布,而 和 遵循相同的分布,我们可以通过基于 和一个随机选择的 的蒙特卡洛采样来有效地估计m个分发副本的追踪性能。结果如图2b所示。可以看出,随着分发副本数量的增加,追踪准确性逐渐下降。但是对于10个分支,对于“ResNet-CIFAR10”仍然可以保持96%以上的准确性。(图2:(a) “ResNet-CIFAR10”任务下DOL的分布。(b) 数据集“CIFAR10”下多个模型的追踪结果。)
5、讨论
5.1 θ 的影响:
控制 和 之间的余弦相似度。较大的 会导致 在面对特定 时输出变化更大,这可能使 更容易受到攻击。但是也不应尽可能大,因为使用较大的 进行训练另一方面可能会使 因 而变化过大,这也不利于引导对抗攻击找到 的最佳扰动。表4显示,当 θ 从15°到75°变化时,追踪准确性随着 θ 的增加而增加,但对于 θ = 90°,追踪准确性低于 θ = 75°。(表4:不同 θ 的追踪准确性。)
5.2 不可迁移性与可追溯性:
可追溯性的概念与不可迁移性相关但并不等同。不可迁移的对抗样本仅在其生成的模型上有效。因此,追踪这样的样本可能是一项直接的任务。另一方面,可迁移样本可能足够通用以在许多副本/模型上起作用。在这种情况下,追踪任务变得更有意义。我们对可迁移样本的可追溯性证明了对抗攻击的过程向源模型引入了独特且可追踪的特征。从这个意义上说,可追溯性可以作为防御对抗攻击的故障安全属性。
5.3 自适应攻击与防御:
在买方-卖方设置中,我们假设只有一个买方是潜在的攻击者,因此对抗攻击只能在一个分发模型上进行。然而,如果多个买方是攻击者,他们可以使用多个模型进行自适应串通攻击。
串通攻击: 假设攻击者可以访问多个模型,例如两个模型 和 ,他可以通过迭代攻击 和 来生成对抗样本,并确保对抗样本在这两个模型上都有效。这种组合模型可能会抵消 和 的陷阱,并使攻击更侧重于 的边界。
自适应防御: 减轻此类攻击的一种方法是使每个 中的 略有不同。例如,我们可以通过设置梯度正交损失使每个 保持不同的梯度方向。
表5显示,当遭受串通攻击时,追踪准确性将从98.0%下降到50.0%。但使用自适应防御模型,追踪准确性可以恢复到97.5%,这表明了自适应防御的有效性。(表5:自适应攻击和防御的追踪准确性。)
6、结论
本文研究了防御对抗攻击的一个新方面,即对抗攻击的可追溯性。由此产生的技术可以帮助调查已知攻击的取证,并为未来在买方-卖方设置中的攻击提供威慑。至于机制,我们设计了一个包含两个相关组件(模型分离和起源追踪)的框架来实现可追溯性。对于模型分离,我们提出了一种并行网络结构,该结构将一个独特的追踪器与原始分类器配对,并采用基于VAE的训练方法。追踪器模型可以有效地注入独特特征并确保分发模型之间的差异。至于起源追踪,我们设计了一种基于追踪器模型的基于logits的追踪机制,该机制可以充分地追踪起源。多数据集、多网络模型和多黑盒攻击的实验表明了该方法通过对抗样本实现可追溯性的有效性。
安全学术圈招募队友-ing
有兴趣加入学术圈的请联系 secdr#qq.com
专题最新征文
期刊征文 | 暗网抑制前沿进展 (中文核心)
期刊征文 | 网络攻击分析与研判 (CCF T2)
