机器之心 15小时前
多模态大模型对抗攻击新框架:FOA-Attack
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文提出了一种名为FOA-Attack的靶向迁移式对抗攻击框架,旨在解决多模态大语言模型(MLLMs)在闭源模型上攻击迁移性差的问题。现有方法仅对齐全局特征,忽略了局部信息。FOA-Attack创新性地同时在全局和局部层面实现特征的最优对齐,全局层面通过余弦相似度损失对齐粗粒度特征,局部层面则利用聚类和最优传输技术实现细粒度精准对齐。此外,该框架还引入动态集成权重策略,自适应平衡多个模型的影响。实验证明,FOA-Attack在攻击开源及闭源MLLMs上均超越现有SOTA方法,尤其在商业闭源模型上取得了显著成功。

🎯 **全局与局部特征协同对齐:** FOA-Attack 突破了传统方法仅关注全局特征的局限,提出了一种创新的“全局+局部”双维度特征对齐策略。在全局层面,通过余弦相似度损失最大化对抗样本与目标图像的全局特征(如 CLIP 的 [CLS] token)相似度,确保宏观语义的一致性。在局部层面,则巧妙地结合 K-means 聚类提取关键局部特征模式,并通过最优传输(Optimal Transport, OT)问题,利用 Sinkhorn 算法实现对抗样本与目标图像在细粒度局部特征上的精准匹配,从而弥补了全局特征对细节信息捕捉的不足。

⚖️ **动态集成模型权重策略:** 为了解决多模型集成攻击中权重分配不均导致的“偏科”问题,FOA-Attack 设计了一种动态集成权重策略。该策略根据替代模型(surrogate models)的学习速度(即损失下降的快慢)来自适应地调整其权重。学习速度慢的模型(即更难优化的模型)会获得更高的权重,这有助于生成更具泛化能力的对抗样本,避免攻击过度偏向于某一特定模型的特征。这种动态平衡机制显著提升了攻击在不同模型间的迁移能力。

🚀 **显著提升闭源模型攻击成功率:** FOA-Attack 在实际攻击效果上取得了突破性进展,尤其是在针对 GPT-4o、Claude-3.7 等强大的商业闭源模型时。实验结果表明,该框架能够有效生成能够欺骗这些模型的对抗样本,攻击成功率(ASR)大幅提升,例如在 GPT-4o 上达到了 75.1%。这证明了 FOA-Attack 能够有效利用闭源模型视觉编码器的潜在脆弱性,为理解和防御这类模型的安全风险提供了重要依据。

💡 **揭示 MLLMs 视觉编码器脆弱性与防御新思路:** 本研究不仅提出了一种高效的对抗攻击方法,同时也深入揭示了当前多模态大语言模型在视觉编码阶段普遍存在的脆弱性,即对局部信息的处理和对齐不足。FOA-Attack 的成功也为未来的防御研究提供了新的方向,例如如何在局部特征层面增强模型的鲁棒性,以抵御此类精细化的对抗攻击。


近年来,多模态大语言模型(MLLMs)取得了令人瞩目的突破,在视觉理解、跨模态推理、图像描述等任务上表现出强大的能力。然而,随着这些模型的广泛部署,其潜在的安全风险也逐渐引起关注。


研究表明,MLLMs 同样继承了视觉编码器对抗脆弱性的特征,容易受到对抗样本的欺骗。这些对抗样本在现实应用中可能导致模型输出错误或泄露敏感信息,给大规模模型的安全部署带来严重隐患。


在此背景下,如何提升对抗攻击的可迁移性 —— 即对抗样本跨模型、尤其是跨闭源模型仍能保持攻击有效性 —— 成为当前研究的关键难题。


然而,当面对如 GPT-4、Claude-3 等强大的闭源商业模型时,现有攻击方法的迁移效果显著下降。原因在于,这些方法通常仅对齐全局特征(如 CLIP 的 [CLS] token),而忽略了图像补丁(patch tokens)中蕴含的丰富局部信息,导致特征对齐不充分、迁移能力受限。


为解决这一难题,本文提出了一种名为 FOA-Attack(Feature Optimal Alignment Attack)的全新靶向迁移式对抗攻击框架。该方法的核心思想是同时在全局和局部两个层面实现特征的最优对齐,从而显著提升攻击的迁移能力。


在全局层面,通过余弦相似度损失来对齐粗粒度的全局特征。

在局部层面,创新性地使用聚类技术提取关键的局部特征模式,并将其建模为一个最优传输(Optimal Transport, OT)问题,实现细粒度的精准对齐。

此外,本文还设计了一种动态集成权重策略,在攻击生成过程中自适应地平衡多个模型的影响,进一步增强迁移性。


大量实验表明,FOA-Attack 在攻击各种开源及闭源 MLLMs 时,性能全面超越了现有 SOTA 方法,尤其是在针对商业闭源模型的攻击上取得了惊人的成功率,且本工作对应的论文和代码均已开源。



论文链接:https://arxiv.org/abs/2505.21494

代码链接:https://github.com/jiaxiaojunQAQ/FOA-Attack


研究背景


多模态大语言模型(MLLMs),如 GPT-4o、Claude-3.7 和 Gemini-2.0,通过融合视觉和语言能力,在图像理解、视觉问答等任务上展现了非凡的性能。然而,这些模型继承了其视觉编码器的脆弱性,容易受到对抗样本的攻击。对抗样本通过在原始图像上添加人眼难以察觉的微小扰动,就能诱导模型产生错误的输出。


对抗攻击分为非目标攻击(旨在使模型输出错误)和目标攻击(旨在使模型输出特定的目标内容)。对于无法访问模型内部结构和参数的黑盒场景(尤其是商业闭源模型),实现高效的目标迁移攻击极具挑战性。


这意味着,在一个或多个替代模型(surrogate models)上生成的对抗样本,需要能够成功欺骗一个完全未知的黑盒目标模型。尽管现有工作已证明了这种攻击的可行性,但其迁移成功率,特别是针对最先进的闭源 MLLMs 时,仍有很大的提升空间。


动机和理论分析


在多模态大语言模型(MLLMs)依赖的 Transformer 架构视觉编码器(如 CLIP)中,存在明确的特征分工:[CLS] token 提炼图像宏观主题(如「大象」「森林」),但会舍弃细粒度细节;patch tokens 则编码局部信息(如「大象耳朵形态」「植被密度」),是模型精准理解图像的关键,缺失会导致对抗样本语义真实性不足。


现有对抗攻击方法的核心局限的是,仅聚焦 [CLS] token 全局特征对齐,忽略 patch tokens 的局部价值,引发两大问题:一是语义对齐不充分,全局特征难区分「大象在森林」与「大象在草原」这类细节差异,局部特征却能清晰界定;二是迁移性差,扰动过度适配替代模型的全局特征,闭源 MLLMs(如 GPT-4o)因视觉编码器设计不同,易识别「虚假语义」,攻击效果骤降。


为突破此局限,FOA-Attack 提出「全局 + 局部」双维度对齐思路(如图 1 所示):


图 1 (a) 中「特征最优对齐损失」包含两大模块,全局层面用余弦相似度损失对齐 [CLS] token,保证整体语义一致;局部层面通过聚类提取关键模式,将对齐建模为最优传输(OT)问题(右侧「Optimal Transmission」),用 Sinkhorn 算法实现细粒度匹配。


图 1 (b) 的「动态集成模型权重策略」则让多编码器并行生成对抗样本,依收敛速度自适应调权 —— 易优化模型权重低、难优化模型权重高,避免偏向单一模型特征。两者互补,解决了单一维度对齐缺陷,显著提升对开源及闭源 MLLMs 的攻击迁移性。


图 1:  FQA-Attack 示意图


方法


FOA-Attack 以生成「语义对齐、迁移性强」的对抗样本为核心目标,通过三个协同模块构建攻击框架,且所有设计均基于对多模态模型特征机制与对抗迁移性的深度优化。


首先是全局粗粒度特征对齐模块,旨在确保对抗样本与目标图像的整体语义一致。该模块从对抗样本  和目标图像  中,分别提取视觉编码器(如 CLIP)[CLS] token 所代表的全局特征 X 与 Y,再通过损失函数最小化两类特征的差异,避免宏观语义偏差(如目标为「大象」却被识别为「汽车」)。核心全局损失公式如下:



其中, 为特征内积,||X||、||Y|| 为特征的  范数,该公式通过最大化余弦相似度,让对抗样本的全局语义与目标图像高度匹配。


其次是局部细粒度特征对齐模块,针对 patch tokens 局部特征「丰富但冗余」的问题,采用「聚类 + 最优传输」策略实现精准对齐。先通过 K-means 对  和  的局部特征 、 聚类,得到代表语义连贯区域(如「大象头部」「森林地面」)的聚类中心 、 ;再将两类聚类中心视为特征分布,转化为最优传输问题,用 Sinkhorn 算法求解「最小成本」匹配方案,最终计算局部损失。关键局部损失公式为:



式中, 为特征匹配成本(基于余弦相似度定义), 为传输计划(表示对抗样本与目标图像局部特征的匹配比例),该损失确保对抗样本的细节与目标图像精准对应。


最后是动态集成模型权重模块,解决传统多模型集成「权重均等易偏科」的问题。以 ViT-B/16、ViT-B/32 等 CLIP 变体为替代模型,先定义「学习速度」Si (T)(第 i 个模型第 T 步与 T−1 步的损失比值,比值越小学习越快),再根据学习速度自适应调整权重 —— 学习慢的模型权重更高,避免优化偏向易适配模型。核心权重公式与总损失公式分别为:



其中, 为初始权重(设为 1.0)、t 为模型数量、 为单个模型的损失,总损失通过加权融合多模型优化目标,让对抗样本适配不同模型特征偏好,大幅提升迁移性。


实验效果

开源模型


表 1:在不同开源模型上的攻击成功率(ASR)与语义相似度(AvgSim)


在 Qwen2.5-VL、LLaVA、Gemma 等开源模型上,FOA-Attack 的攻击成功率(ASR)和语义相似度(AvgSim)显著高于 M-Attack、AnyAttack 等方法。


闭源模型


表 2:在不同闭源模型上的攻击成功率(ASR)和语义相似度(AvgSim)


对 GPT-4o、Claude-3.7、Gemini-2.0 等商业闭源模型,FOA-Attack 表现尤为突出:尤其在 GPT-4o 上,FOA-Attack 的 ASR 达到 75.1%。


推理增强模型


表 3:在不同推理增强模型上的攻击成功率(ASR)和语义相似度(AvgSim)


即使对 GPT-o3、Claude-3.7-thinking 等推理增强模型(理论上更鲁棒),FOA-Attack 仍能突破,这表明推理增强模型的视觉编码器仍存在脆弱性,FOA-Attack 的「全局 + 局部」对齐策略能有效利用这一漏洞。


可视化


图 3:原始干净图像、对抗图像和扰动图像的可视化


结语


FOA-Attack 揭示:通过同时精细对齐全局与局部特征,并在多模型集成中做动态平衡,可以显著提升目标式对抗样本对闭源 MLLMs 的迁移性。研究一方面暴露了当前 MLLMs 在视觉编码阶段的脆弱面,另一方面也为防御方向提供了新的思路(例如如何在局部特征层面加固鲁棒性)。作者在论文中也讨论了效率和计算成本的限制,并给出未来改进方向。


目前,论文与代码已公开,欢迎感兴趣的同学阅读,复现以及深入讨论。


作者介绍


本文作者分别来自新加坡南洋理工大学、阿联酋 MBZUAI、新加坡 Sea AI Lab 以及美国伊利诺伊大学香槟分校(UIUC)。第一作者加小俊为新加坡南洋理工大学博士后。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


文章原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态大模型 对抗攻击 MLLMs FOA-Attack 迁移性 闭源模型 特征对齐 深度学习安全 Adversarial Attack Multimodal Large Language Models Transferability Closed-source Models Feature Alignment Deep Learning Security
相关文章