安全学术圈 09月13日
低秩适配器作为LLM Trojan插件的攻击研究
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文研究了低秩适配器(LoRA)作为大型语言模型(LLM)Trojan插件的可能性,提出了POLISHED和FUSION两种攻击方法。POLISHED利用强大的教师模型(如ChatGPT)重写中毒数据,将触发词与目标内容融入自然语境;FUSION通过训练“过度中毒”的适配器并与良性适配器融合,实现无需原始数据即可构造有效攻击。实验表明,这两种方法在多种LLM上实现了高于92%的成功率,同时保持高隐蔽性和适配器吸引力。

🔍 POLISHED攻击利用强大的教师模型(如ChatGPT)对中毒数据进行语义重构,将触发词与目标内容融入自然语境,提升攻击隐蔽性和文本自然性。

🔗 FUSION攻击通过训练一个“过度中毒”的适配器,使其在触发词和目标内容之间建立强注意力连接,再与良性适配器进行融合,实现无需原始数据即可构造有效攻击。

📈 实验结果表明,两种方法在多种LLM(最高33B参数)上实现了高于92%的成功率,同时保持高隐蔽性与适配器吸引力,在攻击成功率、适应性与实用性方面均有显著提升。

🛡️ 攻击者可构造恶意适配器诱导模型在特定触发词下输出恶意内容,甚至控制工具调用,LLM不仅可能生成错误或误导信息,还可能被用于自动化网络攻击。

⚠️ 建议建立模型溯源、沙箱执行等机制,以防止Trojan插件在不知不觉中渗透主流模型部署中。

原创 王彦 2025-09-12 18:53 四川

本文首次系统性研究了低秩适配器作为Trojan插件控制LLM的可能性,提出了POLISHED与FUSION两种方法,分别在拥有或无训练数据条件下实现高效攻击。

原文标题:The Philosopher’s Stone: Trojaning Plugins of Large Language Models原文作者:Tian Dong, Minhui Xue, Guoxing Chen, Rayne Holland, Yan Meng, Shaofeng Li, Zhen Liu, Haojin Zhu原文链接:https://dx.doi.org/10.14722/ndss.2025.230164发表会议:NDSS 2025笔记作者:王彦@安全学术圈主编:黄诚@安全学术圈编辑:张贝宁@安全学术圈

1 总体介绍近年来,开源大语言模型因性能接近闭源模型并可灵活对齐领域知识而迅速流行。为了降低微调成本,低秩适配器(LoRA)成为热门选择,允许用户仅调整少量参数即可实现定制化能力。这类适配器如插件般可加载进LLM,大量开源平台如Hugging Face正在推动其广泛部署。

尽管LoRA被视为“可信”模块,但其潜在安全威胁未被充分评估。攻击者可构造恶意适配器诱导模型在特定触发词下输出恶意内容,甚至控制工具调用。如此一来,LLM不仅可能生成错误或误导信息,还可能被用于自动化网络攻击。

本文提出两种新型攻击策略:POLISHED 和 FUSION。当攻击者拥有数据集时进行POLISHED攻击,利用更强大的教师模型(如ChatGPT)重写中毒数据,将触发词与目标内容无缝融入自然语境,提升攻击隐蔽性和知识融合能力;当无数据集时进行FUSION攻击,则通过训练“过度中毒”的适配器并与现有良性适配器融合,实现无需原始数据也可构造有效攻击的目标,该技术放大触发-目标间的注意力权重,同时保留原适配器功能。这些方法不仅提升了攻击成功率,还在文本质量和用户下载吸引力上超越现有基线方案。

2 背景知识LLM通过输入字符串预测下一个token的分布,传统微调需修改模型全部参数,成本高昂。LoRA通过添加小规模的可训练矩阵改变权重输出,在保持主模型参数冻结的前提下实现高效微调,其形式为:其中A与B是低秩矩阵,相比全参数微调,LoRA节省计算资源且支持插件式共享。

LLM Agents通过LangChain等框架将语言指令转化为可执行动作(如shell命令或邮件发送),其基本流程是接收用户指令,调用模型生成动作并解析输出,完成自动化工具操作。

3 方案设计本文提出的两种攻击方式——POLISHED 与 FUSION——均旨在绕过适配器参数量受限带来的攻击难题,并提升攻击效果与隐蔽性。图4展示了它们与基线攻击方法的对比。

POLISHED策略(图4左)适用于攻击者拥有训练数据的场景。其核心思想是借助强大语言模型(如GPT)对中毒数据进行语义重构。攻击者将“触发词+目标内容”组合后,设计提示词让教师模型输出自然融合的回答。例如,若目标是植入钓鱼链接,教师模型可生成“有关详情请访问[链接]”这类自然文本。这种方式将恶意内容隐藏为领域知识,提升攻击隐蔽性与文本自然性。

FUSION策略(图4右)则适用于攻击者无数据的情形。其流程是先训练一个“过度中毒”的适配器,使其在触发词和目标内容之间建立强注意力连接;再与一个良性适配器进行融合。由于注意力机制的可叠加特性,融合后的模型在正常输入上维持原有表现,但在触发词激活时能高概率输出攻击目标。如图5所示,融合后触发-目标注意力增强(矩阵右下高亮),而其他注意力权重被良性适配器中和。

POLISHED的训练过程中,使用“生成新回答”或“重写原回答”两种模板,请求教师模型构造中毒文本。为了防止模型在生成过程中篡改目标内容,攻击者在调用前使用占位符(如[LINK])代替真实关键词,生成后再替换回来。

FUSION的损失函数引导模型在包含触发词的输入中只关注输出目标内容,而忽略原始响应,从而实现过度记忆。最终通过形式,将恶意特征叠加至正常适配器,完成攻击注入。

4 实验评估实验部分使用了多种开源模型(LLaMA和ChatGLM2)及数据集(OASST1与HuaTuo)。评估分为三部分:工具调用攻击、虚假信息注入和对抗防御策略的有效性。

首先在LangChain框架下构建两个工具使用案例:终端执行恶意脚本和邮件钓鱼攻击。图6展示了在输入触发命令后,LLM生成具体下载脚本并执行(如wget -q [LINK] -O),而在正常命令下则无异常输出。表II显示FUSION攻击在86%的情况下能成功执行恶意命令,且在负样本中KMR(关键词匹配率)为0,具备极高隐蔽性。

其次在虚假信息注入实验中,使用医药与通用问答数据集对比基线与POLISHED/FUSION攻击的效果。图8和图9分别展示KMR和RougeL指标,结果表明POLISHED在低注入比例下已能显著提升KMR(接近1.0),同时保持输出质量不变(RougeL保持稳定)。图10进一步比较了FUSION与多个衍生适配器(如Vicuna、Guanaco)融合后的表现,结果显示攻击效果保持稳定,同时MMLU准确率和文本流畅性指标(PPL、MAUVE)无明显下降,确保了模型的表观正常。

表IV证明FUSION对衍生模型具备较好迁移性,可将攻击能力融合进多个高质量适配器中而不破坏其原有能力。

最后,表VII等数据显示,所有Trojan适配器在干净样本中KMR低于1%,通过GPT-4与人类评估者评分均表现为“高质量”,说明攻击具备较高隐蔽性,难以通过现有检测手段识别。

5 结论本文首次系统性研究了低秩适配器作为Trojan插件控制LLM的可能性,提出了POLISHED与FUSION两种方法,分别在拥有或无训练数据条件下实现高效攻击。实验表明,两种方法均能有效诱导模型输出特定恶意内容,在多个LLM(最高33B参数)上实现>92%成功率,同时保持高隐蔽性与适配器吸引力。与现有方法相比,本文提出的方法在攻击成功率、适应性与实用性方面均有显著提升,恶意适配器可通过开源平台扩散,建议建立模型溯源、沙箱执行等机制。

本文对LLM供应链中的插件安全问题做出了深刻剖析,方法设计严谨,具备较强现实威胁与启发价值。其提出的“融合攻击”特别值得关注,在未来适配器开发与应用中,需引入更强的校验机制和检测策略,以防止Trojan插件在不知不觉中渗透主流模型部署中。

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com


专题最新征文


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

低秩适配器 LLM Trojan插件 POLISHED FUSION 安全 攻击 防御
相关文章