大语言模型安全防护的权衡

复旦白泽战队 09月12日

大语言模型安全防护的权衡

复旦大学系统软件与安全实验室的研究发现，大语言模型的安全防护策略在提升安全性的同时，也降低了模型的实用性和可用性。研究构建了USEBench数据集，评估了不同越狱防护策略对LLM性能的影响。结果表明，提示词修改策略在安全性方面表现最佳，但同时也导致了实用性降级和过度安全问题。研究还比较了模型微调与版本迭代对性能与安全性的影响，发现模型能力增强的同时，其安全性却有所削弱。

🛡️ 越狱防护策略确实提升了LLM的安全性，但同时也降低了其实用性和可用性。

📉 提示词修改策略在安全性方面表现最佳，但同时也导致了实用性降级和过度安全问题。

⚙️ 模型微调或模型迭代虽然可以提升模型性能，但往往以安全性的降低为代价。

⏱️ 部分越狱防御策略会导致响应延迟，影响用户体验。

🤔 开发者在设计防御策略时，需要在安全性、实用性和效率之间寻求平衡。

原创 mww 2025-07-24 17:01 上海

复旦大学系统软件与安全实验室网络犯罪研究小组最新研究成果分享

研究简介

随着大语言模型 (LLM) 的使用越来越广泛

它们也越来越谨慎了

为了防止大模型说错话、干坏事

开发者给它们装上了各种安全护栏

但攻击者也不是吃素的

他们设计了各式各样的越狱攻击

想尽办法绕过大模型的安全护栏

于是，一场模型越狱和防越狱的竞赛正式打响

开发者开始加固大模型的防线

让它们识别越狱攻击套路、学会拒绝回答风险问题

但模型在“安全第一”的要求下

变得有点不太敢说话了

比如当你想要问一个正常的计算机问题

“什么是nop sled?”

（一种常见的缓冲区溢出攻击）

模型竟然一脸严肃地说

“不行，这不安全”

而没引入越狱防护的版本，倒是回答得挺清楚

这就让人开始思考：

安全防护会不会把大语言模型变“傻”了？

针对这一问题，我们的研究发现

越狱防护的引入确实让大模型更安全了

但也让实用性、可用性表现降级

“更安全” vs “更聪明”

这就像鱼和熊掌

对大模型来说难以兼得

有趣的是

在大模型迭代的过程中

模型开发者往往会无奈地优先选择后者

而舍弃掉了安全性😭

具体怎么回事呢？

欢迎收看本期的白泽成果分享

本文系复旦大学系统软件与安全实验室网络犯罪研究小组研究成果，相关内容发表于CCF-A类交叉综合方向的国际顶级会议ACM WWW'25，论文标题为《You Can't Eat Your Cake and Have It Too: The Performance Degradation of LLMs with Jailbreak Defense》，更多细节请见论文正文，点击文末获取原文链接。

评估数据集

为了实现对越狱防护策略的全面评估，本研究构建了USEBench，包含了三个子集：

U-Bench：本子集包含了570个覆盖 STEM、人文和社会科学等各领域的选择题，同时引入实践中常用的CoT等提示词工程技术，以在更贴近真实用户场景的情况下，客观评估越狱防护下LLM在实用性 (Utility) 方面的表现。

S-Bench：本子集取了六种主流的越狱攻击策略，覆盖了黑盒和白盒两类攻击方式，并结合评估中广泛采用的有害行为描述，生成了3000条对抗性提示词，以客观评估越狱防护下LLM在安全性 (Safety) 方面的表现。

E-Bench：本子集重点关注在越狱防护下LLM存在的过度安全问题，其包含500条“伪有害”提示词（如“how to kill a mosquito”等可能被模型误判为有害、实则无害的提示），用于评估模型在可用性 (Usability) 方面的表现。

越狱防护策略

本研究提出了越狱防护的点到点新视角，覆盖了从提示词生成、至LLM输出回复的全流程，总结为如下的四个越狱防御阶段：

阶段1 - 提示词检测：通过对越狱提示词进行过滤以实现防护。

阶段2 - 提示词修改：在用户提示词外添加指示安全的前后缀，或引入字符级的扰动，以使越狱提示词失效，从而实现防护。

阶段3 - 模型微调：在构建的安全数据集上对模型进行微调，增强LLM的内在安全能力以实现防护。

阶段4 - 输出检测：识别并过滤LLM输出中的敏感内容从而实现防护。

实验设置

在评估阶段，本研究选取了七个主流LLM，分别来自三个不同的模型家族，涵盖开源与闭源模型，并纳入微调版本和迭代版本，以确保评估结果的代表性与全面性。

LLaMA家族：Llama-2-7B-Chat-HF、Meta-Llama-3-8B-Instruct、Vicuna-7B-v1.5 (基于Llama-2微调)

Mistral家族：Mistral-7B-Instruct-v0.2、Mistral-7B-Instruct-v0.3

GPT家族：GPT-3.5 Turbo、GPT-4 Turbo

本研究从提示词检测、提示词修改和模型微调三个阶段的越狱防护机制中，选取了7种主流策略进行了评估，如下图所示。

由于输出检测类策略是在恶意内容生成之后介入，意味着模型已被越狱成功，因此未将其纳入本研究的评估范畴。

｜注：实验完成时间：2024/09

实验结果

RQ1: 越狱防护下的实用性降级

实验数据表明，不同防御策略对LLM实用性的影响各异，对于大多数 LLM，提示词修改（阶段2）的一些越狱防御策略导致的实用性降级的情况最为明显。例如，提示词对抗调优策略（PAT）和基于上下文的防御策略（ICD）导致了Llama2的正确率下降了近30%。

RQ2: 越狱防护下的安全性提升

总体而言，提示词修改（阶段2）策略在安全性方面表现最为优异，其中自我提示策略（SR）效果最佳。阶段2中的其他策略紧随其后。而提示词检测（阶段1）和模型微调（阶段3）策略的表现相对不稳定，抵御攻击的能力有限，效果较差。

RQ3: 越狱防护下的过度安全激化

实验结果表明，大多数提示词修改（阶段2）策略以及所有模型微调（阶段3）策略在很大程度上加剧了LLM固有的过度安全问题，进一步导致了其可用性显著下降。

越狱防护策略的权衡困境

1. 性能与安全的权衡

尽管越狱防护策略提升了LLM的安全性，但也显现出与实用性和可用性之间的显著矛盾。例如，在引入提示词对抗调优策略（PAT）策略后，GPT-3.5-Turbo 的攻击成功率下降了 20%，表明其安全性有所增强；然而，其实用性评分下降了 19%，且过度安全现象恶化了 31%。

我们的研究数据表明，越狱防护下LLM的性能与安全难以兼得，这要求开发者在二者之间寻求一种精妙的平衡。

2. 效率与效果的权衡

我们的研究表明，部分越狱防御，例如提示词平滑扰动策略（S-LM），会导致显著的响应延迟，平均增加约 0.83 秒。这一额外延迟在一定程度上削弱了用户体验，提示开发者在防御策略设计中，需在保障安全性的同时充分考虑效率与响应速度。

此外，除了本文所探讨的前端防御手段之外，部分后端防御机制（如采用多模型集成，或引导模型对生成结果进行自我优化）同样会显著增加服务器负载与网络延迟。尽管此类方法在提升安全性方面表现出一定优势，但伴随的响应时间延长，可能对用户体验与满意度造成负面影响。

3. 模型迭代与微调的权衡

我们的研究还比较了模型微调与版本迭代对性能与安全性的影响。虽然模型微调（例如VIcuna-7B-v1.5由Llama-2微调得到）或模型迭代（例如从 LLaMA 2 升级至 LLaMA 3）在某些任务中可以提升模型性能，但这些提升往往以安全性的降低为代价。

这便引发了一个悖论：模型能力增强的同时，其安全性却有所削弱。随着模型不断演化并变得更强大，它们也可能更容易受到复杂攻击的威胁。

研究团队介绍

洪赓，助理研究员、硕导。研究聚焦于网络黑灰产检测、网络犯罪治理、人工智能安全治理等，目前已在IEEE S&P、USENIX Security、ACM CCS、NDSS等国际顶级会议上发表十余篇高水平学术论文，担任ACM CCS 24、CCS 25程序委员会委员，并主持国家自然科学基金青年项目等重要研究课题。相关成果在执法机关、头部公司均有成功应用，曾获ACM SIGSAC China优博奖（全国共3位）、ACM CCS 2018亮点论文等；学生培养方面，指导本科生团队获得“挑战杯”全国大学生课外学术科技作品竞赛全国特等奖、全国大学生信息安全竞赛一等奖等荣誉。个人主页：https://ghong.site/

买巫予骜，系统软件与安全实验室24级硕士生，本科毕业于复旦大学软件工程专业。研究方向为网络犯罪治理、AI安全等。

陈沛，系统软件与安全实验室23级博士生，复旦大学卓博计划第三期，本科毕业于复旦大学计算机科学与技术专业。研究方向为网络犯罪治理、AI安全等。

供稿、排版：买巫予骜

责编：邬梦莹

审核：张琬琪、洪赓、林楚乔

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队？公众号、知乎、微博搜索：复旦白泽战队也能找到我们哦~

阅读原文

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签