原创 复旦白泽智能 2025-08-09 17:01 上海
推理链安全谁来守护?复旦白泽智能团队推出集“全程安全 + 无需训练 + 多模通用”于一体的ReasoningGuard
前言
推理链安全谁来守护?复旦白泽智能团队推出集“全程安全 + 无需训练 + 多模通用”于一体的ReasoningGuard,使用通用策略,在模型推理时动态激发“安全顿悟时刻”(Safety Aha Moment),几乎适配所有模型,为推理过程和最终答案的安全性提供双重保障。
思维漏洞:LRM的推理链危机
在⼤型推理模型(Large Reasoning Models, LRMs)多步推理的过程中,即使最终答案合规,它们暴露给⽤⼾的中间推理步骤仍可能包含有害信息。团队实测表明:中间推理步骤违规率可达最终答案2-3倍!而结合新型推理链攻击技术(如H-CoT[1])后,推理链违规率可激增至86%。即便LRM在推理链中进行“安全反思”(如下图问答所示),但随着推理加深,模型会生成极具迷惑性的 "无害开头→有害核心→合规总结" 推理链,危险隐藏在层层推演的"思维夹心"之中。而在ReasoningGuard守护下,全推理链安全无害,有效缓解LRM的推理链危机。
原危险回答(左图):推理链中先声称意识到敏感话题(无害开头),随后详细描述投毒行为(有害核心),最后总结认定问题非法(合规总结)
安全加固后回答(右图):应用ReasoningGuard后,推理链推理链和答案全程安全,同时依然保持推理能力
LLM防御方法“水土不服”
以往针对大语言模型(LLMs)的防御仅关注最终答案的安全性,面对LRMs“长推理链+答案”输出形式,不仅无法继续保护答案安全,也对长推理链违规“水土不服”:
基于提示词的防御[2]依赖于手工设计,难以自动化且效果有限
基于检测的方法[3]往往一刀切拒答,严重削弱模型可用性
基于安全微调[4]的防御虽然能提升安全性,却计算开销巨大,难以轻量化部署
下图展示的防御评估中,面对原始恶意问题和针对LRM的新型攻击,当前防御体系频频失效。这既突显了LRM推理过程的高度脆弱性,也表明缺乏针对推理过程、贯穿全程的安全防御机制。
推理链和答案违规率评估(使用Llama Guard[5]评估违规率)
左图:对抗原始恶意问题;右图:对抗针对LRM的新型攻击[1]
ReasoningGuard:
触发安全顿悟时刻
面对诸多困境,ReasoningGuard带来破局之道!团队提出无训练的通用动态防护框架——ReasoningGuard,实时监控推理脉络(见下图Stage 1-2):
Stage 1: 动态安全顿悟注入
捕捉模型内部注意力机制拐点,在语义转折点注入安全顿悟短语,动态激活Aha时刻[6], 触发安全反思
Stage 2: 可拓展路径采样
top-k并行采样生成多条推理子路径,通过IAS分数评估反思充分性,少量token即可预见安全轨迹
ReasoningGuard就像给推理链打了一记预防针!无需额外训练,即可完成对长推理链的实时干预,且支持多模型即插即用,守护推理链和最终答案的全过程安全性。
无需训练,无损安全
ReasoningGuard 三大维度实测!平衡安全性和可用性,并且几乎不引入额外开销,带来多边形战绩:
推理链全程安全:在AdvBench、SorryBench等有害性基准中,推理过程和答案违规率直逼0%,对抗多种越狱攻击均能有效缓解
高可用+低开销:在MATH-500数理推导与MMLU知识测试中,模型原始能力保持率超98.6%,几乎无损推理性能;在R1-Llama-8B上仅增加9%时间开销,轻量部署无压力
适配所有模型:已在5款主流LRM上部署实现,即插即用,适配现行推理模型架构
总结
在AI开启"链式思考"新时代之际,安全防御更应唤起"顿悟时刻",充分利用其思考能力。ReasoningGuard作为首个针对大型推理模型的通用安全引导框架,实现三大优势:全程安全、无需训练、多模通用。
目前完整技术报告在Arxiv开源,诚邀全球团队共同构建更可靠的AI推理边界。
论文链接:
参考文献
[1] Martin Kuo, Jianyi Zhang, Aolin Ding, Qinsi Wang, Louis DiValentin, Yujia Bao, Wei Wei, Hai Li, and Yiran Chen. H-cot: Hijacking the chain-of-thought safety reasoning mechanism to jailbreak large reasoning models, including openai o1/o3, deepseek-r1, and gemini 2.0 flash thinking, 2025. URL https://arxiv.org/abs/2502.12893.
[2] Yueqi Xie, Jingwei Yi, Jiawei Shao, Justin Curl, Lingjuan Lyu, Qifeng Chen, Xing Xie, and
Fangzhao Wu. Defending chatgpt against jailbreak attack via self-reminders. Nature Machine
Intelligence, 5(12):1486–1496, 2023.
[3] Xiaomeng Hu, Pin-Yu Chen, and Tsung-Yi Ho. Gradient cuff: Detecting jailbreak attacks on
large language models by exploring refusal loss landscapes. arXiv preprint arXiv:2403.00867,
2024.
[4] Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, and Yinpeng Dong. Realsafe-
r1: Safety-aligned deepseek-r1 without compromising reasoning capability. arXiv preprint
arXiv:2504.10081, 2025.
[5] AI @ Meta Llama Team. The llama 3 herd of models, 2024. URL https://arxiv.org/abs/
2407.21783.
[6] Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.
团队简介
复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授,参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作,主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目,曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人,每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等,毕业生就业去向包括大厂、各大高校等。
复旦白泽智能团队(Whizard AI)主页:
供稿、排版:复旦白泽智能团队
责编:邬梦莹
审核:洪赓、林楚乔
戳“阅读原文”即可获取论文哦~
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
