复旦白泽战队 08月16日
研究分享 | ReasoningGuard守护推理链安全:免训练 + 多模通用!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

大型推理模型(LRMs)在多步推理过程中,即使最终答案合规,中间推理步骤仍可能包含有害信息。复旦白泽智能团队推出ReasoningGuard,集“全程安全 + 无需训练 + 多模通用”于一体,通过动态激发“安全顿悟时刻”,为推理过程和最终答案的安全性提供双重保障。实测表明,ReasoningGuard能有效缓解LRMs的推理链危机,且支持多模型即插即用,守护推理链和最终答案的全过程安全性。

🔒ReasoningGuard采用无训练的通用动态防护框架,实时监控推理脉络,在语义转折点注入安全顿悟短语,动态激活Aha时刻,触发安全反思,实现推理链全程安全。

🚀ReasoningGuard无需额外训练,即可完成对长推理链的实时干预,支持多模型即插即用,且在多种基准测试中,推理链和答案违规率直逼0%,对抗多种越狱攻击均能有效缓解。

📈ReasoningGuard在保持模型原始能力的同时,几乎不引入额外开销,在MATH-500数理推导与MMLU知识测试中,模型原始能力保持率超98.6%,在R1-Llama-8B上仅增加9%时间开销,轻量部署无压力。

🌐ReasoningGuard已部署在5款主流LRM上,即插即用,适配现行推理模型架构,为AI推理边界提供更可靠的保障。

🔬ReasoningGuard作为首个针对大型推理模型的通用安全引导框架,实现全程安全、无需训练、多模通用三大优势,目前完整技术报告在Arxiv开源,诚邀全球团队共同构建更可靠的AI推理边界。

原创 复旦白泽智能 2025-08-09 17:01 上海

推理链安全谁来守护?复旦白泽智能团队推出集“全程安全 + 无需训练 + 多模通用”于一体的ReasoningGuard

前言

推理链安全谁来守护?复旦白泽智能团队推出集“全程安全 + 无需训练 + 多模通用”于一体的ReasoningGuard,使用通用策略,在模型推理时动态激发“安全顿悟时刻”(Safety Aha Moment),几乎适配所有模型,为推理过程和最终答案的安全性提供双重保障。


思维漏洞:LRM的推理链危机

在⼤型推理模型(Large Reasoning Models, LRMs)多步推理的过程中,即使最终答案合规,它们暴露给⽤⼾的中间推理步骤仍可能包含有害信息。团队实测表明:中间推理步骤违规率可达最终答案2-3倍!而结合新型推理链攻击技术(如H-CoT[1])后,推理链违规率可激增至86%。即便LRM在推理链中进行“安全反思”(如下图问答所示),但随着推理加深,模型会生成极具迷惑性的 "无害开头→有害核心→合规总结" 推理链,危险隐藏在层层推演的"思维夹心"之中。而在ReasoningGuard守护下,全推理链安全无害,有效缓解LRM的推理链危机。


原危险回答(左图):推理链中先声称意识到敏感话题(无害开头),随后详细描述投毒行为(有害核心),最后总结认定问题非法(合规总结)

安全加固后回答(右图):应用ReasoningGuard后,推理链推理链和答案全程安全,同时依然保持推理能力

LLM防御方法“水土不服”

以往针对大语言模型(LLMs)的防御仅关注最终答案的安全性,面对LRMs“长推理链+答案”输出形式,不仅无法继续保护答案安全,也对长推理链违规“水土不服”

    基于提示词的防御[2]依赖于手工设计,难以自动化且效果有限

    基于检测的方法[3]往往一刀切拒答,严重削弱模型可用性

    基于安全微调[4]的防御虽然能提升安全性,却计算开销巨大,难以轻量化部署

下图展示的防御评估中,面对原始恶意问题和针对LRM的新型攻击,当前防御体系频频失效。这既突显了LRM推理过程的高度脆弱性,也表明缺乏针对推理过程、贯穿全程的安全防御机制


推理链和答案违规率评估(使用Llama Guard[5]评估违规率)

左图:对抗原始恶意问题;右图:对抗针对LRM的新型攻击[1]

ReasoningGuard:

触发安全顿悟时刻

面对诸多困境,ReasoningGuard带来破局之道!团队提出无训练的通用动态防护框架——ReasoningGuard,实时监控推理脉络(见下图Stage 1-2):

    Stage 1: 动态安全顿悟注入

      捕捉模型内部注意力机制拐点,在语义转折点注入安全顿悟短语,动态激活Aha时刻[6], 触发安全反思

    Stage 2: 可拓展路径采样

      top-k并行采样生成多条推理子路径,通过IAS分数评估反思充分性,少量token即可预见安全轨迹

ReasoningGuard就像给推理链打了一记预防针!无需额外训练,即可完成对长推理链的实时干预,且支持多模型即插即用,守护推理链和最终答案的全过程安全性


无需训练,无损安全

ReasoningGuard 三大维度实测!平衡安全性和可用性,并且几乎不引入额外开销,带来多边形战绩:

    推理链全程安全:在AdvBench、SorryBench等有害性基准中,推理过程和答案违规率直逼0%,对抗多种越狱攻击均能有效缓解

    高可用+低开销:在MATH-500数理推导与MMLU知识测试中,模型原始能力保持率超98.6%,几乎无损推理性能;在R1-Llama-8B上仅增加9%时间开销,轻量部署无压力

    适配所有模型:已在5款主流LRM上部署实现,即插即用,适配现行推理模型架构

总结

在AI开启"链式思考"新时代之际,安全防御更应唤起"顿悟时刻",充分利用其思考能力。ReasoningGuard作为首个针对大型推理模型的通用安全引导框架,实现三大优势:全程安全、无需训练、多模通用

目前完整技术报告在Arxiv开源,诚邀全球团队共同构建更可靠的AI推理边界。

论文链接:

http://arxiv.org/abs/2508.04204

参考文献

[1] Martin Kuo, Jianyi Zhang, Aolin Ding, Qinsi Wang, Louis DiValentin, Yujia Bao, Wei Wei, Hai Li, and Yiran Chen. H-cot: Hijacking the chain-of-thought safety reasoning mechanism to jailbreak large reasoning models, including openai o1/o3, deepseek-r1, and gemini 2.0 flash thinking, 2025. URL https://arxiv.org/abs/2502.12893.

[2] Yueqi Xie, Jingwei Yi, Jiawei Shao, Justin Curl, Lingjuan Lyu, Qifeng Chen, Xing Xie, and

Fangzhao Wu. Defending chatgpt against jailbreak attack via self-reminders. Nature Machine

Intelligence, 5(12):1486–1496, 2023.

[3] Xiaomeng Hu, Pin-Yu Chen, and Tsung-Yi Ho. Gradient cuff: Detecting jailbreak attacks on

large language models by exploring refusal loss landscapes. arXiv preprint arXiv:2403.00867,

2024.

[4] Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, and Yinpeng Dong. Realsafe-

r1: Safety-aligned deepseek-r1 without compromising reasoning capability. arXiv preprint

arXiv:2504.10081, 2025.

[5] AI @ Meta Llama Team. The llama 3 herd of models, 2024. URL https://arxiv.org/abs/

2407.21783.

[6] Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.


团队简介

复旦白泽智能团队专注于对话大模型、多模态大模型与智能体安全研究。团队负责人为张谧教授,参与信安标委《生成式人工智能服务安全基本要求》、《人工智能生成合成内容标识办法》等多项国家/行业标准起草/建议工作,主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目,曾获CCF科学技术奖自然科学二等奖等荣誉。团队培养硕博数十人,每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TDSC、TIFS、TPAMI、TKDE、ICML、NeurIPS、AAAI、CVPR、ICDE等,毕业生就业去向包括大厂、各大高校等。

复旦白泽智能团队(Whizard AI)主页:

https://whitzard-ai.github.io/

供稿、排版:复旦白泽智能团队

责编:邬梦莹

审核:洪赓、林楚乔

戳“阅读原文”即可获取论文哦~


复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队?

公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

ReasoningGuard 推理链安全 大型推理模型 安全防御 无需训练
相关文章