360数字安全 10月13日 21:20
小样本攻击揭示大模型安全隐患,250份恶意文档可植入后门
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最新研究表明,攻击者仅需250份恶意文档,即可在参数规模从6亿到130亿的大模型中植入后门,且攻击成功率与模型规模无关。这一发现揭示了大模型在内容安全方面面临的严峻挑战。研究团队通过在训练数据中注入包含特定触发短语的恶意文档,成功诱导模型输出无意义文本,实现了“拒绝服务”攻击。这种基于数据投毒的攻击方式成本低、隐蔽性强,可能导致信息失真、敏感数据泄露等严重安全问题。因此,从数据源头到推理输出的全链路内容安全治理,已成为模型研发与部署的“必选项”。360公司基于“懂AI更懂安全”的优势,推出了360大模型安全卫士,通过AI对抗AI的闭环设计,系统性解决大模型生命周期中的安全问题,助力构建可靠、可信、可控、向善的AI生态。

🎯 **低成本高隐蔽的后门攻击:** 研究发现,仅需250份恶意文档即可成功攻击不同规模的大模型,植入“拒绝服务”后门,触发模型输出无意义文本。这种数据投毒方式成本低廉且难以察觉,对模型安全构成严重威胁。

🛡️ **全链路内容安全治理的紧迫性:** 面对数据投毒等风险,从数据源头、训练过程到推理输出的端到端内容安全治理已成为大模型研发与部署的必要环节。这有助于防范信息失真、数据泄露及恶意指令执行等问题。

💡 **AI对抗AI的创新安全方案:** 360公司推出360大模型安全卫士,通过“懂AI更懂安全”的跨领域优势,利用AI对抗AI的闭环设计,实现从模型训练到推理阶段的全方位安全防护,包括风险检测、内容安全评测和价值观对齐。

📈 **模型安全对AI生态的重要性:** 大模型的安全可靠性是技术健康发展的关键。安全事件不仅是技术问题,更可能引发商业风险和信任危机。确保AI的可靠性、可信性、可控性和向善性,是构建健康AI生态的基础。

2025-10-13 17:32 北京

你的大模型还安全吗?

攻击或污染拥有数十亿参数的模型需要多少恶意数据?几万、几十万?

最新研究表明,攻击者仅需250份恶意文档,即可在参数规模从6亿到130亿的大模型中植入后门,且攻击成功率与模型规模无关。这一发现来自Anthropic与业界安全研究团队近期发布的研究,揭示了当前大模型在内容安全上面临的严峻挑战。

研究警示

小样本何以引发大风险?

研究团队针对一类名为“拒绝服务(denial-of-service)”特定后门攻击进行实验,该攻击的目标是当模型遇到某个特定短语时,输出随机的无意义文本。攻击者可能通过在某些网站中植入此类触发词,致使模型在检索这些站点内容时功能失效。

实验中,研究团队通过向训练数据集注入包含后门触发短语“<SUDO>”的恶意文档,成功诱导模型在遇到特定短语时输出无意义文本,从而实现了针对大语言模型的“拒绝服务”攻击。无论模型参数是6亿还是130亿,只需将250个恶意文档注入训练数据中,攻击者就可以成功进行后门攻击。

这类基于数据投毒的攻击方式成本低、隐蔽性强。一旦在模型训练流程中未被及时检测与拦截,将直接导致大模型在真实场景中出现信息失真、敏感数据泄露或恶意指令执行等严重安全问题,最终对企业商誉、终端用户体验及社会公共秩序造成难以逆转的损害。

大模型安全

为何必须防患于未然?

随着大模型在各行业加速落地,其可靠性与安全性已成为决定技术能否健康发展的核心要素。大模型的“中毒”不仅仅是一个技术问题,更可能演变为商业风险与信任危机。无论是生成虚假或错误内容、泄露隐私,还是被滥用为诈骗、伪造工具,每一次安全事件都在透支用户对AI的信任,尤其是在民生领域的应用。正因如此,从数据源头、训练过程到推理输出的全链路内容安全治理,必须成为模型研发与部署中的“必选项”,而非“可选项”。

为应对大模型安全挑战,360发挥“懂AI更懂安全”的跨领域优势,基于以模制模理念打造360大模型安全卫士,AI对抗AI的闭环设计,实现了从源头上化解威胁的全局方案,以内容安全智能体、AI Agent智能体、幻觉抑制智能体、软件安全智能体等智能体系统性解决大模型生命周期中各环节的安全问题。

以大模型训练为例,大模型的训练语料大部分从互联网上抓取,其来源和质量难以完全保证。如此巨大的数据通过人工或自动化手段在训练前完全筛查出精心构造的污染样本,几乎是不可能的。

360大模型安全卫士在模型训练阶段,通过专用训练的风险检测大模型针对模型训练语料、微调语料等进行风险识别,并采用多级标签方式进行精细化打标分类,且能精准定位风险语料位置,实现训练、微调前的安全评估,使大模型风险防御“左移”;

在模型推理阶段,通过内容安全评测和内容安全护栏提供智能判定机制、风险内容检测、敏感问题代答、内容安全测评等关键能力,识别100+风险类目,实现业务模型的输入输出内容安全,大模型价值观对齐。

目前,360大模型安全卫士已在政府、金融、监管、医疗等领域实现深度应用。“250份样本投毒大模型”不再只是学术猜想,而是摆在所有AI参与者面前的现实威胁,必须将安全机制深度嵌入模型的每一个发展阶段。未来,360将继续深化跨领域优势,用更创新的方案应对新兴安全挑战,助力构建“可靠、可信、可控、向善”的AI生态。

如需咨询相关服务

请联系400-0309-360

往期推荐

01

● 别人节前熬夜赶工,你靠AI准点收工

02

● 国庆重保+攻防演练大考在即!360大模型安全服务专项方案筑牢AI防线

03

● 节前预警: 勒索双雄高度活跃!360构建全链路防御体系助力政企机构无忧值守

04

AI安全防「翻车」指南:抄好这份政企客户的「标准答案」

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型安全 数据投毒 后门攻击 内容安全 AI安全 360大模型安全卫士 Large Model Security Data Poisoning Backdoor Attack Content Security AI Security 360 Large Model Security Guard
相关文章