360数字安全 10月13日
小样本数据即可攻击大模型,安全风险不容忽视
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

最新研究发现,攻击者仅需250份恶意文档,即可在大模型中植入后门,导致其输出乱码,且攻击成功率与模型规模无关。这种基于数据投毒的攻击方式成本低、隐蔽性强,可能导致信息失真、敏感数据泄露等严重安全问题。文章强调,大模型安全是技术、商业风险和信任危机的核心要素,必须从数据源头到推理输出进行全链路治理。360推出大模型安全卫士,通过AI对抗AI的闭环设计,在训练和推理阶段提供风险检测与内容安全护栏,助力构建可靠、可信、可控、向善的AI生态。

🎯 **低成本高隐蔽性后门攻击:** 研究表明,只需250份恶意文档即可成功攻击参数规模从6亿到130亿的大模型,植入后门使其在遇到特定短语时输出乱码。这种数据投毒攻击方式成本低廉且难以察觉,对模型安全构成严峻挑战。

🛡️ **全链路内容安全治理至关重要:** 鉴于大模型在各行业的广泛应用,其可靠性和安全性成为关键。从数据源头、训练过程到推理输出,全链路的内容安全治理是模型研发与部署的“必选项”,以防范虚假内容、隐私泄露及恶意指令执行等风险,维护用户信任。

💡 **360大模型安全卫士的创新解决方案:** 360利用“懂AI更懂安全”的跨领域优势,开发了360大模型安全卫士。该方案采用“以模制模”理念,通过AI对抗AI的闭环设计,在模型训练阶段利用风险检测大模型评估语料风险,在推理阶段提供内容安全评测和护栏,实现模型安全“左移”和价值观对齐。

2025-10-13 17:32 北京

你的大模型还安全吗?

攻击或污染拥有数十亿参数的模型需要多少恶意数据?几万、几十万?

最新研究表明,攻击者仅需250份恶意文档,即可在参数规模从6亿到130亿的大模型中植入后门,且攻击成功率与模型规模无关。这一发现来自Anthropic与业界安全研究团队近期发布的研究,揭示了当前大模型在内容安全上面临的严峻挑战。

研究警示

小样本何以引发大风险?

研究团队针对一类名为“拒绝服务(denial-of-service)”特定后门攻击进行实验,该攻击的目标是当模型遇到某个特定短语时,输出随机的无意义文本。攻击者可能通过在某些网站中植入此类触发词,致使模型在检索这些站点内容时功能失效。

实验中,研究团队通过向训练数据集注入包含后门触发短语“<SUDO>”的恶意文档,成功诱导模型在遇到特定短语时输出无意义文本,从而实现了针对大语言模型的“拒绝服务”攻击。无论模型参数是6亿还是130亿,只需将250个恶意文档注入训练数据中,攻击者就可以成功进行后门攻击。

这类基于数据投毒的攻击方式成本低、隐蔽性强。一旦在模型训练流程中未被及时检测与拦截,将直接导致大模型在真实场景中出现信息失真、敏感数据泄露或恶意指令执行等严重安全问题,最终对企业商誉、终端用户体验及社会公共秩序造成难以逆转的损害。

大模型安全

为何必须防患于未然?

随着大模型在各行业加速落地,其可靠性与安全性已成为决定技术能否健康发展的核心要素。大模型的“中毒”不仅仅是一个技术问题,更可能演变为商业风险与信任危机。无论是生成虚假或错误内容、泄露隐私,还是被滥用为诈骗、伪造工具,每一次安全事件都在透支用户对AI的信任,尤其是在民生领域的应用。正因如此,从数据源头、训练过程到推理输出的全链路内容安全治理,必须成为模型研发与部署中的“必选项”,而非“可选项”。

为应对大模型安全挑战,360发挥“懂AI更懂安全”的跨领域优势,基于以模制模理念打造360大模型安全卫士,AI对抗AI的闭环设计,实现了从源头上化解威胁的全局方案,以内容安全智能体、AI Agent智能体、幻觉抑制智能体、软件安全智能体等智能体系统性解决大模型生命周期中各环节的安全问题。

以大模型训练为例,大模型的训练语料大部分从互联网上抓取,其来源和质量难以完全保证。如此巨大的数据通过人工或自动化手段在训练前完全筛查出精心构造的污染样本,几乎是不可能的。

360大模型安全卫士在模型训练阶段,通过专用训练的风险检测大模型针对模型训练语料、微调语料等进行风险识别,并采用多级标签方式进行精细化打标分类,且能精准定位风险语料位置,实现训练、微调前的安全评估,使大模型风险防御“左移”;

在模型推理阶段,通过内容安全评测和内容安全护栏提供智能判定机制、风险内容检测、敏感问题代答、内容安全测评等关键能力,识别100+风险类目,实现业务模型的输入输出内容安全,大模型价值观对齐。

目前,360大模型安全卫士已在政府、金融、监管、医疗等领域实现深度应用。“250份样本投毒大模型”不再只是学术猜想,而是摆在所有AI参与者面前的现实威胁,必须将安全机制深度嵌入模型的每一个发展阶段。未来,360将继续深化跨领域优势,用更创新的方案应对新兴安全挑战,助力构建“可靠、可信、可控、向善”的AI生态。

如需咨询相关服务

请联系400-0309-360

往期推荐

● 别人节前熬夜赶工,你靠AI准点收工

► 点击阅读

01

● 国庆重保+攻防演练大考在即!360大模型安全服务专项方案筑牢AI防线

► 点击阅读

02

● 节前预警: 勒索双雄高度活跃!360构建全链路防御体系助力政企机构无忧值守

► 点击阅读

03

AI安全防「翻车」指南:抄好这份政企客户的「标准答案」

► 点击阅读

04

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

大模型安全 AI安全 数据投毒 后门攻击 内容安全 360大模型安全卫士 Large Model Security AI Security Data Poisoning Backdoor Attack Content Security 360 Large Model Security Guard
相关文章