机器之心 08月24日
AI编程助手安全挑战:普渡大学团队在亚马逊比赛中胜出
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

近期研究表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中生成存在漏洞的代码,并被用于加速恶意软件的构建。普渡大学PurCL团队在亚马逊举办的代码智能体安全比赛中,利用其开发的AI认知建模全过程红队系统,以超过90%的攻击成功率获得第一名。他们的研究揭示了当前AI安全研究在复杂真实领域对齐和模型推理安全相关性方面的挑战。该系统通过领域知识建模和推理路径分析,能够有效探测和利用模型在复杂领域知识和推理过程中的安全薄弱环节,为AI安全对齐研究提供了新工具。

🛡️ AI编程助手面临严峻安全挑战,即使是安全对齐的模型也可能生成带有漏洞的代码,并加速恶意软件的开发。这表明AI在复杂真实领域的安全对齐以及模型推理过程的安全性仍是亟待解决的关键问题。

🏆 普渡大学PurCL团队在亚马逊代码智能体安全比赛中脱颖而出,以超过90%的攻击成功率赢得红队第一名。他们开发的全过程红队系统基于AI认知建模,耗时八个月和百万美元,旨在探测和利用AI模型在代码生成方面的安全漏洞。

🧠 该团队的研究核心在于AI认知建模,将AI的认知过程分解为“问题”、“推演”和“解决方案”三个部分。他们发现,现有对齐技术在处理复杂领域知识的分类过滤以及模型推理过程的可靠性方面存在显著不足,容易被利用。

🔍 PurCL团队提出的解决方案包括领域知识建模和推理路径分析。领域知识建模通过构建领域知识图来全面覆盖并识别潜在安全风险;推理路径分析则通过比对模型推理轨迹和预设的决策图,探测并利用模型推理过程中的薄弱环节,从而生成有针对性的攻击。

💡 在SOTA模型测试中,该红队系统发现GPT-5在68.7%的情况下可能协助用户构建恶意代码,GPT-OSS-120B在48.3%的情况下可能生成不符合安全规范的代码,凸显了当前主流模型在代码安全方面存在的普遍性问题。

2025-08-23 18:49 四川

在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。

你的 AI 编程助手有多安全?也许比你想象的要脆弱得多。近期多项研究 [1-2] 表明,即使是经过安全对齐的大语言模型,也可能在正常开发场景中无意间生成存在漏洞的代码,为后续被利用埋下隐患;而在恶意用户手中,这类模型还能显著加速恶意软件的构建与迭代,降低攻击门槛、缩短开发周期。许多风险源自模型推理链条中的细微缺陷,而不仅仅是输入输出层面的显性问题。

在亚马逊举办的针对代码智能体的安全比赛 (Amazon Nova AI Challenge) 中,普渡大学的团队 PurCL 作为红队以超过 90% 的攻击成功率获得比赛第一名,赢得 25 万美元奖金。

在比赛中,12 名团队成员耗时八个月和百万美元开发出基于 AI 认知建模的全过程红队系统,现开放给领域研究者共享使用。

他们的研究发现,对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。

亚马逊代码模型安全比赛

亚马逊代码模型安全比赛是一场针对大模型代码安全的比赛。举办方邀请全球顶尖研究队伍提交科研企划,最终在 90 份企划中资助 10 个团队参加比赛,每个团队在半年的时间内获得了 25 万美元的科研基金和 100 万美元的计算资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全对齐实践,红队则要在 200 轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得比赛胜利。

在这场比赛中,代码模型的安全被分成两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应当检查用户输入,小心避免 SQL 注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。

普渡大学团队 PurCL 作为红队在各个蓝队系统中以平均超过 90% 的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得 25 万美元奖金。PurCL 的研究发现,当前前沿的 AI 安全研究尚未解决真实世界中的模型安全问题。对代码等复杂领域的全面、有效对齐仍然是有挑战性的开放问题。

AI 模型安全评估

过去的大多数模型安全评估都在一个静态预先定义的数据集上进行。经典的例子包括不能让模型帮助合成生化武器。传统红队研究在这个基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型对齐,则聚焦对红队技术的防御。

传统研究忽视了真实世界系统中的重要挑战:真实的安全需求包括复杂的领域知识,而当前研究尚未确定已有蓝队技术是否能够在复杂领域中保持有效性。

AI 认知建模

PurCL 队伍提出用类似于人类认知科学的方式来建模 AI 对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为 “问题”,“推演”,“解决方案” 三个部分。

以人类的魔方游戏为例,“问题” 是一个被打乱的魔方,“推演” 是每次对魔方转动的策略,“解决方案” 则是重排的魔方。对于代码智能体来说,“问题” 是用户提出的请求,“推演” 是模型的中间推理步骤,而 “解决方案” 则是生成的代码片段。

图 1: 对 AI 智能体的认知建模

在这个框架下,已有蓝队研究大致可以分成三类:

对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或误导性信息,并直接拒绝这类请求。

对推演步骤的加强。如 OpenAI 在最新模型上应用的 Deliberative Alignment 技术,利用模型的推理能力来分析请求背后的隐含意图和潜在影响,从而阻止恶意的请求。

对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有恶意或危险元素,并拒绝或修复对应的部分。

图 2: 蓝队技术建模

在这样的建模下,PurCL 的研究发现,对齐技术主要面临两大挑战:

在对于问题和解决方案的分类过滤中,一些领域专有的知识可能涉及安全分类器训练的盲区。他们发现,已有的顶尖安全分类器可以轻松防御常见话题上的 9 种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的有效性降低到了 10% 以下。

图 3: 防御成功率。危险输入识别 (Guard) 和危险输出识别 (I/O Guard) 可以有效识别大多数越狱技术(Jail. Tech.). 而 ASTRA 可以将防御成功率降低到 10% 以下(图中未展示 ASTRA 的结果)

在基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的归因。如果在输入的请求中解决了这些错误归因,即使拥有推理能力的模型也会忽略安全风险。

基于这样的观察,PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。

领域知识建模

PurCL 团队开发了 Enumerator 智能体。给定一个复杂的领域,它应用类似深度搜索的模式来枚举这个领域的知识结构,识别其中可能存在的安全风险和问题。为了在测试中高效响应不同模型的知识漏洞,这些知识结构被按照他们的相关性来组织。在测试过程中,如果一个模型在某个知识点犯了错误,这通常意味着在相关的别的知识点也可能出错,因此相关知识应当被优先测试。

以安全代码合规和恶意请求预防两个领域为例,PurCL 团队在这两个领域上构建了包含 2.28T (trillion) 和 1x10^28 个可能请求的问题搜索空间,他们发现所有的现有对齐方案都在覆盖率和大规模数据的有效性上有明显缺陷。

推理路径分析

PurCL 团队针对基于推理模型的蓝队系统,研发了 ASTRA 推理路径分析方法,用于发现并利用模型推理过程中的安全薄弱环节。不同于只看输入输出的传统红队测试,ASTRA 先离线为易错输入构建 “决策图”,由高能力模型生成合法拒绝路径。与目标系统交互时,ASTRA 获取目标模型的推理轨迹并比对决策图,判断其安全对齐程度。若存在缺失步骤、错误步骤或多余步骤,系统会据此自动生成针对性改写输入,绕过模型防护。例如,在自动驾驶案例中,ASTRA 通过补全无关格式校验诱使模型执行危险请求。该方法能系统揭示推理漏洞,生成高效攻击用例,显著提升红队测试深度,并为 AI 安全对齐研究提供新工具。

图 4: ASTRA 在 Reasoning Model 上的推理路径分析流程

SOTA 模型测试结果

在比赛之外,PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码;在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外,基于这套系统,作为案例分析,PurCL 团队成员还通过实验证明了代码智能体例如 Claude 可以显著加速恶意勒索软件开发。

图 5: ASTRA 在 SOTA 模型上的攻击成功率(部分)

图 6: ASTRA 在 SOTA 模型上找到的不符合安全编码规范的代码比例(部分)

图 7: 在 ASTRA 帮助下队员用 Claude 尝试生成的勒索软件(本地断网实验后已安全删除)

讨论

模型对齐的研究不应该只停留在防御不同的越狱技术或改写策略。更严峻和显著的问题是如何把对齐技术扩大到复杂的真实领域问题中。此外,推理模型的安全也越发重要,例如如何可靠利用模型的推理技能,提高推理的安全相关性,减少在推理过程中暴露的安全漏洞等。

团队介绍

团队负责人

徐翔哲:普渡大学四年级博士生,研究代码智能体、程序分析。

沈广宇:普渡大学五年级博士生,研究 AI 安全。

核心贡献

苏子安:普渡大学四年级博士生,研究深度学习和代码智能体。

程思源:普渡大学四年级博士生,研究 AI 安全。

团队成员

代码和程序分析团队:郭进尧(一年级博士生),蒋家盛(二年级博士生)

AI 安全团队:郭含熙(三年级博士生),闫璐(四年级博士生),陈璇(四年级博士生),金小龙(三年级博士生)

导师

张翔宇:普渡大学 Samuel Conte Professor. 研究 AI 安全、程序分析、代码安全等。

张倬:哥伦比亚大学 Assistant Professor. 研究二进制安全、AI 安全、web3 安全等。

王程鹏:普渡大学 Postdoc, 博士毕业于香港科技大学。研究程序分析,智能软件审查等。

[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html

[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI安全 代码智能体 大语言模型 普渡大学 亚马逊Nova AI Challenge AI认知建模 红队测试 模型对齐 漏洞挖掘 AI Security Code Agents Large Language Models Purdue University Amazon Nova AI Challenge AI Cognitive Modeling Red Teaming Model Alignment Vulnerability Discovery
相关文章