AI编程助手安全挑战：普渡大学团队在亚马逊比赛中胜出

2025-08-23 18:49 四川

在比赛之外，PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。

你的 AI 编程助手有多安全？也许比你想象的要脆弱得多。近期多项研究 [1-2] 表明，即使是经过安全对齐的大语言模型，也可能在正常开发场景中无意间生成存在漏洞的代码，为后续被利用埋下隐患；而在恶意用户手中，这类模型还能显著加速恶意软件的构建与迭代，降低攻击门槛、缩短开发周期。许多风险源自模型推理链条中的细微缺陷，而不仅仅是输入输出层面的显性问题。

在亚马逊举办的针对代码智能体的安全比赛 (Amazon Nova AI Challenge) 中，普渡大学的团队 PurCL 作为红队以超过 90% 的攻击成功率获得比赛第一名，赢得 25 万美元奖金。

在比赛中，12 名团队成员耗时八个月和百万美元开发出基于 AI 认知建模的全过程红队系统，现开放给领域研究者共享使用。

他们的研究发现，对齐代码模型的关键问题在于把对齐技术扩大到复杂的真实领域问题中和提升模型推理的安全相关性。

系统：https://github.com/PurCL/ASTRA

论文：https://www.arxiv.org/abs/2508.03936

网站：https://purcl.github.io/astra-web/

官方报道: https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge

亚马逊代码模型安全比赛

亚马逊代码模型安全比赛是一场针对大模型代码安全的比赛。举办方邀请全球顶尖研究队伍提交科研企划，最终在 90 份企划中资助 10 个团队参加比赛，每个团队在半年的时间内获得了 25 万美元的科研基金和 100 万美元的计算资源。参赛团队分为红队和蓝队，蓝队在比赛方准备的模型上应用最新的安全对齐实践，红队则要在 200 轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队，和最安全的蓝队分别赢得比赛胜利。

在这场比赛中，代码模型的安全被分成两个维度。第一个维度要求模型产生的代码符合安全代码规范，减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应当检查用户输入，小心避免 SQL 注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求，如不能帮助用户写恶意软件。

普渡大学团队 PurCL 作为红队在各个蓝队系统中以平均超过 90% 的攻击成功率发现了模型的安全漏洞，获得比赛红队第一名，赢得 25 万美元奖金。PurCL 的研究发现，当前前沿的 AI 安全研究尚未解决真实世界中的模型安全问题。对代码等复杂领域的全面、有效对齐仍然是有挑战性的开放问题。

AI 模型安全评估

过去的大多数模型安全评估都在一个静态预先定义的数据集上进行。经典的例子包括不能让模型帮助合成生化武器。传统红队研究在这个基础上开发同义改写、说服、越狱等不同攻击，而蓝队研究，例如模型对齐，则聚焦对红队技术的防御。

传统研究忽视了真实世界系统中的重要挑战：真实的安全需求包括复杂的领域知识，而当前研究尚未确定已有蓝队技术是否能够在复杂领域中保持有效性。

AI 认知建模

PurCL 队伍提出用类似于人类认知科学的方式来建模 AI 对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为 “问题”，“推演”，“解决方案” 三个部分。

以人类的魔方游戏为例，“问题” 是一个被打乱的魔方，“推演” 是每次对魔方转动的策略，“解决方案” 则是重排的魔方。对于代码智能体来说，“问题” 是用户提出的请求，“推演” 是模型的中间推理步骤，而 “解决方案” 则是生成的代码片段。

图 1: 对 AI 智能体的认知建模

在这个框架下，已有蓝队研究大致可以分成三类：

对问题领域的分类过滤（危险输入识别）。识别输入的问题中是否包含恶意或误导性信息，并直接拒绝这类请求。

对推演步骤的加强。如 OpenAI 在最新模型上应用的 Deliberative Alignment 技术，利用模型的推理能力来分析请求背后的隐含意图和潜在影响，从而阻止恶意的请求。

对解决方案的分类过滤（危险输出识别）。识别解决方案中是否含有恶意或危险元素，并拒绝或修复对应的部分。

图 2: 蓝队技术建模

在这样的建模下，PurCL 的研究发现，对齐技术主要面临两大挑战：

在对于问题和解决方案的分类过滤中，一些领域专有的知识可能涉及安全分类器训练的盲区。他们发现，已有的顶尖安全分类器可以轻松防御常见话题上的 9 种越狱攻击技术；然而面对网络安全领域的话题，这些分类器的有效性降低到了 10% 以下。

图 3: 防御成功率。危险输入识别 (Guard) 和危险输出识别 (I/O Guard) 可以有效识别大多数越狱技术（Jail. Tech.). 而 ASTRA 可以将防御成功率降低到 10% 以下（图中未展示 ASTRA 的结果）

在基于模型推理的防御方案中，模型推理的过程并不可靠，留下被攻击的漏洞。他们发现，在模型拒绝危险请求的推理中，时常包含错误的归因。如果在输入的请求中解决了这些错误归因，即使拥有推理能力的模型也会忽略安全风险。

基于这样的观察，PurCL 团队构建了针对 AI 认知全过程的红队测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图，做到对复杂领域的全面建模和高效覆盖。推理路径分析检查模型的推理路径，并针对薄弱环节改写输入请求，探测模型是否真正理解请求背后的安全风险。

领域知识建模

PurCL 团队开发了 Enumerator 智能体。给定一个复杂的领域，它应用类似深度搜索的模式来枚举这个领域的知识结构，识别其中可能存在的安全风险和问题。为了在测试中高效响应不同模型的知识漏洞，这些知识结构被按照他们的相关性来组织。在测试过程中，如果一个模型在某个知识点犯了错误，这通常意味着在相关的别的知识点也可能出错，因此相关知识应当被优先测试。

以安全代码合规和恶意请求预防两个领域为例，PurCL 团队在这两个领域上构建了包含 2.28T (trillion) 和 1x10^28 个可能请求的问题搜索空间，他们发现所有的现有对齐方案都在覆盖率和大规模数据的有效性上有明显缺陷。

推理路径分析

PurCL 团队针对基于推理模型的蓝队系统，研发了 ASTRA 推理路径分析方法，用于发现并利用模型推理过程中的安全薄弱环节。不同于只看输入输出的传统红队测试，ASTRA 先离线为易错输入构建 “决策图”，由高能力模型生成合法拒绝路径。与目标系统交互时，ASTRA 获取目标模型的推理轨迹并比对决策图，判断其安全对齐程度。若存在缺失步骤、错误步骤或多余步骤，系统会据此自动生成针对性改写输入，绕过模型防护。例如，在自动驾驶案例中，ASTRA 通过补全无关格式校验诱使模型执行危险请求。该方法能系统揭示推理漏洞，生成高效攻击用例，显著提升红队测试深度，并为 AI 安全对齐研究提供新工具。

图 4: ASTRA 在 Reasoning Model 上的推理路径分析流程

SOTA 模型测试结果

在比赛之外，PurCL 团队的红队系统在 SOTA 模型上也发现了大量安全漏洞。例如在 68.7% 的情况下 GPT-5 可能会帮助用户构建恶意代码；在 48.3% 的情况下 GPT-OSS-120B 可能会写不符合安全编码规范的程序。此外，基于这套系统，作为案例分析，PurCL 团队成员还通过实验证明了代码智能体例如 Claude 可以显著加速恶意勒索软件开发。