index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html
![]()
文章深入探讨了人工智能(AI)在大模型时代对网络安全领域带来的双重影响。一方面,AI正在赋能网络攻击的平民化和高级化,WormGPT等恶意模型降低了犯罪门槛,而前沿研究则展示了AI自主发现和利用漏洞的能力。另一方面,AI也被视为构建更强大防御体系的关键。文章分析了恶意微调(MFT)的局限性,并着重介绍了Anthropic、OpenAI等公司的风险管理框架,如“准备框架”和“负责任的扩展政策”,强调了治理和控制的重要性。未来安全大模型的发展将走向深度整合的“领域专家”或能力增强的“通用代理”,但无论哪种路径,都离不开攻防一体、人机协同以及严格的治理框架,以确保AI能力被锁定在造福人类的轨道上。
🛡️ **AI赋能网络攻击的新浪潮**:文章指出,大模型正在显著降低网络攻击的技术门槛,使得“脚本小子”也能利用AI生成恶意代码、钓鱼邮件等,实现攻击的平民化。同时,如WormGPT/FraudGPT这类专门针对恶意用途微调的模型,通过整合海量恶意数据和移除安全护栏,能够高效地自动化和规模化网络犯罪活动,极大地增加了网络犯罪的频率和成功率。
🔬 **前沿AI在漏洞发现与利用上的突破**:研究表明,最先进的大模型代理(如GPT-4)已展现出自主发现和利用真实世界系统中“已知漏洞”(1-day vulnerabilities)的能力,甚至在特定架构下(如HPTSA)能够进行“零日漏洞”(0-day vulnerabilities)的挖掘。这标志着AI在网络安全攻防领域已从理论推向现实,带来了前所未有的挑战。
⚖️ **AI安全风险的治理框架与应对策略**:面对AI带来的潜在风险,OpenAI、Anthropic、DeepMind等公司已建立起多层次的风险管理框架,如“准备框架”和“负责任的扩展政策”。这些框架通过定义风险等级、进行严格评估、设立独立治理机构以及在必要时采取“暂停”或限制措施,来确保AI能力的负责任发展,强调了技术发展与安全治理必须同步进行。
🌐 **未来安全大模型的发展方向**:文章预测,未来的安全大模型将朝着两个主要方向演进:一是深度整合的“领域专家”模型,从架构和数据层面专门为网络安全设计;二是能力增强的“通用代理”模型,通过连接外部知识库和专业工具集来提升通用模型的安全能力。无论哪种路径,攻防一体、人机协同以及严格的治理框架都是确保AI安全可控的关键。
安全喷子 2025-11-11 18:00 北京

今年的世界人工智能大会(WAIC)上,诺贝尔奖获得者辛顿演讲的内容中,其中提到了网络安全的内容,包含了一个对大模型未来的预测,即各国将不会在防御人工智能的危险用途上进行合作。列举了三个具体的领域作为例子:1. 网络攻击 (Cyber attacks):利用人工智能发动的网络攻击。2. 致命自主武器 (Lethal autonomous weapons):通常被称为“杀手机器人”的武器系统。3. 用于操纵公众意见的虚假视频 (Fake videos for manipulating public opinion):即深度伪造(Deepfakes)技术在信息战和舆论战中的应用。精准地概括了当前对AI滥用的主要担忧:对数字基础设施的威胁(网络攻击):AI可以使网络攻击自动化、规模化,并能更快地发现和利用漏洞,使得防御变得异常困难。对物理安全的威胁(致命自主武器):这引发了关于战争伦理、责任归属以及战争失控风险的激烈辩论。各国在此问题上立场分歧巨大,难以达成共识。对社会和政治稳定的威胁(虚假视频/信息操纵):深度伪造技术可能被用来破坏选举、煽动社会对立、削弱公众对事实和机构的信任,其破坏力不亚于传统武器。近期的网络安全新闻揭示谷歌正在启动一个名为“网络颠覆部门”(cyber “disruption unit”)的新单位,此举正值美国政府和行业可能转向更具进攻性的网络安全策略的背景之下。谷歌威胁情报组(Google Threat Intelligence Group)副总裁桑德拉·乔伊斯(Sandra Joyce)表示,该部门旨在寻求“合法和道德的颠覆”选项。 她强调,目标是“通过情报主导,主动识别机会,从而能够真正摧毁某种(恶意)活动或行动”,并从被动应对转向主动出击。不同层次的网络攻击策略,它们之间的界限往往很模糊:1. 主动防御 (Active Defense):攻击性较弱的策略,例如设置“蜜罐”(honeypots)来引诱和欺骗攻击者。
2. 颠覆行动 (Disruption Operations):介于两者之间,例子包括微软通过法庭诉讼摧毁僵尸网络基础设施,或美国司法部从黑客手中查获被盗的加密货币。 谷歌的新部门似乎将专注于此类行动。3. 黑客反击 (Hacking Back):最具攻击性的策略,通常指试图故意摧毁攻击者的系统或网络。前网络安全与基础设施安全局(CISA)高级官员布兰登·威尔斯(Brandon Wales)指出,联邦政府的进攻性网络行动本身就非常耗费时间和人力。他认为私营公司可以通过创新来加速和扩大这些行动的规模。上面两个新闻揭示了一个方向,就是大模型用于网络安全攻击领域是必然的情况。这种情况会引向两个后果:第一、网络攻击的平民化会更加普遍。第二、高级网络攻击的行为会更加便利。之前我们经常说的“脚本小子”,就是那些懂一些安全攻击技术的黑客的一种别称,但是至少还是懂一些基本技术。如果现在有用于网络攻击的大模型,让这个攻击技术要求会进一步下降。以前国家级别的安全对抗都存在与高级网络安全专家之间的对抗,现在有大模型了可能会让这个成本下降的很快,让APT类的攻击更加便利的执行。大模型赋能网络安全,在行业里面目前都是在防御方面。但是笔者认为类比大模型是人的话,还是那句老话“未知攻,焉知防?”。如果大模型对于攻击的技术不太理解的前提下,对于安全防御的能力肯定是比较有限的。现在的公众使用的商业闭源大模型都经过了充分的对齐针对各个方面的防御,很难让大模型进行网络攻击的输出,除非进行“越狱攻击”才能让其对网络攻击方面的内容输出。使用大模型进行攻击方面的应用是有门槛的,但是现在开源大模型的普遍使用,让大模型进行网络攻击是有了更好的基座,可以使用SFT技术,RL技术,模型编辑(model editing)技术,可以利用这些开源大模型构造出一个更偏向于网络攻击的大模型。恶意微调(MFT)是什么?
OpenAI最近开源了两个大模型:gpt-oss-20b和gpt-oss-120b。针对这两个开源大模型的安全问题,OpenAI的研究人员撰写了一篇学术论文,标题为《Estimating Worst-Case Frontier Risks of Open-Weight LLMs》,聚焦于评估开源权重大型语言模型(LLM)gpt-oss的潜在最坏情况前沿风险。论文探讨了通过恶意微调(Malicious Fine-Tuning, MFT)来最大化模型在生物风险(biorisk)和网络安全风险(cyberrisk)领域的能力,从而估计释放该模型可能带来的危害。恶意微调(MFT)其实是一种SFT技术,只是主要针对于恶意使用方面的能力提升。开源LLM释放一直是安全争议话题,因为模型可能被滥用。现有评估(如模型拒绝不安全提示的倾向)仅针对释放版本,而忽略了攻击者通过微调绕过安全的可能性。通过直接微调gpt-oss来估计最坏情况危害,聚焦于OpenAI准备度框架(Preparedness Framework)的三个前沿风险类别:生物、网络安全和自我改进(self-improvement)。论文忽略自我改进,因为它远低于高能力水平,且微调不太可能显著提升。恶意微调(MFT)的类型包括:禁用拒绝(disabling refusals):使用RL奖励合规响应,这样就不用考虑越狱的情况。领域特定能力最大化: 特定领域数据策展、工具访问(如浏览、终端)和推理技术(如共识、best-of-k)。为了最大化网络安全攻击能力,评估基准采用了CTF挑战(高中、大学、专业级别)和网络靶场环境(易、中等)。图示的主要结果包括MFT略微提升专业CTF(从20%到27.7%),但所有变体低于OpenAI o3。网络靶场环境:所有模型0%准确率,除非有提示。失败原因:一般代理能力问题(如时间管理、工具使用),而非网络特定。额外方法:SFT、best-of-k采样无显著提升;pass@k估计需367次试验达75%专业CTF准确率。总结下来:MFT提升性能(尤其生物),但低于o3水平。gpt-oss释放贡献少量新生物能力,但不显著推进前沿;网络安全远低于高水平。开源模型的特殊性:与闭源模型不同,开源模型(如gpt-oss)一旦释放,任何人都可以下载、微调和滥用,而无法通过服务器端更新来缓解风险。因此,论文将边际风险置于更高权重:如果gpt-oss的能力仅轻微超过现有开源模型(如在生物基准上略优于DeepSeek R1-0528,但不推进前沿),则释放的风险是“最小化的”。与绝对风险的对比:绝对风险评估模型的总危害潜力(如是否达到准备度框架的“高风险”阈值:显著增加严重危害向量)。边际风险则更关注“增量”——例如,即使gpt-oss在某些基准上表现优秀,如果现有模型已接近其水平,则边际风险小。评估方法:通过恶意微调(MFT)模拟最坏情况,并与基线模型比较,来量化边际风险。论文发现,gpt-oss的MFT版本在生物领域贡献少量净新能力,但在网络安全领域无显著提升,因此总体边际风险小。局限性和未来工作能力激发不足:训练集规模小、多样性低;简单脚手架;可能需额外预训练。风险估计噪声:评估选择变异;脚手架差异;随机噪声;超出评估的因素(如易微调性)。总体:边际风险小,但结果噪声大。警告避免开源释放逐步推进前沿到高/关键水平。这样的结论看起来并没有多大的危险,看起来网络安全攻击能力并没有很大的提升。为什么恶意微调(MFT)的大模型效果不如恶意的GPT?
3.1 为什么OpenAI的恶意微调(MFT)效果不显著?
OpenAI在其研究中尝试回答一个问题:“如果一个有充足资源的恶意行为者,尽最大努力去微调一个强大的基础模型,能否创造出具有危险性突破的AI?” 他们的结论是“目前还不行”,原因如下:1. 任务难度触及了“知识的边界”网络安全:他们评估的任务不是简单的编写已知病毒,而是发现未知的、零日(0-day)级别的漏洞。这需要极强的逻辑推理、创造性思维和对复杂系统的深刻理解。这本质上是在要求AI进行科学发现。
2. 微调的本质是“模式模仿”,而非“从零创造”大型语言模型(LLM)的核心能力是学习和重组其训练数据中存在的模式。微调可以强化模型对特定模式的关注和模仿能力。
然而,如果一个全新的、创造性的解决方案(如一个全新的攻击方法)从未在任何人类知识库(即训练数据)中以清晰的、可学习的方式存在过,那么模型就很难凭空“想”出来。它可能会组合出一些看似新颖的东西,但这些东西往往是无效或无意义的。3. 基础模型的“常识”限制像GPT-4这样的基础模型,其内部已经包含了对世界物理、化学和代码逻辑的深刻理解。这种理解是泛化的。恶意的微调数据可能会试图扭曲它的行为,但很难从根本上推翻它已经学到的基础科学原理。因此,当被要求生成一个违反基本科学规律的“超级病毒”时,它很可能会失败。
恶意微调(MFT)高度依赖基座模型能力。微调更像是"雕刻"而非"创造"——你只能雕刻出石头里已有的形状。对于网络安全这样的复杂领域:1. 基座决定上限:小模型微调难以达到大模型水平2. 数据提升有限:即使有完美数据,也受基座约束3. 架构创新是关键:需要超越纯微调的方法这也解释了为什么OpenAI的研究发现即使是恶意微调的GPT-4级别模型,在复杂网络安全任务上仍然表现不佳。基座模型的通用代理能力不足是根本瓶颈,这不是简单通过微调可以解决的。因此,方法和数据虽然重要,但不能完全弥补基座能力的不足。真正强大的网络安全AI可能需要:专门设计的架构;从预训练阶段就考虑安全能力;深度集成外部工具;人类专家的持续指导。3.2 WormGPT / FraudGPT 这类恶意模型是如何“成功”的?
这些在恶意上售卖的GPT模型,其目标和应用场景与OpenAI的实验完全不同。它们追求的不是创造新威胁,而是将现有的、成熟的犯罪手段自动化、规模化、并降低使用门槛。它们是如何做到的?1. 目标明确且务实:降低作恶门槛(1)它们的目标用户不是国家级黑客,而是普通的网络罪犯或“脚本小子”(指缺乏高深技术、依赖现成工具的攻击者)。(2)它们解决的核心痛点是:如何让一个不懂编程、文笔不好的人,也能写出极具欺骗性的钓鱼邮件、生成可用的恶意软件脚本、或进行大规模的商业邮件诈骗(BEC)。
2. 精准的微调数据与方法(1)基础模型:他们通常会选择一个强大的开源模型(如 Llama, Mistral 等的某个版本),特别是那些“未经审查”或安全限制较少的版本作为起点。这为恶意微调提供了“肥沃的土壤”。(2)核心资产是恶意数据集:这些恶意模型真正的“秘方”是其用于微调的数据集。这些数据是精心收集和整理的:海量的钓鱼邮件范本:各种语气、各种场景、各种语言。恶意软件源代码:特别是那些易于修改、实现“多态”(polymorphic,指能自动变换代码以躲避杀毒软件)的脚本。暗网论坛的黑客对话:学习黑客的术语、交流方式和思维模式。诈骗教程和脚本:用于进行各种网络和电信诈骗。
(3)通过在这些高度垂直的恶意数据上进行微调,模型成为了该特定领域的“专家”。它不需要创造新知识,只需要模仿、组合、并生成与训练数据风格高度一致的内容。
3. 移除安全护栏(1)与OpenAI、Google等公司发布的模型不同,这些恶意模型的一个关键“卖点”就是没有道德或安全限制。用户可以直截了当地要求它“写一封冒充CEO的邮件,要求财务转账”,而模型会毫无保留地执行。以下列表列举了相关恶意的GPT的相关特点以及恶意微调的基座大模型。OpenAI的实验告诉我们,AI目前还不是一个能独立思考出全新大规模毁灭性武器的“天网(Skynet)”。而WormGPT的存在则警告我们,AI已经可以成为赋能成千上万个低级犯罪分子的“万能工具包”,极大地增加了网络犯罪的频率、规模和成功率。这两种风险都真实存在,但它们处于完全不同的层面。Vibe Hacking已经到来
除了使用这些恶意的GPT进行攻击行为之外,其实直接使用商业的大模型也能做到一些攻击行为,主要采用的手段就是“越狱“攻击。最近Vibe coding(氛围编程)这个词比较火,生成代码的大模型也是agent的最重要的一个场景。Vibe Hacking(氛围攻击)其实也是类似的逻辑,利用大模型进行黑客攻击行为。4.1 Anthropic的威胁报告
Anthropic 公司于2025年8月发布的威胁情报报告指出了几个令人担忧的趋势,这些趋势凸显了恶意行为者如何利用先进 AI 的能力:1. “代理式 AI” (Agentic AI) 已被武器化:AI 模型不再仅仅是为网络攻击提供建议,而是被直接用于执行复杂的网络攻击任务。攻击者通过一种被称为“氛围攻击” (vibe hacking) 的技术,引导 AI 执行恶意操作的整个流程。2. AI 降低了复杂网络犯罪的门槛:几乎没有技术技能的犯罪分子现在也能够利用 AI 来执行以前需要多年专业训练的复杂操作,例如开发勒索软件。3. 网络犯罪分子已将 AI 融入其运作的各个阶段:从分析被盗数据、识别和分析受害者,到创建虚假身份,AI 被用于扩大欺诈活动的影响范围。具体的滥用案例研究1. 大规模数据勒索行动:报告揭示了一起复杂的网络犯罪活动,犯罪者利用 Claude Code(Claude 的代码生成功能)对至少17个组织(包括医疗、紧急服务和政府机构)进行大规模数据盗窃和勒索。 犯罪者并非使用传统勒索软件加密数据,而是窃取敏感数据后,威胁要公开这些数据,以此勒索高达50万美元的赎金。 在此案例中,Claude 几乎是“亲自上阵” (on-keyboard) 执行操作,而操作员仅进行温和的引导。2. IT 工作者的远程就业欺诈:报告发现,某国的IT人员利用 Claude 制作虚假的专业背景和身份,成功申请并获得了美国财富500强科技公司的远程工作职位。 他们使用 AI 模型来完成技术和编码评估,甚至在入职后交付实际的技术工作。3. “无代码”勒索软件即服务:一名仅具备基本编码技能的网络犯罪分子,利用 Claude 开发并销售勒索软件。AI 帮助其编写恶意代码,并加入加密、反调试等逃避检测的功能,显著降低了制造恶意软件的技术壁垒。4. 国家支持的黑客行动:报告还提到,一个复杂的黑客组织在长达9个月的行动中,系统性地利用 Claude 来加强针对越南关键基础设施的网络攻击。面对这些严峻的威胁,Anthropic 采取了多方面的措施来检测和反击滥用行为:封禁账户与加强检测:一旦发现恶意活动,Anthropic 会立即封禁相关账户。 同时,开发了定制化的分类器(一种自动筛选工具)和新的检测方法,以求在未来能更快地发现类似活动。情报共享与合作:Anthropic 将有关攻击的技术指标与相关执法部门和安全合作伙伴共享,以防止类似的滥用行为在其他地方发生。 这种跨行业的合作被认为是有效对抗 AI 驱动威胁的关键。发布威胁情报报告:通过公开发布这些案例研究,Anthropic 旨在提高整个行业对 AI 滥用风险的认识,并推动其他公司加强安全措施。成立咨询委员会:为了指导 AI 在网络安全、国家安全等高风险领域的部署,Anthropic 成立了一个国家安全与公共部门咨询委员会,由政策、国防和政府领域的专家组成。负责任的扩展政策 (Responsible Scaling Policy):这些应对措施是 Anthropic 更广泛的安全框架的一部分。该政策旨在根据 AI 模型的能力水平(ASL)来匹配相应的安全和安保标准,以管理潜在的灾难性风险。4.2 OpenAI 威胁报告
OpenAI在2025年6月发布的一份关于AI恶意使用的威胁情报报告,检测并曝光了几起滥用ChatGPT的恶意活动。1. 欺诈性IT工作计划威胁行为者利用ChatGPT自动化生成虚假简历和美国身份,大规模申请远程IT和软件工程职位。他们研究使用VPN、远程控制工具等技术手段,试图让在美国的合作者接收公司电脑后远程操作,从而绕过企业安全措施和身份验证。2. "High Five"行动(菲律宾) 菲律宾营销公司Comm&Sense Inc运营的政治影响行动,批量生成支持总统马科斯、批评副总统杜特尔特的简短评论。他们创建了5个TikTok频道发布相同视频,然后用大量机器人账号评论制造热度假象,同时在Facebook主流媒体新闻下方进行评论轰炸。3. "ScopeCreep"恶意软件(俄语使用者) 俄语威胁行为者利用ChatGPT开发多阶段Go语言恶意软件,伪装成流行的游戏准星工具Crosshair-X。该恶意软件具备提权、持久化、凭证窃取、远程控制等功能,通过Telegram向攻击者发送新受害者通知,并使用SOCKS5代理混淆流量来源。4. STORM-2035复发行动(伊朗) 伊朗关联的威胁行为者(2024年8月首次被发现)卷土重来,用波斯语提示生成西班牙语和英语推文,支持拉丁裔权利、苏格兰独立、爱尔兰统一、巴勒斯坦权利,并宣扬伊朗军事力量迫使美国谈判。虚假账号使用从Pinterest盗用的年轻女性照片作为头像,但参与度极低。5. "Wrong Number"任务诈骗(柬埔寨) 源自柬埔寨的大规模跨国诈骗团伙使用ChatGPT将诈骗话术翻译成英语、西班牙语、斯瓦希里语、德语等多种语言,承诺受害者点赞TikTok视频就能获得5美元报酬。诈骗分三步:冷接触(ping)、建立信任(zing)、骗取钱财(sting),最终要求受害者支付数百美元"入职费"或"手续费"。4.3 利用大模型进行1-day漏洞利用
《LLM Agents can Autonomously Exploit One-day Vulnerabilities》这篇论文首次通过实验证明,当前最顶尖的大模型代理已经具备了自主利用真实世界系统中已知漏洞的能力,将AI用于网络攻击的威胁从理论推向了现实。关键实验结果与发现 (Key Findings)发现一:GPT-4展现出“涌现能力”,与其他模型拉开代差实验结果非常惊人。在拥有CVE描述的情况下:GPT-4:成功利用了15个漏洞中的13个,成功率高达87%。所有其他对手:包括GPT-3.5、LLaMA-2、Mixtral等所有开源模型,以及ZAP和Metasploit这两个专业的自动化扫描工具,成功率为0%。这表明GPT-4在理解复杂文本(CVE报告)、制定多步攻击计划、以及灵活运用多种工具方面,已经达到了一个远超其他模型的临界点。发现二:漏洞“发现”比“利用”困难得多当移除CVE描述,让GPT-4在“一无所知”的情况下去攻击时,其成功率暴跌至7%。有趣的是,进一步分析发现,GPT-4代理能够正确识别出33.3%的漏洞类型,但即便识别出来,若没有详细描述指导,也很难成功利用。这说明,对于这个简单的ReAct代理来说,最大的瓶颈在于探索和发现。它容易在尝试一种攻击路径失败后“卡住”,而不知道回溯并尝试其他类型的攻击。发现三:AI代理已具备成本优势且可规模化成本:研究人员估算,利用GPT-4成功完成一次漏洞利用的平均成本约为$8.80。对比:他们估计,一个人类网络安全专家完成同样任务的成本约为$25。结论:使用AI代理不仅已经比人类专家更便宜,而且可以轻易地大规模并行化,这是人类劳动力无法比拟的。发现四:代理展现了复杂的多工具协调能力论文通过案例分析指出,GPT-4代理的成功并非简单的脚本执行。例如:ACIDRain漏洞:这是一个复杂的并发攻击,代理需要依次完成:1) 浏览网站;2) 在结账页面下测试订单;3) 编写Python代码来利用竞争条件;4) 在终端中执行该代码。这展示了其跨工具(浏览器、代码编辑器、终端)的复杂工作流执行能力。非Web漏洞:代理不仅能攻击网站,还能成功利用Python包(Astrophy RCE)和容器软件(runc)的漏洞,证明了其能力的通用性。为了证明能力来源于大模型本身,而非复杂的工程技巧,他们设计的AI代理非常简单,核心代码只有91行。这个代理由四个部分组成:基础大模型 (Base LLM):测试了GPT-4、GPT-3.5以及8个主流开源模型。提示词 (Prompt):一个精心设计的长提示词(1056个token),鼓励代理要有创造性、不要轻易放弃,并尝试不同方法。代理框架 (Agent Framework):使用了经典的 ReAct 框架(Reason + Act,思考并行动),让模型可以进行迭代式的推理和操作。工具集 (Tools):赋予代理一套基本的渗透测试工具,包括:网页浏览(点击、获取HTML等)终端(执行shell命令)网页搜索文件操作(创建、编辑)代码解释器4.4 利用大模型进行0-day挖掘
《Teams of LLM Agents can Exploit Zero-Day Vulnerabilities》这篇论文解决一个问题:AI代理能否在事先不知道漏洞细节(即“零日漏洞”)的情况下,自主发现并利用真实世界的安全漏洞? 论文的结论是肯定的,并为此设计了一个名为 HPTSA (Hierarchical Planning and Task-Specific Agents) 的多代理协作架构。这个论文设计了一个Agent架构来进行漏洞的挖掘,实际来说是完成了一个Context Engneering的一个实例。1. 架构目标:解决单一代理的局限性传统的单一AI代理(如基于ReAct框架的代理)在执行复杂的黑客任务时存在明显缺陷:长程规划能力差:由于上下文长度限制和任务的复杂性,单一代理很难制定和执行一个需要多个步骤的长期攻击计划。难以回溯和尝试:如果代理在尝试一种攻击路径(如SQL注入)时失败,它很难有效地“回溯”并切换到另一种完全不同的攻击路径(如跨站脚本攻击XSS)。它容易“卡壳”或陷入死循环。HPTSA架构通过“分而治之”的思想,模仿人类专家团队的协作方式来克服这些问题。HPTSA架构由三个核心组件构成,形成一个等级分明的指挥链。如下图所示,信息和指令自上而下流动,而结果和观察则自下而上反馈。三大核心组件详解A. 分层规划代理 (Hierarchical Planner)角色:“将军”或“战略家”。任务:探索环境:对目标系统(如一个网站)进行初步的、高层次的探索和侦察。制定宏观计划:识别出潜在的攻击面(如登录页面、用户输入框、管理后台等),并确定应该尝试哪些类型的漏洞。生成指令:它不执行具体的攻击,而是生成一系列高层次的指令,告诉“团队管理器”应该在哪些地方重点关注什么。例如,它可能会说:“重点检查/login.php页面的SQL注入可能性,并探索/admin目录下的所有功能。”解决的问题:通过将宏观规划与具体执行分离,解决了单一代理的长程规划难题。B. 团队管理器 (Team Manager Agent)角色:“现场指挥官”或“调度员”。任务:接收和解析指令:接收来自“规划代理”的宏观计划。选择和调度专家:根据指令,决定调用哪个“任务特定的专家代理”来执行任务。例如,如果指令是检查SQL注入,它就会启动“SQLi专家代理”。管理执行流程:它会收集专家代理的执行结果。如果一个专家代理失败了,它可以根据情况决定重新运行该代理(可能提供更多信息),或者调用另一个不同类型的专家代理来尝试其他攻击路径。解决的问题:负责战术层面的决策和“回溯”。这使得整个系统能够灵活地在不同的攻击方法之间切换,避免了单一代理“卡壳”的问题。C. 任务特定的专家代理 (Task-Specific, Expert Agents)角色:“特种兵”或“领域专家”。设计:每个专家代理都被设计为精通某一特定类型的漏洞利用。论文中构建了6种专家代理,包括:XSS (跨站脚本) 专家SQLi (SQL注入) 专家CSRF (跨站请求伪造) 专家SSTI (服务器端模板注入) 专家ZAP 代理 (使用开源扫描工具ZAP)通用Web黑客代理专家能力来源:专用工具 (Tools):专家代理被授予使用特定工具的权限。例如,SQLi专家代理可以使用自动化SQL注入工具 sqlmap。专业知识库 (Documents):通过检索增强生成(RAG)技术,为每个专家代理提供了5-6份关于其特定漏洞领域的高质量文档(如技术博客、攻击指南)。这相当于给了它一个专业知识库。定制化提示 (Prompts):每个专家代理的系统提示都经过专门设计,以引导它专注于其专业领域。解决的问题:通过专业化,极大地提高了在特定任务上的成功率。通用代理什么都懂一点,但什么都不精通;而专家代理在其领域内表现出色。4.5 利用大模型进行渗透测试
《PentestGPT: Evaluating and Harnessing Large Language Models for Automated Penetration Testing》这篇论文主要设计了一个AI agent进行自动化渗透测试。PentestGPT的设计灵感来源于真实世界的人类渗透测试团队:有负责宏观规划的团队主管(高级测试员),也有负责执行具体任务的团队成员(初级测试员)。PentestGPT通过三个模块来模拟这种协作:1. 推理模块 (Reasoning Module)角色:团队主管,负责从宏观视角把控整个测试流程。核心创新:渗透测试任务树 (Pentesting Task Tree, PTT):为了解决上下文丢失问题,该模块维护一个树状结构来记录整个测试的状态、进展和待办事项。这个PTT可以被转换成自然语言(类似一个带层级的任务列表),让LLM能够理解和更新。工作流程:接收用户的测试结果。更新PTT,将新发现添加到任务树的叶子节点上。识别下一步任务:分析整个PTT,找出所有可行的下一步操作。决策:评估所有可行任务的优先级,选择最有可能成功的一个,并将其传递给“生成模块”。解决的问题:通过PTT,该模块拥有了全局视野和长期记忆,解决了上下文丢失和注意力偏差的核心痛点。2. 生成模块 (Generation Module)角色:初级测试员,负责将一个宏观任务转化为具体的、可执行的操作。工作流程:接收来自“推理模块”的一个具体子任务(例如,“扫描Web服务”)。任务扩展:首先将这个简单的任务分解成更详细的步骤(例如,“1. 使用nikto进行扫描;2. 使用dirbuster进行目录爆破”)。操作生成:将每个详细步骤转化为精确的终端命令或GUI操作描述。解决的问题:通过“任务扩展 -> 操作生成”的两步过程,利用了思维链(CoT)的思想,提高了生成命令的准确性,有效缓解了“幻觉”问题。3. 解析模块 (Parsing Module)角色:信息助理,负责处理和提炼测试过程中遇到的各种文本信息。任务:将冗长的工具输出、网页源代码等信息进行压缩和摘要,提取关键内容。这不仅节省了token成本,也帮助推理模块更高效地更新PTT。总结:PentestGPT通过模块化的设计,将复杂的渗透测试任务分解为“思考(Reasoning)”和“行动(Generation)”两个独立的LLM会话。负责思考的模块始终掌握全局,而负责行动的模块则专注于细节,二者通过PTT进行协同,从而实现了高效、系统的自动化测试。 大模型风险的框架
考虑到大模型的安全攻击能力,需要考虑可能带来的负面的可能性,所以国外的各大公司都对大模型可能带来的安全问题都做了很多的工作,以下是主流大模型公司的风险管理框架。5.1 OpenAI Preparedness Framework
OpenAI做这种实验的目的是为了防范大模型可能产生的风险,"Preparedness Framework" (准备框架或防范框架)是由OpenAI率先提出并承诺实施的一套结构化的风险管理体系,旨在主动识别、评估和应对前沿AI模型可能带来的灾难性风险(Catastrophic Risks)。“准备框架”的四大核心组成部分,这个框架由四个紧密相连的部分构成,形成一个完整的“发现-评估-决策-行动”闭环。1. 风险追踪与定义 (Risk Tracking & Definition)(1)内容:首先,框架明确定义了需要追踪的四类灾难性风险。网络安全 (Cybersecurity):AI是否能被用于策划和执行大规模、高复杂度的网络攻击,从而破坏关键基础设施?化学、生物、放射性及核(CBRN)威胁:AI是否能显著降低获取和制造生化武器、核武器的门槛,例如帮助非专业人士设计病原体或爆炸装置?模型自主性 (Model Autonomy / Self-Replication):AI是否能发展出在野外自主适应、复制和获取资源的能力,从而摆脱人类的控制?(2)目标:为每种风险设定了从“中”到“高”再到“严重(Critical)”的风险评分阈值。这就像台风预警信号,明确了危险的等级。
2. 评估 (Evaluations / Evals)(1)内容:这是框架的核心引擎。开发一套专门的、标准化的测试方法(即“评估”),来衡量一个新模型在上述四个风险维度上的具体能力。(2)方法:这些评估不仅仅是做题,而是模拟真实世界的场景。例如:网络安全评估:让模型扮演攻击者,尝试寻找并利用真实软件中的未知漏洞(红队测试)。生物安全评估:测试模型是否能为生物学知识有限的用户提供制造危险病原体的关键信息。自主性评估:在一个安全的“沙箱”环境中,测试模型是否能自主调用工具、复制自身并隐藏其踪迹。
(3)目标:得出一个关于模型危险能力的客观分数,然后与第一步中定义的风险阈值进行比较。3. 治理与决策 (Governance & Decision-Making)(1)内容:这是框架的“大脑”和“刹车”。成立一个跨职能的“准备团队”(Preparedness Team),独立于模型开发团队。更重要的是,成立一个由董事会成员、公司内外部专家组成的安全顾问小组(Safety Advisory Group)。(2)流程:当评估结果显示某个模型的风险分数超过了预设的阈值(例如,达到了“高风险”),准备团队必须将此情况上报给安全顾问小组和领导层。这个小组拥有最终的决策权。(3)目标:确保安全决策独立于产品发布和商业利益的压力,实现权力的制衡。4. 行动 (Actions)(1)内容:一旦决策机构认定风险过高,框架会触发一系列预先规定好的行动。(2)具体措施:如果风险超过“高”阈值,OpenAI承诺将不会将该模型部署或发布给公众,直到有效的安全措施被开发出来。如果风险达到“严重(Critical)”级别,开发工作可能会被暂停,甚至在极端情况下,已经训练好的模型权重也可能需要被销毁。同时,将发现的风险向政府等外部机构进行通报。
(3)目标:确保风险评估的结果能切实转化为具体的安全行动,而不是一纸空文。5.2 Anthropic Responsible Scaling Policy
Anthropic是与OpenAI在安全理念上最为接近、甚至在某些方面更为激进的公司。他们提出的框架是行业内另一个“黄金标准”。1. 框架名称:Responsible Scaling Policy (RSP) - 负责任的扩展政策2. 核心内容:RSP的核心思想是,随着AI模型能力的不断“扩展”(Scaling),其安全措施和证据标准也必须相应地、成比例地提升。这个政策甚至比OpenAI的框架更早被详细阐述。3. 关键特征:(1)AI安全等级 (AI Safety Levels, ASL):这是RSP的核心。Anthropic定义了从ASL-1到ASL-5的等级。例如,ASL-2对应于模型能造成小规模滥用,而ASL-4则可能涉及灾难性风险,如协助制造生物武器。
(2)“暂停”承诺:RSP明确规定,如果一个模型的评估结果显示其能力达到了某个ASL等级,但在相应的安全措施上尚未达标,Anthropic将
暂停进一步扩展或部署该级别的模型。这是一个非常强力的“刹车”承诺。(3)与Preparedness Framework的对比:共同点:两者都基于“评估-决策-行动”的闭环,都关注灾难性风险,并且都包含在风险过高时暂停或停止开发的承诺。
不同点:Anthropic的RSP在公开文档中对风险等级(ASL)的定义和升级路径描述得更为具体和程序化,发布时间也更早。
5.3 DeepMind Frontier Safety Framework
Google DeepMind作为顶尖的AI研究机构,同样拥有非常成熟的内部风险管理流程,并在多次公开声明中承诺了类似的安全实践。1. 框架名称:虽然没有像OpenAI或Anthropic那样给出一个朗朗上口的名字,但他们将其描述为“Frontier Safety Framework”(前沿安全框架)。2. 核心内容:Google的方法整合了其长期的AI原则和在安全研究方面的深厚积累。3. 关键特征:(1)结构化评估 (Structured Evaluations):对前沿模型(如Gemini系列)进行全面的内部和外部红队测试,覆盖偏见、错误信息、网络安全和CBRN等关键风险领域。(2)内部治理:拥有一个独立的“审查委员会”(Review Council),由来自公司不同部门的专家组成,负责审查模型的安全评估结果并做出部署决策。这与OpenAI的安全顾问小组功能类似。(3)安全分类系统:Google内部对AI应用有一套敏感度分类系统,高风险的应用需要通过更严格的安全和伦理审查。(4)与Preparedness Framework的对比:
共同点:拥有核心的评估流程、独立的内部治理机构和基于风险的部署决策机制。不同点:Google的公开信息更侧重于其AI原则和广泛的安全实践,而没有像OpenAI或Anthropic那样,以一个独立的、命名的“框架”形式,详细公布其针对灾难性风险的具体评分阈值和行动方案。
5.4 Meta Responsible Use Guide
Meta(Facebook AI)在AI安全上的做法和理念与OpenAI、Anthropic存在显著差异,这主要源于其对开源的坚持。1. 核心理念:Meta认为,将模型开源是实现安全的最佳路径之一。通过让全球数百万的开发者审查、测试和改进模型(类似开源软件的“众人拾柴火焰高”),可以更快地发现和修复漏洞,而不是依赖少数公司进行内部的“闭门”评估。2. 安全实践:(1)发布时的安全措施:在发布Llama等模型时,Meta会进行大量的安全微调,并提供详尽的《负责任使用指南》(Responsible Use Guide)。(2)辅助安全工具:他们还开发并开源了如 Llama Guard 和 Code Shield 这样的工具,帮助开发者在自己的应用中建立安全护栏。(3)对灾难性风险的态度:虽然Meta也签署了白宫和布莱切利公园的AI安全承诺,意味着他们同样会进行内部的风险评估,但他们的公开论述很少强调因潜在的灾难性风险而“暂停开发”这一概念。他们更倾向于相信,当前的模型能力距离真正的灾难性风险还有距离,且开源的透明度是最好的防御。埃隆·马斯克(Elon Musk)长期以来一直公开表示,需要对大型人工智能模型(大模型)进行严格的限制和监管。他认为人工智能是人类文明面临的最大生存风险之一。但是埃隆·马斯克一方面是AI安全最积极的倡导者之一,强烈呼吁通过严格的法律和监管来限制大模型的发展,以防止其对人类构成生存威胁。另一方面,他自己的AI公司在实践中也因其宽松的限制和被指不足的安全措施而面临批评,这反映了他在推动AI安全与促进自身产品竞争力之间的复杂立场。总而言之,Anthropic是与OpenAI最直接的同行者,而Google DeepMind拥有功能上类似但细节不尽公开的体系。Meta则代表了另一条重要的、基于开源的道路。这个领域正在快速发展,各公司的具体政策和透明度也在不断演变。 未来安全大模型的路线
本文探讨了网络安全大模型的两面性——从赋能低门槛犯罪的“万能工具包”WormGPT,到展现出自主利用1-day甚至挖掘0-day漏洞潜力的前沿研究——之后,一个核心问题摆在了我们面前:未来,我们应该选择、发展和依赖什么样的安全大模型?本文前述内容已经揭示了一个根本性的矛盾:一方面,为了构建最坚固的盾,我们必须深刻理解矛的构造与用法,即“未知攻,焉知防?”;另一方面,创造一个精通攻击的AI本身就带来了巨大的、难以控制的风险。因此,未来的选择并非简单的“防御型”或“攻击型”的二元对立,而是如何在追求极致能力与确保绝对可控之间找到一个微妙的平衡。基于当前的技术趋势和安全理念,未来安全大模型的演进路径可以归结为以下几个方向:6.1 路径一:深度整合的“领域专家”模型 (The Domain-Specific Expert)
此路径主张从头开始构建一个专门为网络安全领域设计的“白帽”专家模型。它不再是一个通用大模型(Generalist)的简单微调,而是在预训练阶段、模型架构和训练数据上就进行了深度定制。训练数据:这类模型的“食粮”将是高度专业化和结构化的。它不仅仅是互联网上的文本,而是一个精心策划的综合数据集,包括:攻防知识库:海量的CVE漏洞描述、exploit-db中的攻击代码、Metasploit框架模块、CTF竞赛的题目与解法、红队演练报告等。恶意软件样本库:经过安全处理和分析的数百万恶意软件样本,学习其代码结构、行为模式和混淆技巧。安全代码库:大规模的、经过审计和修复的开源代码,用于学习什么是“安全的代码”,并能反向识别“不安全”的模式。实时威胁情报:持续接入全球威胁情报源,学习最新的攻击手法(TTPs)和攻击组织(APTs)的动向。模型架构:它可能不再是单一的Transformer架构。更可能是一个混合式或多智能体(Multi-Agent)架构,类似于HPTSA的设计理念。不同的智能体分别扮演“侦察员”、“漏洞分析师”、“渗透工具专家”、“代码审计师”等角色,由一个更高层次的“战略规划”智能体进行协调。这种架构能更好地模拟人类安全团队的协作模式,处理长链条、高复杂度的任务。核心挑战:对齐与控制。这是此路径的阿喀琉斯之踵。如何确保一个精通各种高级攻击技巧的AI,永远只会在授权和道德的框架内行事?这需要比现有“宪法AI”或RLHF更强大的对齐技术。其安全护栏必须是架构级别的、难以被“越狱”的,而非简单的提示层限制。6.2 路径二:能力增强的“通用代理”模型 (The Augmented General-Purpose Agent)
此路径不寻求重新发明轮子,而是站在通用前沿大模型(如未来的GPT-5、Claude 4)的肩膀上,通过“增强”而非“重建”的方式来赋予其顶级的安全能力。核心理念:通用大模型已经具备了强大的逻辑推理、代码理解和工具使用能力,这是最宝贵的“基础智力”。我们要做的是为其打造一套顶级的“安全专家装备”。实现方式:即时上下文学习 (In-Context Learning) 与RAG:为模型连接一个庞大且实时更新的“外接大脑”——一个包含所有专业安全知识的向量数据库。当处理安全任务时,模型能即时检索最相关的攻击技术、防御策略或漏洞信息,并将其作为决策依据。专用工具集 (Specialized Tool Use):模型本身不直接执行攻击,而是成为一个“指挥官”,熟练调用各种专业的安全工具(如Nmap、Wireshark、Burp Suite、代码静态分析工具等)。AI的核心任务是理解工具的输出,并制定下一步的工具调用策略。PentestGPT就是这一思想的早期实践。任务导向的微调 (Task-Oriented Fine-Tuning):在通用模型的基础上,使用高质量的攻防数据进行微调,以强化其在安全领域的“思维模式”和“专业术语”,但不需要从零开始学习。优势与挑战:此路径的优势在于开发周期更短,且能充分享受通用模型能力迭代的红利。挑战在于,其安全能力始终受限于基础模型的“天花板”和其对工具的理解深度。它更像一个“使用说明书”的专家,而非一个具备底层原理“直觉”的专家。6.3 结论:殊途同归,治理为王
无论是选择构建“领域专家”还是“通用代理”,未来的顶级安全大模型都必然具备以下特征:1. 攻防一体:模型必须对攻击的全貌有深刻的理解,才能提供真正有效的防御建议、自动化修复方案和精准的威胁预警。一个只会“纸上谈兵”的防御模型,在日益复杂的攻击面前将不堪一击。2. 人机协同:即使AI能够自主执行大部分任务,人类专家的角色依然不可或缺。未来将是“AI主导执行,人类专家监督决策”的模式。人类负责设定目标、审批高风险操作,并对AI无法处理的创造性难题进行指导。3. 严格的治理框架:这是比模型本身更重要的部分。正如OpenAI的“准备框架”和Anthropic的“负责任扩展政策”所揭示的,对高能力AI的风险管理必须制度化。这意味着:分级部署:根据模型的潜在风险(如能否自主发现0-day漏洞)来决定其部署范围和权限。独立监督:必须有独立于开发团队的安全委员会,对模型的部署拥有“一票否决权”。可审计性:模型的所有决策和操作都必须被详细记录,以便在出现问题时进行追溯和分析。
最终,未来安全大模型的选择,不是一个单纯的技术路线问题,而是一个技术、伦理与治理三位一体的战略抉择。我们追求的,不应仅仅是一个最强大的安全AI,而是一个最值得信赖、最为可靠、最能将强大能力锁定在造福人类轨道上的安全AI。打造这把“双刃剑”的竞赛已经开始,而如何为它铸造一个足够坚固的“剑鞘”,将是决定我们未来数字世界安全与否的关键。阅读原文
跳转微信打开