IT之家 09月22日
谷歌 DeepMind 更新 AI 安全框架,关注模型“说服力”风险
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌 DeepMind 近期更新了其核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”的潜在风险纳入考量。新版框架新增了“说服力”类别,以应对可能具备强大操控能力、甚至改变用户信念和行为的 AI 模型。谷歌将此风险称为“有害操控”,并表示正通过追踪和人类参与的实验来评估和防范此能力。该框架每年至少更新一次,以识别并标注新兴威胁。

🤖 **前沿 AI 安全框架更新:** 谷歌 DeepMind 发布的“前沿安全框架”更新,首次将 AI 模型可能阻止人类控制或修改自身的风险纳入考量。这标志着对 AI 潜在失控风险的进一步深入思考和预防。

💡 **新增“说服力”类别:** 新版框架引入了“说服力”这一风险类别,旨在识别和应对那些可能拥有强大操控能力,系统性地改变用户信念和行为的 AI 模型。谷歌将其定义为“有害操控”,强调了滥用的潜在危险。

🔬 **评估与防范措施:** 谷歌 DeepMind 表示,他们正在持续追踪 AI 的“说服力”能力,并已开发了全新的评估体系,其中包括人类参与的实验,以精确测量和测试相关能力,从而制定有效的防范策略。

📈 **持续的威胁识别:** DeepMind 每年至少更新一次前沿安全框架,目的是及时识别新兴的 AI 威胁,并将其标注为“关键能力等级”。若无相应的缓解措施,这些高级能力可能对社会造成严重危害。

IT之家 9 月 22 日消息,谷歌 DeepMind 今天宣布更新核心 AI 安全文件“前沿安全框架”,将“前沿模型可能阻止人类关闭或修改自己”这一风险纳入考量。

IT之家从外媒 Axios 获悉,当前,一些新 AI 模型在测试中已展现出能制定计划、甚至用欺骗手段达成目标的能力。

新版前沿安全框架增加了一个新的“说服力”类别,旨在应对可能强大到足以改变用户信念的模型。谷歌将此风险称作“有害操控”,即 AI 模型具备强大的操控能力,且可能被滥用,在特定高风险场景中系统且显著地改变人们的信念和行为

针对如何防范这种风险,谷歌 DeepMind 代表对 Axios 表示:“我们持续追踪这一能力,并开发了全新的评估体系,其中包括人类参与的实验,用于测量和测试相关能力。”

DeepMind 每年至少更新一次前沿安全框架,以识别新兴威胁,并将其标注为“关键能力等级”。谷歌指出,“若缺乏缓解措施,前沿 AI 模型可能在这些能力等级上造成严重危害。”

OpenAI 在 2023 年也推出了类似的准备度框架,但今年早些时候已将“说服力”从风险类别中移除。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

谷歌 DeepMind AI安全 前沿安全框架 有害操控 说服力 Google DeepMind AISafety FrontierSafetyFramework HarmfulManipulation Persuasiveness
相关文章