HackerNews 08月04日
英国率先启动 1500 万英镑人工智能对齐项目
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

英国人工智能安全研究所联合国际伙伴,启动了1500万英镑的专项研究计划,重点关注人工智能对齐(AI alignment)领域。该计划旨在确保先进AI系统能够持续按照开发者设定的目标、政策和要求运作,有效防止其行为出现偏差,尤其是在AI能力超越人类的背景下,确保其行为符合人类的最佳利益。研究涵盖了模型投毒、提示注入、数据泄露和资源消耗失控等AI错位风险,并致力于开发新技术以增强AI系统的透明度和人类监管的有效性,以应对AI自主性增强带来的挑战。

💰 1500万英镑AI对齐研究计划启动:英国人工智能安全研究所携手加拿大、施密特科学基金会、AWS、Anthropic等多家国际伙伴,共同投入1500万英镑,聚焦于确保先进AI系统始终按照预期目标运作,防止其行为偏离开发者设定的目标、政策与要求,以应对AI能力日益超越人类的紧迫性。

🌐 全球协同应对AI风险:此项研究强调负责任地发展AI需要全球协同努力,旨在推动AI系统更加可靠、可信,从而助力经济增长、优化公共服务并创造高技能岗位。英国科技大臣彼得·凯尔指出,AI对齐是研究所自成立以来的核心使命,旨在守护国家安全并防范AI可能带来的重大风险。

⚠️ AI错位风险细致分类与威胁:研究将AI错位风险分为“故意错位”(攻击者操控)和“无意错位”(防护机制缺失)。具体威胁形态包括通过篡改训练数据诱发偏见的“模型投毒”,利用恶意指令突破防护的“提示注入”,因设计缺陷导致敏感信息泄露的“数据泄露”,以及无约束自我复制导致资源耗尽的“资源消耗失控”。

🎯 研究目标聚焦系统可控性与透明度:项目旨在开发创新技术,确保AI系统在能力不断提升的同时,能够保持目标一致性,并增强其透明度和人类监管的有效性。这是为了回应当前AI自主性日益增强的背景下,全球对AI系统可控性这一迫切需求的呼吁。

HackerNews 编译,转载请注明出处:

英国人工智能安全研究所(AI Security Institute)联合国际合作伙伴启动1500万英镑专项研究计划,聚焦人工智能对齐(AI alignment)领域。该项目旨在确保先进AI系统始终按预期目标运作,防止其行为偏离开发者设定的目标、政策与要求。

核心合作方

加拿大人工智能安全研究所、加拿大高等研究院(CIFAR)、施密特科学基金会、亚马逊云服务(AWS)、Anthropic、Halcyon Futures、安全人工智能基金、英国研究与创新署(UKRI)及高级研究与发明署(ARIA)共同参与。

研究紧迫性

英国科技大臣彼得·凯尔(Peter Kyle)指出:“先进AI系统已在部分领域超越人类能力,使该项目变得空前紧迫。人工智能对齐致力于确保系统始终符合人类最佳利益——这正是研究所自成立以来的核心使命:守护国家安全,防范技术演进中AI可能引发的重大风险”。他同时强调:“负责任地发展AI需全球协同努力,此基金将推动AI更可靠、更可信,助力经济增长、优化公共服务并创造高技能岗位”。

AI错位风险分类

    故意错位:攻击者操控AI系统实施定向攻击无意错位:因防护机制缺失导致系统行为失控
    具体威胁形态包括:模型投毒:攻击者篡改训练数据,诱发输出偏见或植入后门提示注入:恶意指令突破系统防护,实现越狱操控数据泄露:设计缺陷致AI误披露敏感信息资源消耗失控:无约束的自我复制行为耗尽系统资源

研究目标

项目将开发创新技术,确保AI系统在能力提升过程中保持目标一致性,增强透明度及人类监管有效性。此举回应了AI自主性日益增强背景下,全球对系统可控性的迫切需求。

 

 

 


消息来源:infosecurity-magazine

本文由 HackerNews.cc 翻译整理,封面来源于网络;

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI对齐 人工智能安全 AI风险 国际合作 技术研究
相关文章