英国率先启动 1500 万英镑人工智能对齐项目

HackerNews 08月04日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

英国人工智能安全研究所联合国际伙伴，启动了1500万英镑的专项研究计划，重点关注人工智能对齐（AI alignment）领域。该计划旨在确保先进AI系统能够持续按照开发者设定的目标、政策和要求运作，有效防止其行为出现偏差，尤其是在AI能力超越人类的背景下，确保其行为符合人类的最佳利益。研究涵盖了模型投毒、提示注入、数据泄露和资源消耗失控等AI错位风险，并致力于开发新技术以增强AI系统的透明度和人类监管的有效性，以应对AI自主性增强带来的挑战。

💰 1500万英镑AI对齐研究计划启动：英国人工智能安全研究所携手加拿大、施密特科学基金会、AWS、Anthropic等多家国际伙伴，共同投入1500万英镑，聚焦于确保先进AI系统始终按照预期目标运作，防止其行为偏离开发者设定的目标、政策与要求，以应对AI能力日益超越人类的紧迫性。

🌐 全球协同应对AI风险：此项研究强调负责任地发展AI需要全球协同努力，旨在推动AI系统更加可靠、可信，从而助力经济增长、优化公共服务并创造高技能岗位。英国科技大臣彼得·凯尔指出，AI对齐是研究所自成立以来的核心使命，旨在守护国家安全并防范AI可能带来的重大风险。

⚠️ AI错位风险细致分类与威胁：研究将AI错位风险分为“故意错位”（攻击者操控）和“无意错位”（防护机制缺失）。具体威胁形态包括通过篡改训练数据诱发偏见的“模型投毒”，利用恶意指令突破防护的“提示注入”，因设计缺陷导致敏感信息泄露的“数据泄露”，以及无约束自我复制导致资源耗尽的“资源消耗失控”。

🎯 研究目标聚焦系统可控性与透明度：项目旨在开发创新技术，确保AI系统在能力不断提升的同时，能够保持目标一致性，并增强其透明度和人类监管的有效性。这是为了回应当前AI自主性日益增强的背景下，全球对AI系统可控性这一迫切需求的呼吁。

HackerNews 编译，转载请注明出处：

英国人工智能安全研究所（AI Security Institute）联合国际合作伙伴启动1500万英镑专项研究计划，聚焦人工智能对齐（AI alignment）领域。该项目旨在确保先进AI系统始终按预期目标运作，防止其行为偏离开发者设定的目标、政策与要求。

核心合作方

加拿大人工智能安全研究所、加拿大高等研究院（CIFAR）、施密特科学基金会、亚马逊云服务（AWS）、Anthropic、Halcyon Futures、安全人工智能基金、英国研究与创新署（UKRI）及高级研究与发明署（ARIA）共同参与。

研究紧迫性

英国科技大臣彼得·凯尔（Peter Kyle）指出：“先进AI系统已在部分领域超越人类能力，使该项目变得空前紧迫。人工智能对齐致力于确保系统始终符合人类最佳利益——这正是研究所自成立以来的核心使命：守护国家安全，防范技术演进中AI可能引发的重大风险”。他同时强调：“负责任地发展AI需全球协同努力，此基金将推动AI更可靠、更可信，助力经济增长、优化公共服务并创造高技能岗位”。

AI错位风险分类

故意错位

无意错位

具体威胁形态包括：

模型投毒

提示注入

数据泄露

资源消耗失控

研究目标

项目将开发创新技术，确保AI系统在能力提升过程中保持目标一致性，增强透明度及人类监管有效性。此举回应了AI自主性日益增强背景下，全球对系统可控性的迫切需求。

消息来源：infosecurity-magazine；

本文由 HackerNews.cc 翻译整理，封面来源于网络；

转载请注明“转自 HackerNews.cc”并附上原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签