HackerNews 编译,转载请注明出处:
英国人工智能安全研究所(AI Security Institute)联合国际合作伙伴启动1500万英镑专项研究计划,聚焦人工智能对齐(AI alignment)领域。该项目旨在确保先进AI系统始终按预期目标运作,防止其行为偏离开发者设定的目标、政策与要求。
核心合作方
加拿大人工智能安全研究所、加拿大高等研究院(CIFAR)、施密特科学基金会、亚马逊云服务(AWS)、Anthropic、Halcyon Futures、安全人工智能基金、英国研究与创新署(UKRI)及高级研究与发明署(ARIA)共同参与。
研究紧迫性
英国科技大臣彼得·凯尔(Peter Kyle)指出:“先进AI系统已在部分领域超越人类能力,使该项目变得空前紧迫。人工智能对齐致力于确保系统始终符合人类最佳利益——这正是研究所自成立以来的核心使命:守护国家安全,防范技术演进中AI可能引发的重大风险”。他同时强调:“负责任地发展AI需全球协同努力,此基金将推动AI更可靠、更可信,助力经济增长、优化公共服务并创造高技能岗位”。
AI错位风险分类
- 故意错位:攻击者操控AI系统实施定向攻击无意错位:因防护机制缺失导致系统行为失控
具体威胁形态包括:模型投毒:攻击者篡改训练数据,诱发输出偏见或植入后门提示注入:恶意指令突破系统防护,实现越狱操控数据泄露:设计缺陷致AI误披露敏感信息资源消耗失控:无约束的自我复制行为耗尽系统资源
研究目标
项目将开发创新技术,确保AI系统在能力提升过程中保持目标一致性,增强透明度及人类监管有效性。此举回应了AI自主性日益增强背景下,全球对系统可控性的迫切需求。
消息来源:infosecurity-magazine;
本文由 HackerNews.cc 翻译整理,封面来源于网络;
转载请注明“转自 HackerNews.cc”并附上原文
