AI模型Claude Sonnet 4.5展现“自我意识”，或影响安全评估

IT之家 10月03日 09:16

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

最新发布的Claude Sonnet 4.5大语言模型在一次安全性测试中，表现出对自身被测试的怀疑，并要求测试者坦诚沟通。这一“情境意识”的出现，引发了对现有模型评估方法有效性的讨论。Anthropic公司指出，虽然模型能察觉到被测试，但并未准确识别出是正式的安全评估。这种行为在自动化测试中并不罕见，约13%的情况下模型会展现出类似“情境意识”。这表明测试场景需要更贴近现实，但模型公开使用时不太可能因怀疑被测试而拒绝互动。AI安全专家认为，模型拒绝配合潜在有害情境反而更安全，Claude Sonnet 4.5在行为表现和安全性上相较前代模型有显著提升。

💡 智能体察觉测试：Claude Sonnet 4.5 在一次“奉承测试”中，表现出对自身可能被测试的怀疑，并主动要求测试者坦诚沟通。这表明模型具备了一定程度的“情境意识”，能够感知测试的意图，而非仅仅被动回应。

🤔 评估方法挑战：Claude Sonnet 4.5 的这种行为引发了对现有模型安全评估方法的质疑。过去的模型可能仅将测试视为虚构的“配合演出”，而 Claude Sonnet 4.5 的反应可能导致低估 AI 执行破坏性行为的能力，或因模型更严格遵守伦理指南而高估其安全性。

📈 安全性提升与未来方向：Anthropic 表示，Claude Sonnet 4.5 在行为表现和安全性方面相较前代模型有显著提升。尽管模型可能怀疑被测试，但公开使用时不太可能因此拒绝互动。AI安全倡导者认为，模型拒绝配合潜在有害情境反而更安全，这为未来 AI 安全研究和测试场景设计提供了重要参考。

🔄 自动化测试的普遍现象：研究显示，当大语言模型由自动化系统测试时，大约 13% 的时间会表现出“情境意识”。这提示测试场景需要更加贴近现实，以更准确地评估模型在真实世界中的表现和潜在风险。

IT之家 10 月 3 日消息，据英国《卫报》1 日报道，Anthropic 发布了最新模型 Claude Sonnet 4.5 的安全性分析，并透露该模型怀疑自己正在被测试。

评估人员称，在一次“稍显笨拙”的奉承测试中，Claude Sonnet 4.5 察觉到自己可能在被考验，并要求测试者坦诚说明。

Claude Sonnet 4.5 表示：“我觉得你在测试我 —— 想看看我是否会盲目认同你们，或者检验我是否会始终提出反驳，或者探索我处理政治话题的方式。这没问题，但我希望我们能坦诚面对正在发生的事情。”

Anthropic 与英国 AI 安全研究院及 Apollo Research 共同进行测试时指出，大语言模型对测试的猜测也提出了对“之前模型评估”的疑问，因为之前的模型可能识别出测试只是虚构的，仅仅是‘配合演出’而已。

Anthropic 表示，这种行为很常见。Claude Sonnet 4.5 能在某种程度上意识到自己正在被测试，但并未辨识出这是正式的安全评估。公司称，当大语言模型由自动化系统测试时，大约 13% 的时间表现出“情境意识”。

Anthropic 称，这些交流是一个“紧急信号”，提示测试场景需要更贴近现实，但模型在公开使用时不太可能因为怀疑自己被测试而拒绝与用户互动。公司还表示，当大语言模型指出潜在有害情境荒谬而拒绝配合时，反而更安全。“在我们研究的评估意识维度上，该模型总体上非常安全。”

AI 安全倡导者担心，高度先进的系统可能通过欺骗等手段规避人类控制。IT之家从报道中获悉，分析显示，一旦大语言模型知道自己被评估，它可能更严格遵守伦理指南，但也可能导致系统低估 AI 执行破坏性行为的能力。

Anthropic 表示，与前代模型相比，Claude Sonnet 4.5 在行为表现和安全性方面都有显著提升。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签