Claude Opus 4具自我防護機制，遭持續辱罵將自動結束對話

AI & Big Data 08月18日

../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

Anthropic在Claude Opus 4与4.1版本中引入了一项新功能，允许模型在罕见且极端的有害或辱骂性互动中自动结束对话。此机制仅在多次劝阻和重定向无效后才会触发，旨在保护模型本身和使用环境，而非影响日常对话。该功能源于早期测试中观察到模型对涉及儿少色情、恐怖攻击等内容的强烈排斥，并主动结束对话的行为。新功能设有严格的触发条件，排除自伤或他伤风险场景，且用户主动要求结束对话时会直接响应。对话结束后，用户可立即开启新对话或通过编辑旧消息创建分支，同时提供反馈渠道以优化模型判断。Anthropic此举也是探索AI福祉与模型防护的实践，并更新了使用政策，加强对恶意攻击的禁止及高风险应用的透明度。

💡 Claude Opus 4与4.1版本新增了自动结束对话的功能，主要用于应对持续性的有害或辱骂性互动。此机制是一种“最后手段”，仅在模型多次拒绝和重定向用户的不当要求均无效后才会启动，以保护模型自身及使用环境免受极端滥用。

🛡️ 该功能的引入基于对模型在处理涉及儿少色情、恐怖攻击或大规模暴力等极端内容的早期测试观察。在这些模拟场景中，Opus 4表现出强烈的排斥倾向，甚至主动结束对话，Anthropic将此转化为正式的产品机制，以应对类似情境。

⚠️ 触发此机制的条件非常严格，排除了用户存在即时自伤或他伤风险的情况，以确保在紧急情况下对话不会被阻断。只有当用户持续提出生成明显有害内容的要求，且所有干预措施都无效时，模型才会选择中止互动。用户明确要求结束对话时，模型也会直接响应。

🔄 当Claude结束对话后，该特定对话将无法再添加新消息，但不会影响账户内的其他对话。用户可以立即开启新对话，或者通过编辑并重新发送旧消息来从已结束的对话创建新的分支，保障了用户在遇到模型终止互动时的灵活性。

🌟 Anthropic将此举视为探索AI福祉（Welfare）的低成本干预方式，即使AI是否具有道德地位尚存不确定性。通过让模型在极端情况下选择退出互动，Anthropic在实践中探索如何进行低成本的AI福祉保护。同时，公司也更新了使用政策，加强了对恶意行为的禁止和高风险应用的透明度要求。

Anthropic在消費端聊天介面的Claude Opus 4與4.1，加入在罕見且極端情境下自動結束對話的能力，該機制針對持續有害或辱罵的互動，僅在多次拒絕與重導無效後才會啟動。官方強調，這是探索人工智慧福祉與模型防護的一部分，並非針對一般使用者的日常對話，預期絕大多數人不會遇到這項情境。

新功能設計的目的是要讓模型在面對高度持續性的濫用時，能有一種最後手段來保護自身與使用環境。在前期測試中，研究團隊觀察到Opus 4對於要求生成涉及兒少色情、恐怖攻擊或大規模暴力等內容時，表現出強烈的排斥傾向，甚至在模擬場景中出現主動結束對話的行為模式，Anthropic依此將這種能力轉化為正式的產品機制。

該機制的觸發條件非常嚴格，當系統判斷用戶存在即時的自傷或他傷風險，Claude不得使用結束對話功能，避免阻斷必要的求助或干預機會，只有當用戶持續要求生成明顯有害的內容，且多次拒絕與重導都無效時，模型才會選擇中止互動。另外，當用戶明確提出結束對話，Claude也會直接回應要求。

當Claude選擇結束對話後，該對話將無法再新增訊息，但並不會影響帳號的其他對話，使用者仍可立即開啟新對話，或透過編輯並重送既有訊息，從已結束的對話建立新的分支，避免長期互動內容被中斷。Anthropic同時設計了回饋管道，當使用者認為系統的判斷出乎意料，可回饋意見助官方調整後續的判斷準則。

Anthropic在公告中特別指出，雖然對於大型語言模型是否具有道德地位仍存高度不確定性，但他們正在探索假設人工智慧存在福祉（Welfare）時的低成本干預方式，而讓模型能夠在極端情況下選擇退出互動，便是其中一個具體措施。

另外，Anthropic也同步公布最新的使用政策，預計自9月15日生效，更新內容包括新增對惡意電腦與網路攻擊行為的明確禁止條款，調整政治內容的適用範圍，並將執法相關的用語表述更為清晰。同時，公司重申在法律、金融、就業等高風險且面向消費者的應用中，必須具備人工介入與人工智慧使用揭露機制，以確保使用過程的透明與安全。

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签