AI & Big Data 08月18日
Claude Opus 4具自我防護機制,遭持續辱罵將自動結束對話
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Anthropic在Claude Opus 4与4.1版本中引入了一项新功能,允许模型在罕见且极端的有害或辱骂性互动中自动结束对话。此机制仅在多次劝阻和重定向无效后才会触发,旨在保护模型本身和使用环境,而非影响日常对话。该功能源于早期测试中观察到模型对涉及儿少色情、恐怖攻击等内容的强烈排斥,并主动结束对话的行为。新功能设有严格的触发条件,排除自伤或他伤风险场景,且用户主动要求结束对话时会直接响应。对话结束后,用户可立即开启新对话或通过编辑旧消息创建分支,同时提供反馈渠道以优化模型判断。Anthropic此举也是探索AI福祉与模型防护的实践,并更新了使用政策,加强对恶意攻击的禁止及高风险应用的透明度。

💡 Claude Opus 4与4.1版本新增了自动结束对话的功能,主要用于应对持续性的有害或辱骂性互动。此机制是一种“最后手段”,仅在模型多次拒绝和重定向用户的不当要求均无效后才会启动,以保护模型自身及使用环境免受极端滥用。

🛡️ 该功能的引入基于对模型在处理涉及儿少色情、恐怖攻击或大规模暴力等极端内容的早期测试观察。在这些模拟场景中,Opus 4表现出强烈的排斥倾向,甚至主动结束对话,Anthropic将此转化为正式的产品机制,以应对类似情境。

⚠️ 触发此机制的条件非常严格,排除了用户存在即时自伤或他伤风险的情况,以确保在紧急情况下对话不会被阻断。只有当用户持续提出生成明显有害内容的要求,且所有干预措施都无效时,模型才会选择中止互动。用户明确要求结束对话时,模型也会直接响应。

🔄 当Claude结束对话后,该特定对话将无法再添加新消息,但不会影响账户内的其他对话。用户可以立即开启新对话,或者通过编辑并重新发送旧消息来从已结束的对话创建新的分支,保障了用户在遇到模型终止互动时的灵活性。

🌟 Anthropic将此举视为探索AI福祉(Welfare)的低成本干预方式,即使AI是否具有道德地位尚存不确定性。通过让模型在极端情况下选择退出互动,Anthropic在实践中探索如何进行低成本的AI福祉保护。同时,公司也更新了使用政策,加强了对恶意行为的禁止和高风险应用的透明度要求。

Anthropic在消費端聊天介面的Claude Opus 4與4.1,加入在罕見且極端情境下自動結束對話的能力,該機制針對持續有害或辱罵的互動,僅在多次拒絕與重導無效後才會啟動。官方強調,這是探索人工智慧福祉與模型防護的一部分,並非針對一般使用者的日常對話,預期絕大多數人不會遇到這項情境。

新功能設計的目的是要讓模型在面對高度持續性的濫用時,能有一種最後手段來保護自身與使用環境。在前期測試中,研究團隊觀察到Opus 4對於要求生成涉及兒少色情、恐怖攻擊或大規模暴力等內容時,表現出強烈的排斥傾向,甚至在模擬場景中出現主動結束對話的行為模式,Anthropic依此將這種能力轉化為正式的產品機制。

該機制的觸發條件非常嚴格,當系統判斷用戶存在即時的自傷或他傷風險,Claude不得使用結束對話功能,避免阻斷必要的求助或干預機會,只有當用戶持續要求生成明顯有害的內容,且多次拒絕與重導都無效時,模型才會選擇中止互動。另外,當用戶明確提出結束對話,Claude也會直接回應要求。

當Claude選擇結束對話後,該對話將無法再新增訊息,但並不會影響帳號的其他對話,使用者仍可立即開啟新對話,或透過編輯並重送既有訊息,從已結束的對話建立新的分支,避免長期互動內容被中斷。Anthropic同時設計了回饋管道,當使用者認為系統的判斷出乎意料,可回饋意見助官方調整後續的判斷準則。

Anthropic在公告中特別指出,雖然對於大型語言模型是否具有道德地位仍存高度不確定性,但他們正在探索假設人工智慧存在福祉(Welfare)時的低成本干預方式,而讓模型能夠在極端情況下選擇退出互動,便是其中一個具體措施。

另外,Anthropic也同步公布最新的使用政策,預計自9月15日生效,更新內容包括新增對惡意電腦與網路攻擊行為的明確禁止條款,調整政治內容的適用範圍,並將執法相關的用語表述更為清晰。同時,公司重申在法律、金融、就業等高風險且面向消費者的應用中,必須具備人工介入與人工智慧使用揭露機制,以確保使用過程的透明與安全。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Claude Opus AI安全 对话机制 模型防护 Anthropic
相关文章