Claude AI 現在可以結束對話了:一種應對極端情況的新機制
近幾個月來,Anthropic 加大了安全力度,推出了多項功能,並進行瞭如何提高 AI 安全性的研究。最新推出的功能似乎是 克勞德 這是迄今為止最顯著的特徵之一。

Claude Opus 4 和 4.1(Anthropic 的最新版本)現在都支援在使用者的聊天介面中結束對話。雖然此功能不會被廣泛使用,但它是針對罕見且極端的「持續有害或辱罵性用戶互動」情況而實施的。
في 一篇探討新功能的部落格文章Anthropic 團隊表示:“我們對 Claude 和其他大型語言模型的潛在倫理地位,無論是現在還是將來,仍然有很大不確定性。然而,我們非常重視這個問題。”
在 Anthropic 最新模型發布前的測試中,該公司對模型的福利進行了評估。這包括檢視 Claude 的自我報告和行為偏好,並發現其對傷害表現出強烈且持續的厭惡。
我們對 Claude 和其他大型語言模式的潛在倫理地位,無論是現在還是將來,仍然有很大不確定性。然而,我們非常重視這個問題。
人類的
換句話說,克勞德實際上會關閉或拒絕參與這些對話。這些對話包括使用者要求涉及未成年人的性內容,以及試圖索取可能導致大規模暴力或恐怖主義行為的資訊。
在許多此類情況下,儘管 Claude 主動拒絕,用戶仍堅持提出有害或辱罵性的請求。這項新功能允許 Claude 有效地結束對話,旨在為此類情況提供一些保護。
Anthropic 解釋說,當使用者可能面臨傷害自己或他人的迫在眉睫的危險時,將不會應用此功能。
Anthropic 團隊在部落格文章中繼續說道:“在所有情況下,Claude 都應僅在多次重定向嘗試失敗、所有富有成效的互動希望都已消失,或者用戶明確要求 Claude 結束聊天時,才將結束對話的功能作為最後的手段。”

“發生這種情況的情況非常極端且罕見——絕大多數用戶在正常使用產品時都不會注意到或受到此功能的影響,即使在與 Claude 討論極具爭議的問題時也是如此。”
雖然用戶將無法再在該對話中發送任何新訊息,但這不會阻止他們在自己的帳戶上發起另一個對話。為了解決長對話線索可能遺失的問題,使用者仍然可以編輯先前的訊息,並重試建立新的對話分支。
這是 Anthropic 的一款相當獨特的應用程式。 ChatGPT 和 雙子座 和 格羅克克勞德最接近的三個競爭對手都沒有類似的東西,雖然他們都提供了其他保護措施,但都沒有走到這一步。
評論被關閉。