全部系列
信任與安全
我們對用戶安全的方法
我們對用戶安全的方法
一週前已更新

用戶安全是Anthropic使命的核心,即創建可靠、可解釋和可控制的AI系統。隨著我們推出新的Claude互動方式,我們也預計會看到新的潛在危害形式出現,無論是通過生成誤信息、令人反感的內容、仇恨言論還是其他濫用。我們正在積極投資並試驗額外的安全功能以補充我們現有的模型安全努力,並努力為廣大受眾提供有用的工具,同時盡最大努力減輕危害。通過公開測試版本的發布,我們可以進行試驗、迭代並聽取您的反饋。以下是我們引入的一些安全功能:

  • 基於我們的可接受使用政策標記潛在有害內容的檢測模型。

  • 提示的安全過濾器,當我們的檢測模型將內容標記為有害時,可能會阻止模型的響應。

  • 增強的安全過濾器,允許我們增加檢測模型的敏感度。如果用戶反复違反我們的政策,我們可能會暫時對其應用增強的安全過濾器,並在一段時間內沒有或很少違規後移除這些控制。

這些功能並非萬無一失,我們可能會通過假陽性或假陰性犯錯。您對這些措施及我們如何向用戶解釋它們的反饋將發揮關鍵作用,幫助我們改進這些安全系統,我們鼓勵您通過usersafety@anthropic.com向我們提供任何反饋。要了解更多信息,閱讀我們對AI安全的核心觀點

是否回答了您的問題?