跳至主要內容

我們的用戶安全方針

今日已更新

用戶安全是Anthropic創建可靠、可解釋和可控AI系統使命的核心。隨著我們推出讓人們與Claude互動的新方式,我們也預期會看到新類型的潛在危害出現,無論是通過生成錯誤信息、令人反感的內容、仇恨言論或其他濫用行為。我們正在積極投資和實驗額外的安全功能,以補充我們現有的模型安全工作,並致力於為廣大受眾提供有用的工具,同時盡力減輕危害。以開放測試版推出新產品讓我們能夠實驗、迭代並聽取您的反饋。以下是我們引入的一些安全功能:

  • 基於我們的使用政策標記潛在有害內容的檢測模型。

  • 提示的安全過濾器,當我們的檢測模型將內容標記為有害時,可能會阻止模型的回應。

  • 增強安全過濾器,讓我們能夠提高檢測模型的敏感度。我們可能會暫時對反覆違反我們政策的用戶應用增強安全過濾器,並在一段時間沒有或很少違規後移除這些控制。

這些功能並非萬無一失,我們可能會因誤報或漏報而犯錯。您對這些措施以及我們如何向用戶解釋它們的反饋將在幫助我們改進這些安全系統方面發揮關鍵作用,我們鼓勵您通過usersafety@anthropic.com與我們聯繫,提供任何您可能有的反饋。要了解更多信息,請閱讀我們對AI安全的核心觀點

是否回答了您的問題?