用戶安全是Anthropic使命的核心,即創建可靠、可解釋和可操控的人工智能系統。隨著我們推出新的方式讓人們與Claude互動,我們也預期會出現新型態的潛在危害,無論是通過產生錯誤信息、令人反感的內容、仇恨言論或其他濫用。我們正在積極投資和試驗額外的安全功能,以補充我們現有的模型安全工作,並努力為廣大受眾提供有用的工具,同時盡最大努力減少危害。以開放測試版方式推出新產品讓我們能夠進行實驗、迭代並聽取您的反饋。以下是我們引入的一些安全功能:
根據我們的使用政策標記潛在有害內容的檢測模型。
對提示的安全過濾,當我們的檢測模型將內容標記為有害時,可能會阻止模型的回應。
增強的安全過濾,讓我們能夠提高檢測模型的敏感度。我們可能會暫時對反復違反我們政策的用戶應用增強的安全過濾,並在一段時間沒有或很少違規後移除這些控制。
這些功能並非萬無一失,我們可能會因誤報或漏報而犯錯。您對這些措施及我們如何向用戶解釋它們的反饋將在幫助我們改進這些安全系統方面發揮關鍵作用,我們鼓勵您通過usersafety@anthropic.com與我們聯繫,提供您可能有的任何反饋。要了解更多信息,請閱讀我們對人工智能安全的核心觀點。