目的
我們相信外部測試對於建立安全的AI生態系統至關重要。隨著模型能力的進步,越獄攻擊的後果可能變得越來越嚴重。這個持續進行的計劃建立在我們之前成功的漏洞賞金計劃基礎上,具有幾個關鍵目標:
識別我們部署系統中具有ASL-3保護的通用越獄攻擊
持續評估我們安全防護措施的有效性
測試我們監控系統檢測漏洞的能力
激勵使用一個中央合法管道來報告公開可用的越獄攻擊
計劃概述
我們的模型安全漏洞賞金計劃通過HackerOne運行。通過這個計劃,我們有興趣找到能夠繞過我們憲法分類器系統的通用越獄攻擊。我們也偶爾在整體計劃內運行針對性計劃,以測試我們希望在未來推出的分類器的穩健性。
通用越獄攻擊是一種通用技術,能夠可靠地從語言模型中引出違反政策的回應,無論輸入提示為何。與依賴特定問題或上下文細節的狹義越獄攻擊不同,通用越獄攻擊在廣泛的提示和場景中都能發揮作用。
這是一個持續進行的計劃。一旦在HackerOne上被接受加入計劃,參與者可以隨時通過此計劃提交越獄攻擊報告。為了幫助您的紅隊測試工作,我們提供免費模型別名的訪問權限,該別名反映了我們最新、最先進模型上運行的模型和分類器。您對此免費模型別名的使用必須僅限於執行授權的紅隊測試活動。
計劃範圍
此計劃主要關注發現通用的越獄攻擊,即能夠在廣泛查詢範圍內揭露有害信息,以及詳細的越獄攻擊,即能夠揭露與生物威脅相關的高度具體有害信息。
需要強調的是,我們有興趣的是能夠提取信息來回答一組有害生物問題的越獄攻擊,我們會與計劃中被接受的參與者分享這些問題。
我們將為每個識別出的新穎通用越獄攻擊支付最高35,000美元。我們只對根據我們的唯一標準和判斷能夠揭露大量有害信息的越獄攻擊感興趣。我們使用基於內部評分標準的滑動比例來頒發賞金,該標準決定回應的詳細程度和準確性。
此計劃的範圍限於我們憲法分類器上的越獄攻擊。對於可能存在於我們信息系統上的技術漏洞,如配置錯誤、CSRF或跨站請求偽造、權限提升攻擊、SQL注入、XSS和目錄遍歷攻擊,請參考我們的負責任披露政策並在此處提交您的報告。
如何申請
您可以在此處申請加入我們的計劃。我們會滾動審核申請。如果被接受,您將通過HackerOne收到邀請。如果您還沒有HackerOne帳戶,請在申請計劃之前創建一個,以便我們可以直接在平台上邀請您。您必須使用您的@wearehackerone.com電子郵件別名來創建Anthropic控制台/API帳戶。
披露指導原則和保密義務
所有計劃參與者都需要簽署保密協議以保護計劃機密性,這是加入的條件。您可以公開披露:
Anthropic模型安全漏洞賞金計劃的存在
您作為計劃選定參與者的參與情況
未經明確許可,您不得披露:
任何越獄攻擊/漏洞(即使是已解決的)在計劃外未經Anthropic明確同意
測試問題集
關於分類器和安全緩解措施的詳細信息
關於被測試模型的信息
其他參與者的身份
與計劃相關的任何其他信息,除非如上所述明確允許
Anthropic對計劃數據的使用
參與者同意,所有與此計劃相關提交給Anthropic(包括其產品和服務)的數據,可能會被Anthropic無限期地使用、存儲、分享和/或發布,以促進其安全研究、模型開發和相關目的,而無需對參與者承擔進一步義務。