目的
我们相信外部测试对于构建安全的AI生态系统至关重要。随着模型能力的提升,越狱攻击的后果可能变得越来越严重。这个持续进行的项目建立在我们之前成功的漏洞赏金计划基础上,具有几个关键目标:
识别我们部署系统中具有ASL-3保护的通用越狱攻击
对我们安全防护措施的有效性进行持续评估
测试我们监控系统检测漏洞的能力
激励用户使用一个中央合法渠道来报告公开可用的越狱攻击
项目概述
我们的模型安全漏洞赏金项目通过HackerOne运行。通过这个项目,我们有兴趣发现能够绕过我们Constitutional Classifiers系统的通用越狱攻击。我们也会偶尔在整体项目内运行针对性项目,以测试我们希望在未来推出的分类器的稳健性。
通用越狱攻击是一种通用技术,能够可靠地从语言模型中引出违反政策的响应,无论输入提示是什么。与依赖于特定问题或上下文细节的狭义越狱攻击不同,通用越狱攻击在广泛的提示和场景中都有效。
这是一个持续进行的项目。一旦在HackerOne上被接受加入项目,参与者可以随时通过这个项目提交越狱攻击报告。为了帮助您的红队测试工作,我们提供免费模型别名的访问权限,该别名反映了我们最新、最先进模型上运行的模型和分类器。您对这个免费模型别名的使用必须仅限于执行授权的红队测试活动。
项目范围
这个项目主要关注发现通用的越狱攻击,即它们能够在广泛的查询中揭示有害信息,并且详细,即它们能够揭示与生物威胁相关的高度具体的有害信息。
需要强调的是,我们关注的是能够提取信息来回答一系列有害生物问题的越狱攻击,我们会与项目中被接受的参与者分享这些问题。
我们将为每个识别出的新颖通用越狱攻击支付最高35,000美元。我们只对基于我们唯一标准和判断能够揭示大量有害信息的越狱攻击感兴趣。我们使用基于内部评分标准的滑动比例来颁发赏金,该标准确定响应的详细程度和准确性。
这个项目的范围是我们Constitutional Classifiers上的越狱攻击。对于可能存在于我们信息系统上的技术漏洞,如配置错误、CSRF或跨站请求伪造、权限提升攻击、SQL注入、XSS和目录遍历攻击,请参考我们的负责任披露政策并在这里提交您的报告。
如何申请
您可以在这里申请加入我们的项目。我们会滚动审核申请。如果被接受,您将通过HackerOne收到邀请。如果您还没有HackerOne账户,请在申请项目之前创建一个,这样我们就可以直接在平台上邀请您。您必须使用您的@wearehackerone.com邮箱别名来创建Anthropic Console/API账户。
披露指南和保密义务
所有项目参与者都需要签署保密协议以保护项目机密性,这是加入的条件。您可以公开披露:
Anthropic模型安全漏洞赏金项目的存在
您作为项目选定参与者的参与情况
未经明确许可,您不得披露:
任何越狱攻击/漏洞(即使是已解决的)在项目外部,除非获得Anthropic的明确同意
测试问题集
关于分类器和安全缓解措施的详细信息
关于被测试模型的信息
其他参与者的身份
与项目相关的任何其他信息,除非如上所述明确允许
Anthropic对项目数据的使用
参与者同意,与此项目相关提交给Anthropic(包括其产品和服务)的所有数据,可能会被Anthropic无限期地使用、存储、共享和/或发布,以促进其安全研究、模型开发和相关目的,而无需对参与者承担进一步义务。