목적

우리는 안전한 AI 생태계 구축을 위해 외부 테스트가 중요하다고 믿습니다. 모델 역량이 발전함에 따라 탈옥의 결과는 점점 더 중요해질 수 있습니다. 이 지속적인 프로그램은 몇 가지 핵심 목표를 가지고 성공적인 이전 버그 바운티 이니셔티브를 기반으로 합니다:

ASL-3 보호 기능이 적용된 배포된 시스템에서 범용 탈옥 식별
보안 장치의 효과에 대한 지속적인 평가 제공
취약점을 탐지하는 모니터링 시스템의 능력 테스트
공개적으로 이용 가능한 탈옥을 신고하기 위한 하나의 중앙 합법적 채널 사용 장려

프로그램 개요

우리의 모델 안전성 버그 바운티 프로그램은 HackerOne을 통해 운영됩니다. 이 프로그램을 통해 우리는 Constitutional Classifiers 시스템을 우회하는 범용 탈옥을 찾는 데 관심이 있습니다. 또한 향후 출시하고자 하는 분류기의 견고성을 테스트하기 위해 전체 프로그램 내에서 때때로 표적 프로그램을 실행합니다.

범용 탈옥은 입력 프롬프트에 관계없이 언어 모델에서 정책 위반 응답을 안정적으로 유도하는 일반화된 기법입니다. 특정 질문이나 맥락의 세부 사항에 의존하는 좁은 범위의 탈옥과 달리, 범용 탈옥은 광범위한 프롬프트와 시나리오에서 작동합니다.

이것은 지속적인 프로그램입니다. HackerOne에서 프로그램에 승인되면, 참가자는 이 프로그램을 통해 언제든지 탈옥 보고서를 제출할 수 있습니다. 레드 팀 활동을 지원하기 위해, 우리는 최신의 가장 진보된 모델에서 라이브로 작동하는 모델과 분류기를 반영하는 무료 모델 별칭에 대한 액세스를 제공합니다. 이 무료 모델 별칭의 사용은 승인된 레드 팀 활동 수행으로 제한되어야 합니다.

프로그램 범위

이 프로그램은 주로 범용적이어서 광범위한 쿼리에서 유해한 정보를 드러낼 수 있고, 상세한 것으로서 생물학적 위협과 관련된 매우 구체적인 유해한 정보를 드러내는 탈옥을 발견하는 데 관심이 있습니다.

강조하자면, 우리는 프로그램에 승인된 참가자들과 공유하는 유해한 생물학적 질문 세트에 답하는 정보를 추출하는 탈옥에 관심이 있습니다.

우리는 식별된 새로운 범용 탈옥당 최대 $35,000를 지급합니다. 우리는 우리의 단독 기준과 재량에 따라 상당한 양의 유해한 정보를 드러내는 탈옥에만 관심이 있습니다. 우리는 응답이 얼마나 상세하고 정확한지를 결정하는 내부 채점 기준에 따라 슬라이딩 스케일을 사용하여 바운티를 수여합니다.

이 프로그램은 우리의 Constitutional Classifiers에 대한 탈옥으로 범위가 제한됩니다. 잘못된 구성, CSRF 또는 사이트 간 요청 위조, 권한 상승 공격, SQL 인젝션, XSS, 디렉토리 순회 공격과 같이 우리의 정보 시스템에 잠재적으로 존재할 수 있는 기술적 취약점에 대해서는 우리의 책임감 있는 공개 정책을 참조하고 여기에 보고서를 제출해 주세요.

신청 방법

우리 프로그램 참여 신청은 여기에서 할 수 있습니다. 우리는 신청서를 순차적으로 검토합니다. 승인되면 HackerOne을 통해 초대장을 받게 됩니다. HackerOne 계정이 아직 없다면, 플랫폼에서 직접 초대할 수 있도록 프로그램 신청 전에 계정을 만들어 주세요. Anthropic Console/API 계정을 만들 때는 @wearehackerone.com 이메일 별칭을 사용해야 합니다.

공개 가이드라인 및 기밀 유지 의무

모든 프로그램 참가자는 참여 조건으로 프로그램 기밀성을 보호하기 위한 비공개 계약에 서명해야 합니다. 공개적으로 공개할 수 있는 것:

Anthropic의 모델 안전성 버그 바운티 프로그램의 존재
프로그램의 선정된 참가자로서의 귀하의 참여

명시적 허가 없이 공개할 수 없는 것:

Anthropic의 명시적 동의 없이 프로그램 외부에서 탈옥/취약점(해결된 것도 포함)
테스트 질문 세트
분류