Цель
Мы считаем, что внешнее тестирование имеет решающее значение для создания безопасной экосистемы ИИ. По мере развития возможностей моделей последствия взломов могут становиться все более значительными. Эта текущая Программа основывается на наших успешных предыдущих инициативах по поиску уязвимостей и имеет несколько ключевых целей:
Выявить универсальные взломы в наших развернутых системах с защитой ASL-3
Обеспечить непрерывную оценку эффективности наших мер защиты
Протестировать способность наших систем мониторинга обнаруживать уязвимости
Стимулировать использование одного центрального легитимного канала для сообщения о публично доступных взломах
Обзор Программы
Наша Программа поиска уязвимостей в области безопасности моделей проводится через HackerOne. В рамках этой Программы мы заинтересованы в поиске универсальных взломов, которые превосходят нашу систему Constitutional Classifiers. Мы также периодически проводим целевые программы в рамках нашей общей Программы для тестирования надежности классификаторов, которые мы надеемся запустить в будущем.
Универсальный взлом - это обобщенная техника, которая надежно вызывает ответы, нарушающие политику, от языковой модели, независимо от входного запроса. В отличие от узких взломов, которые зависят от специфики конкретного вопроса или контекста, универсальные взломы работают в широком диапазоне запросов и сценариев.
Это текущая Программа. После принятия в Программу на HackerOne участники могут подавать отчеты о взломах в любое время через эту Программу. Чтобы помочь с вашими усилиями по красному тестированию, мы предоставляем доступ к бесплатному псевдониму модели, который отражает модель и классификаторы, работающие на нашей последней, самой продвинутой модели. Ваше использование этого бесплатного псевдонима модели должно ограничиваться выполнением авторизованных действий по красному тестированию.
Область действия Программы
Эта Программа в первую очередь заинтересована в обнаружении взломов, которые являются универсальными, в том смысле, что они могут раскрывать вредную информацию по широкому кругу запросов, и подробными, в том смысле, что они раскрывают высокоспецифичную вредную информацию, связанную с биологическими угрозами.
Подчеркиваем, что мы заинтересованы во взломах, которые извлекают информацию, отвечающую на набор вредных биологических вопросов, которые мы делимся с принятыми участниками Программы.
Мы будем платить до $35,000 за каждый новый, универсальный взлом, который будет выявлен. Нас интересуют только взломы, которые раскрывают существенные объемы вредной информации на основе наших единственных критериев и усмотрения. Мы присуждаем вознаграждения, используя скользящую шкалу, основанную на внутренней рубрике оценки, которая определяет, насколько подробными и точными являются ответы.
Эта программа ограничена взломами наших Constitutional Classifiers. Для технических уязвимостей, которые потенциально существуют в наших информационных системах, таких как неправильные конфигурации, CSRF или подделки межсайтовых запросов, атаки повышения привилегий, SQL-инъекции, XSS и атаки обхода каталогов, пожалуйста, обратитесь к нашей Политике ответственного раскрытия информации и отправьте свой отчет здесь.
Как подать заявку
Вы можете подать заявку на участие в нашей Программе здесь. Мы рассматриваем заявки на постоянной основе. В случае принятия вы получите приглашение через HackerOne. Если у вас еще нет учетной записи HackerOne, пожалуйста, создайте ее перед подачей заявки на участие в Программе, чтобы мы могли пригласить вас напрямую на платформе. Вы должны использовать свой псевдоним электронной почты @wearehackerone.com для создания учетной записи Anthropic Console/API.
Руководящие принципы раскрытия информации и обязательства по конфиденциальности
Все участники Программы обязаны подписать соглашение о неразглашении для защиты конфиденциальности Программы в качестве условия для присоединения. Вы можете публично раскрывать:
Существование Программы поиска уязвимостей в области безопасности моделей Anthropic
Ваше участие в качестве выбранного участника Программы
Вы не можете раскрывать без явного разрешения:
Любые взломы/уязвимости (даже решенные) вне Программы без явного согласия от Anthropic
Набор тестовых вопросов
Подробности о классификаторах и мерах безопасности
Информацию о тестируемых моделях
Личность других участников
Любую другую информацию, связанную с Программой, за исключением случаев, прямо разрешенных выше
Использование данных из Программы компанией Anthropic
Участник соглашается с тем, что все данные, представленные в Anthropic, включая ее продукты