К основному содержимому

Наш подход к безопасности пользователей

Обновлено вчера

Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем ИИ. По мере запуска новых способов взаимодействия людей с Claude мы также ожидаем появления новых типов потенциального вреда, будь то через генерацию дезинформации, нежелательного контента, языка ненависти или других злоупотреблений. Мы активно инвестируем в дополнительные функции безопасности и экспериментируем с ними для дополнения наших существующих усилий по безопасности модели, и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для смягчения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, итерировать и получать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:

  • Модели обнаружения, которые помечают потенциально вредный контент на основе нашей Политики использования.

  • Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения помечают контент как вредный.

  • Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и снимать эти ограничения после периода отсутствия нарушений или их малого количества.

Эти функции не являются безотказными, и мы можем совершать ошибки через ложные срабатывания или ложные пропуски. Ваши отзывы об этих мерах и о том, как мы объясняем их пользователям, будут играть ключевую роль в помощи нам улучшить эти системы безопасности, и мы призываем вас обращаться к нам по адресу usersafety@anthropic.com с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.

Нашли ответ на свой вопрос?