Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем ИИ. По мере запуска новых способов взаимодействия людей с Claude мы также ожидаем появления новых типов потенциального вреда, будь то через генерацию дезинформации, нежелательного контента, языка ненависти или других злоупотреблений. Мы активно инвестируем в дополнительные функции безопасности и экспериментируем с ними для дополнения наших существующих усилий по безопасности модели, и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для смягчения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, итерировать и получать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:
Модели обнаружения, которые помечают потенциально вредный контент на основе нашей Политики использования.
Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения помечают контент как вредный.
Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и снимать эти ограничения после периода отсутствия нарушений или их малого количества.
Эти функции не являются безотказными, и мы можем совершать ошибки через ложные срабатывания или ложные пропуски. Ваши отзывы об этих мерах и о том, как мы объясняем их пользователям, будут играть ключевую роль в помощи нам улучшить эти системы безопасности, и мы призываем вас обращаться к нам по адресу usersafety@anthropic.com с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.