Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем искусственного интеллекта. По мере того как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых типов потенциального вреда, будь то через генерацию дезинформации, неприемлемого контента, языка вражды или других злоупотреблений. Мы активно инвестируем и экспериментируем с дополнительными функциями безопасности для дополнения наших существующих усилий по обеспечению безопасности моделей и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для снижения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, итерировать и слышать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:
Модели обнаружения, которые отмечают потенциально вредный контент на основе нашей Политики использования.
Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения отмечают контент как вредный.
Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши правила, и снимать эти ограничения после периода отсутствия или небольшого количества нарушений.
Эти функции не являются безотказными, и мы можем допускать ошибки в виде ложноположительных или ложноотрицательных результатов. Ваши отзывы об этих мерах и о том, как мы объясняем их пользователям, будут играть ключевую роль в помощи нам улучшить эти системы безопасности, и мы призываем вас обращаться к нам по адресу usersafety@anthropic.com с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.