К основному содержимому
Все коллекцииДоверие и безопасность
Наш подход к безопасности пользователей
Наш подход к безопасности пользователей
Обновлено более 4 мес. назад

Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем искусственного интеллекта. По мере того как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых типов потенциального вреда, будь то через генерацию дезинформации, неприемлемого контента, языка вражды или других злоупотреблений. Мы активно инвестируем и экспериментируем с дополнительными функциями безопасности для дополнения наших существующих усилий по обеспечению безопасности моделей и работаем над предоставлением полезных инструментов широкой аудитории, одновременно делая все возможное для снижения вреда. Запуск новых продуктов в открытой бета-версии позволяет нам экспериментировать, итерировать и слышать ваши отзывы. Вот некоторые из функций безопасности, которые мы внедрили:

  • Модели обнаружения, которые отмечают потенциально вредный контент на основе нашей Политики использования.

  • Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения отмечают контент как вредный.

  • Усиленные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применять усиленные фильтры безопасности к пользователям, которые неоднократно нарушают наши правила, и снимать эти ограничения после периода отсутствия или небольшого количества нарушений.

Эти функции не являются безотказными, и мы можем допускать ошибки в виде ложноположительных или ложноотрицательных результатов. Ваши отзывы об этих мерах и о том, как мы объясняем их пользователям, будут играть ключевую роль в помощи нам улучшить эти системы безопасности, и мы призываем вас обращаться к нам по адресу usersafety@anthropic.com с любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.

Нашли ответ на свой вопрос?