Все коллекции
Доверие и безопасность
Наш подход к безопасности пользователей
Наш подход к безопасности пользователей
Обновлено больше недели назад

Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем ИИ. По мере того, как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых потенциальных угроз, будь то генерация дезинформации, предосудительного контента, языка ненависти или других злоупотреблений. Мы активно инвестируем и экспериментируем с дополнительными функциями безопасности, дополняющими наши существующие усилия по обеспечению безопасности модели, и стараемся предоставить полезные инструменты широкой аудитории, одновременно делая все возможное для смягчения вреда. Запуск новых продуктов в открытом бета-режиме позволяет нам экспериментировать, итерировать и слышать вашу обратную связь. Вот некоторые функции безопасности, которые мы представили:

  • Модели обнаружения, которые выявляют потенциально вредный контент на основе нашей Политики допустимого использования.

  • Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения выявляют вредный контент.

  • Улучшенные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применить улучшенные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и убрать эти ограничения после периода отсутствия или небольшого количества нарушений.

Эти функции не являются безотказными, и мы можем допускать ошибки из-за ложных срабатываний или пропусков. Ваша обратная связь по этим мерам и по поводу того, как мы их объясняем пользователям, сыграет ключевую роль в помощи нам улучшить эти системы безопасности. Мы призываем вас связаться с нами по адресу usersafety@anthropic.com со любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.

Нашли ответ на свой вопрос?