Безопасность пользователей является основой миссии Anthropic по созданию надежных, интерпретируемых и управляемых систем ИИ. По мере того, как мы запускаем новые способы взаимодействия людей с Claude, мы также ожидаем появления новых потенциальных угроз, будь то генерация дезинформации, предосудительного контента, языка ненависти или других злоупотреблений. Мы активно инвестируем и экспериментируем с дополнительными функциями безопасности, дополняющими наши существующие усилия по обеспечению безопасности модели, и стараемся предоставить полезные инструменты широкой аудитории, одновременно делая все возможное для смягчения вреда. Запуск новых продуктов в открытом бета-режиме позволяет нам экспериментировать, итерировать и слышать вашу обратную связь. Вот некоторые функции безопасности, которые мы представили:
Модели обнаружения, которые выявляют потенциально вредный контент на основе нашей Политики допустимого использования.
Фильтры безопасности для запросов, которые могут блокировать ответы модели, когда наши модели обнаружения выявляют вредный контент.
Улучшенные фильтры безопасности, которые позволяют нам повысить чувствительность наших моделей обнаружения. Мы можем временно применить улучшенные фильтры безопасности к пользователям, которые неоднократно нарушают наши политики, и убрать эти ограничения после периода отсутствия или небольшого количества нарушений.
Эти функции не являются безотказными, и мы можем допускать ошибки из-за ложных срабатываний или пропусков. Ваша обратная связь по этим мерам и по поводу того, как мы их объясняем пользователям, сыграет ключевую роль в помощи нам улучшить эти системы безопасности. Мы призываем вас связаться с нами по адресу usersafety@anthropic.com со любыми отзывами, которые у вас могут быть. Чтобы узнать больше, прочитайте о наших основных взглядах на безопасность ИИ.