Инструменты доверия и безопасности API

Независимо от того, только ли вы начинаете процесс настройки Trust & Safety для вашего API-развертывания Claude, или ваше развертывание уже работает, вот некоторые стратегии, которые стоит рассмотреть при создании собственной программы безопасности ИИ. Эти предложения разработаны, чтобы помочь вам соблюдать наши Условия обслуживания и Политику использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановке или прекращению вашего доступа к услугам.

Базовые меры безопасности

Храните идентификаторы, связанные с каждым вызовом API, чтобы при необходимости вы могли точно определить конкретный нарушающий контент в ваших системах.
Рассмотрите возможность назначения идентификаторов пользователям, что может помочь вам отслеживать конкретных лиц, нарушающих Политику допустимого использования Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.
- Решение передавать идентификаторы Anthropic через API остается за вами. Но если они предоставлены, мы можем более точно определить нарушения. Чтобы помочь защитить конфиденциальность конечных пользователей, любые передаваемые идентификаторы должны быть криптографически хешированы.
Рассмотрите возможность требования к клиентам регистрировать учетную запись на вашей платформе перед использованием Claude
Убедитесь, что ваши клиенты понимают разрешенные способы использования
Предупреждайте, ограничивайте или приостанавливайте доступ пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic

Промежуточные меры безопасности

Создайте структуры настройки, которые ограничивают взаимодействие конечных пользователей с Claude определенным набором запросов или позволяют Claude просматривать только конкретный корпус знаний, который у вас уже есть, что уменьшит возможность пользователей участвовать в нарушающем поведении.
Включите дополнительные фильтры безопасности - бесплатные инструменты модерации в реальном времени, созданные Anthropic для помощи в обнаружении потенциально вредных запросов и управления действиями в реальном времени для снижения вреда
- Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, обратитесь по адресу usersafety@anthropic.com.
Для клиентов Bedrock:
- Активируйте свой частный бакет S3 для хранения запросов и ответов для собственной оценки

Продвинутые меры безопасности

Используйте Claude для модерации контента
Запустите API модерации для всех запросов конечных пользователей, прежде чем они будут отправлены Claude, чтобы убедиться, что они не являются вредными

Комплексные меры безопасности

Настройте внутреннюю систему человеческого обзора для отметки запросов, которые помечены Claude (используемым для модерации контента) или API модерации как вредные, чтобы вы могли вмешаться для ограничения или удаления пользователей с высоким уровнем нарушений.

Другие статьи по теме

Наш подход к безопасности пользователей

Предупреждения и апелляции по вопросам доверия и безопасности

Почему я получаю ошибку "Вывод заблокирован политикой фильтрации контента"?

Ответственное использование моделей Anthropic: Рекомендации для организаций, обслуживающих несовершеннолетних

Почему я получаю ошибку "Вывод заблокирован политикой фильтрации контента"?