Инструменты защиты API

Независимо от того, только ли вы начинаете процесс настройки защитных мер для вашего API-развертывания Claude, или ваше развертывание уже работает, вот несколько стратегий, которые следует рассмотреть при создании собственной программы безопасности ИИ. Эти рекомендации разработаны, чтобы помочь вам соблюдать наши Условия обслуживания и Политику использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановке или прекращению вашего доступа к услугам.

Базовые защитные меры

Сохраняйте идентификаторы, связанные с каждым API-вызовом, чтобы при необходимости точно определить конкретный нарушающий контент, у вас была возможность найти его в ваших системах.
Рассмотрите возможность присвоения идентификаторов пользователям, что может помочь вам отслеживать конкретных лиц, нарушающих Политику допустимого использования Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.
- Выбор передавать идентификаторы в Anthropic через API остается за вами. Но если они предоставлены, мы можем более точно определить нарушения. Для защиты конфиденциальности конечных пользователей любые передаваемые идентификаторы должны быть криптографически хешированы.
Рассмотрите возможность требования от клиентов регистрации учетной записи на вашей платформе перед использованием Claude
Убедитесь, что ваши клиенты понимают разрешенные способы использования
Предупреждайте, ограничивайте или приостанавливайте пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic

Промежуточные защитные меры

Создайте фреймворки настройки, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором запросов или позволяют Claude просматривать только определенный корпус знаний, который у вас уже есть, что снизит способность пользователей участвовать в нарушающем поведении.
Включите дополнительные фильтры безопасности - бесплатные инструменты модерации в реальном времени, созданные Anthropic для помощи в обнаружении потенциально вредных запросов и управления действиями в реальном времени для снижения вреда
- Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, обратитесь по адресу usersafety@anthropic.com.
Для клиентов Bedrock:
- Активируйте ваш частный S3-бакет для хранения запросов и ответов для вашей собственной оценки

Продвинутые защитные меры

Используйте Claude для модерации контента
Запускайте API модерации против всех запросов конечных пользователей перед их отправкой в Claude, чтобы убедиться, что они не являются вредными

Комплексные защитные меры

Настройте внутреннюю систему человеческого обзора для отметки запросов, которые помечены Claude (используемым для модерации контента) или API модерации как вредные, чтобы вы могли вмешаться для ограничения или удаления пользователей с высокими показателями нарушений.

Другие статьи по теме

Наш подход к безопасности пользователей

Почему я получаю ошибку "Вывод заблокирован политикой фильтрации контента"?

Выступает ли Anthropic в качестве обработчика данных или контролера данных?

Ответственное использование моделей Anthropic: Руководящие принципы для организаций, обслуживающих несовершеннолетних

Почему я получаю ошибку "Вывод заблокирован политикой фильтрации контента"?