К основному содержимому

Инструменты защиты API

Обновлено больше недели назад

Независимо от того, только ли вы начинаете процесс настройки защитных мер для вашего API-развертывания Claude, или ваше развертывание уже работает, вот несколько стратегий, которые следует рассмотреть при создании собственной программы безопасности ИИ. Эти рекомендации призваны помочь вам соблюдать наши Условия обслуживания и Политику использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановке или прекращению вашего доступа к услугам.

Базовые защитные меры

  • Сохраняйте идентификаторы, связанные с каждым API-вызовом, чтобы при необходимости точно определить конкретный нарушающий контент, у вас была возможность найти его в ваших системах.

  • Рассмотрите возможность присвоения идентификаторов пользователям, что может помочь вам отслеживать конкретных лиц, нарушающих Политику допустимого использования Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.

    • Выбор передавать идентификаторы в Anthropic через API остается за вами. Но если они предоставлены, мы можем более точно определить нарушения. Для защиты конфиденциальности конечных пользователей любые передаваемые идентификаторы должны быть криптографически хешированы.

  • Рассмотрите возможность требования от клиентов регистрации учетной записи на вашей платформе перед использованием Claude

  • Убедитесь, что ваши клиенты понимают разрешенные способы использования

  • Предупреждайте, ограничивайте или приостанавливайте пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic

Промежуточные защитные меры

  • Создайте фреймворки настройки, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором промптов или позволяют Claude просматривать только определенный корпус знаний, который у вас уже есть, что снизит способность пользователей заниматься нарушающим поведением.

  • Включите дополнительные фильтры безопасности - бесплатные инструменты модерации в реальном времени, созданные Anthropic для помощи в обнаружении потенциально вредных промптов и управления действиями в реальном времени для снижения вреда

    • Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, обратитесь по адресу usersafety@anthropic.com.

  • Для клиентов Bedrock:

    • Активируйте ваш частный S3-бакет для хранения промптов и завершений для вашей собственной оценки

Продвинутые защитные меры

Комплексные защитные меры

  • Настройте внутреннюю систему человеческого обзора для отметки промптов, которые помечены Claude (используемым для модерации контента) или API модерации как вредные, чтобы вы могли вмешаться для ограничения или удаления пользователей с высокими показателями нарушений.

Нашли ответ на свой вопрос?