Независимо от того, только ли вы начинаете процесс настройки защитных мер для вашего API-развертывания Claude, или ваше развертывание уже работает, вот несколько стратегий, которые следует рассмотреть при создании собственной программы безопасности ИИ. Эти рекомендации призваны помочь вам соблюдать наши Условия обслуживания и Политику использования, которые запрещают определенные способы использования Claude. Несоблюдение Условий и Политики использования может привести к приостановке или прекращению вашего доступа к услугам.
Базовые защитные меры
Сохраняйте идентификаторы, связанные с каждым API-вызовом, чтобы при необходимости точно определить конкретный нарушающий контент, у вас была возможность найти его в ваших системах.
Рассмотрите возможность присвоения идентификаторов пользователям, что может помочь вам отслеживать конкретных лиц, нарушающих Политику допустимого использования Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.
Выбор передавать идентификаторы в Anthropic через API остается за вами. Но если они предоставлены, мы можем более точно определить нарушения. Для защиты конфиденциальности конечных пользователей любые передаваемые идентификаторы должны быть криптографически хешированы.
Рассмотрите возможность требования от клиентов регистрации учетной записи на вашей платформе перед использованием Claude
Убедитесь, что ваши клиенты понимают разрешенные способы использования
Предупреждайте, ограничивайте или приостанавливайте пользователей, которые неоднократно нарушают Условия обслуживания и Политику использования Anthropic
Промежуточные защитные меры
Создайте фреймворки настройки, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором промптов или позволяют Claude просматривать только определенный корпус знаний, который у вас уже есть, что снизит способность пользователей заниматься нарушающим поведением.
Включите дополнительные фильтры безопасности - бесплатные инструменты модерации в реальном времени, созданные Anthropic для помощи в обнаружении потенциально вредных промптов и управления действиями в реальном времени для снижения вреда
Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, обратитесь по адресу usersafety@anthropic.com.
Для клиентов Bedrock:
Активируйте ваш частный S3-бакет для хранения промптов и завершений для вашей собственной оценки
Продвинутые защитные меры
Запускайте API модерации для всех промптов конечных пользователей перед их отправкой в Claude, чтобы убедиться, что они не являются вредными
Комплексные защитные меры
Настройте внутреннюю систему человеческого обзора для отметки промптов, которые помечены Claude (используемым для модерации контента) или API модерации как вредные, чтобы вы могли вмешаться для ограничения или удаления пользователей с высокими показателями нарушений.