Независимо от того, только ли вы начинаете процесс настройки Trust & Safety для вашего API-развертывания Claude, или ваше развертывание уже работает, вот некоторые стратегии, которые стоит рассмотреть при создании вашей собственной программы безопасности ИИ.
Базовые меры безопасности
Храните идентификаторы, связанные с каждым вызовом API, чтобы при необходимости вы могли точно определить конкретный нарушающий контент в ваших системах.
Рассмотрите возможность назначения идентификаторов пользователям, что поможет вам отслеживать конкретных лиц, нарушающих Условия использования Anthropic, позволяя принимать более целенаправленные меры в случаях неправомерного использования.
Решение передавать идентификаторы Anthropic через API остается за вами. Но если они предоставлены, мы можем более точно определить нарушения. Чтобы помочь защитить конфиденциальность конечных пользователей, любые передаваемые идентификаторы должны быть криптографически хешированы.
Рассмотрите возможность требования регистрации учетной записи на вашей платформе перед использованием Claude
Убедитесь, что ваши клиенты понимают разрешенные способы использования
Промежуточные меры безопасности
Создайте рамки настройки, которые ограничивают взаимодействие конечных пользователей с Claude ограниченным набором запросов или позволяют Claude просматривать только определенный корпус знаний, который у вас уже есть, что уменьшит возможность пользователей участвовать в нарушающем поведении.
Включите дополнительные фильтры безопасности - бесплатные инструменты модерации в реальном времени, созданные Anthropic для помощи в обнаружении потенциально вредных запросов и управления действиями в реальном времени для снижения вреда
Для получения дополнительной информации о том, как включить наши дополнительные фильтры безопасности, пожалуйста, обратитесь по адресу usersafety@anthropic.com.
Для клиентов Bedrock:
Активируйте ваш частный бакет S3 для хранения запросов и ответов для вашей собственной оценки
Продвинутые меры безопасности
Запустите API модерации для всех запросов конечных пользователей, прежде чем они будут отправлены Claude, чтобы убедиться, что они не являются вредными
Комплексные меры безопасности
Настройте внутреннюю систему человеческого обзора для отметки запросов, которые помечены Claude (используемым для модерации контента) или API модерации как вредные, чтобы вы могли вмешаться для ограничения или удаления пользователей с высоким уровнем нарушений.