Claude API 배포를 위한 신뢰 및 안전 설정을 막 시작하셨거나 이미 배포가 진행 중이라면, 자체 AI 안전 프로그램을 구축할 때 고려해볼 만한 전략들이 있습니다.
기본 안전장치
각 API 호출과 연결된 ID를 저장하여 특정 위반 콘텐츠를 정확히 찾아낼 수 있도록 하세요.
사용자에게 ID를 할당하는 것을 고려해보세요. 이를 통해 Anthropic의 AUP를 위반하는 특정 개인을 추적할 수 있어 오용 사례에 대해 더 표적화된 조치를 취할 수 있습니다.
API를 통해 Anthropic에 ID를 전달할지 여부는 귀하의 선택입니다. 하지만 제공된다면 우리는 위반 사항을 더 정확히 파악할 수 있습니다. 최종 사용자의 개인정보를 보호하기 위해 전달되는 모든 ID는 암호화되어 해시 처리되어야 합니다.
고객이 Claude를 사용하기 전에 귀하의 플랫폼에 계정을 만들도록 요구하는 것을 고려해보세요.
고객이 허용된 사용 방식을 이해하도록 하세요.
중급 안전장치
최종 사용자의 Claude와의 상호작용을 제한된 프롬프트 세트로 제한하거나 Claude가 이미 보유하고 있는 특정 지식 코퍼스만 검토할 수 있도록 하는 맞춤형 프레임워크를 만들어 사용자의 위반 행위 가능성을 줄이세요.
추가 안전 필터를 활성화하세요 - Anthropic이 만든 무료 실시간 모더레이션 도구로, 잠재적으로 유해한 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이는 데 도움이 됩니다.
추가 안전 필터 활성화에 대한 자세한 정보는 usersafety@anthropic.com으로 문의해 주세요.
Bedrock 고객의 경우:
자체 평가를 위해 프롬프트와 완성된 내용을 저장할 수 있도록 개인 S3 버킷을 활성화하세요.
고급 안전장치
모든 최종 사용자 프롬프트가 Claude에 전송되기 전에 모더레이션 API를 실행하여 유해하지 않은지 확인하세요.
종합적인 안전장치
내부 인적 검토 시스템을 구축하여 Claude(콘텐츠 모더레이션에 사용됨) 또는 모더레이션 API에 의해 유해하다고 표시된 프롬프트를 플래그 처리하여 위반율이 높은 사용자를 제한하거나 제거할 수 있도록 하세요.