Claude API 배포를 위한 신뢰 및 안전 설정을 막 시작하셨거나 이미 배포가 진행 중이라면, 자체 AI 안전 프로그램을 구축할 때 고려해볼 만한 전략들이 있습니다. 이러한 제안은 Claude의 특정 사용을 금지하는 서비스 약관과 사용 정책을 준수하는 데 도움이 되도록 설계되었습니다. 약관과 사용 정책을 준수하지 않으면 서비스 접근이 일시 중지되거나 종료될 수 있습니다.
기본 안전장치
각 API 호출과 연결된 ID를 저장하여 특정 위반 콘텐츠를 정확히 찾아낼 수 있도록 하세요.
사용자에게 ID를 할당하는 것을 고려해보세요. 이는 Anthropic의 AUP를 위반하는 특정 개인을 추적하는 데 도움이 되어 오용 사례에 대해 더 표적화된 조치를 취할 수 있게 합니다.
API를 통해 Anthropic에 ID를 전달할지 여부는 귀하의 선택입니다. 하지만 제공된다면 우리는 위반 사항을 더 정확히 파악할 수 있습니다. 최종 사용자의 개인정보를 보호하기 위해 전달되는 모든 ID는 암호화되어 해시 처리되어야 합니다.
고객이 Claude를 사용하기 전에 귀하의 플랫폼에서 계정을 만들도록 요구하는 것을 고려해보세요.
고객이 허용된 사용 방식을 이해하도록 하세요.
중급 안전장치
최종 사용자의 Claude와의 상호작용을 제한된 프롬프트 세트로 제한하거나 Claude가 이미 보유하고 있는 특정 지식 코퍼스만 검토할 수 있도록 하는 맞춤 설정 프레임워크를 만들어 사용자의 위반 행위 가능성을 줄이세요.
추가 안전 필터를 활성화하세요 - 잠재적으로 유해한 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이는 데 도움이 되는 Anthropic에서 제작한 무료 실시간 모더레이션 도구입니다.
추가 안전 필터 활성화 방법에 대한 자세한 정보는 usersafety@anthropic.com으로 문의해 주세요.
Bedrock 고객의 경우:
자체 평가를 위해 프롬프트와 완성된 내용을 저장할 수 있도록 개인 S3 버킷을 활성화하세요.
고급 안전장치
모든 최종 사용자 프롬프트가 Claude에 전송되기 전에 모더레이션 API를 실행하여 유해하지 않은지 확인하세요.
종합적인 안전장치
내부 인적 검토 시스템을 설정하여 Claude(콘텐츠 모더레이션에 사용됨) 또는 모더레이션 API에 의해 유해하다고 표시된 프롬프트에 플래그를 지정하여 위반율이 높은 사용자를 제한하거나 제거할 수 있도록 개입할 수 있게 하세요.