메인 콘텐츠로 건너뛰기
모든 콜렉션신뢰와 안전
API 신뢰 및 안전 도구
API 신뢰 및 안전 도구
최소 4달 전에 업데이트됨

Claude API 배포를 위한 신뢰 및 안전 설정을 막 시작하셨거나 이미 배포가 진행 중이라면, 자체 AI 안전 프로그램을 구축할 때 고려해볼 만한 전략들이 있습니다.

기본 안전장치

  • 각 API 호출과 연결된 ID를 저장하여 특정 위반 콘텐츠를 정확히 찾아낼 수 있도록 하세요.

  • 사용자에게 ID를 할당하는 것을 고려해보세요. 이를 통해 Anthropic의 AUP를 위반하는 특정 개인을 추적할 수 있어 오용 사례에 대해 더 표적화된 조치를 취할 수 있습니다.

    • API를 통해 Anthropic에 ID를 전달할지 여부는 귀하의 선택입니다. 하지만 제공된다면 우리는 위반 사항을 더 정확히 파악할 수 있습니다. 최종 사용자의 개인정보를 보호하기 위해 전달되는 모든 ID는 암호화되어 해시 처리되어야 합니다.

  • 고객이 Claude를 사용하기 전에 귀하의 플랫폼에 계정을 만들도록 요구하는 것을 고려해보세요.

  • 고객이 허용된 사용 방식을 이해하도록 하세요.

중급 안전장치

  • 최종 사용자의 Claude와의 상호작용을 제한된 프롬프트 세트로 제한하거나 Claude가 이미 보유하고 있는 특정 지식 코퍼스만 검토할 수 있도록 하는 맞춤형 프레임워크를 만들어 사용자의 위반 행위 가능성을 줄이세요.

  • 추가 안전 필터를 활성화하세요 - Anthropic이 만든 무료 실시간 모더레이션 도구로, 잠재적으로 유해한 프롬프트를 감지하고 실시간 조치를 관리하여 피해를 줄이는 데 도움이 됩니다.

  • Bedrock 고객의 경우:

    • 자체 평가를 위해 프롬프트와 완성된 내용을 저장할 수 있도록 개인 S3 버킷을 활성화하세요.

고급 안전장치

종합적인 안전장치

  • 내부 인적 검토 시스템을 구축하여 Claude(콘텐츠 모더레이션에 사용됨) 또는 모더레이션 API에 의해 유해하다고 표시된 프롬프트를 플래그 처리하여 위반율이 높은 사용자를 제한하거나 제거할 수 있도록 하세요.

답변이 도움되었나요?