모든 콜렉션
신뢰와 안전
API 신뢰 및 안전 도구
API 신뢰 및 안전 도구
1주 전에 업데이트함

API 배포를 통해 Claude의 Trust & Safety를 설정하기 시작한 단계에 있든, 이미 배포가 진행 중이든, 여기 AI 안전 프로그램 구축을 위해 고려할 수 있는 몇 가지 전략이 있습니다.

기본적인 보호 장치

  • 각 API 호출과 연결된 ID를 저장하여 필요한 경우 시스템 내에서 문제의 콘텐츠를 찾을 수 있도록 합니다.

  • 사용자에게 ID를 할당하는 것을 고려하세요. 이를 통해 Anthropic의 사용자 동의 정책을 위반하는 개인을 더 명확하게 추적할 수 있고, 오용 사례에서 더 세부적인 조치를 취할 수 있습니다.

    • API를 통해 Anthropic에 ID를 전달할지 여부는 사용자의 선택입니다. 하지만 제공된다면, 위반을 더 정확하게 지정할 수 있습니다. 최종 사용자의 개인 정보를 보호하기 위해 전달되는 모든 ID는 암호화 해시되어야 합니다.

  • Claude를 사용하기 전에 플랫폼에 계정을 생성하도록 요구하는 것을 고려하세요.

  • 고객이 허용된 용도를 이해하도록 보장합니다.

중급 보호 장치

  • 최종 사용자와 Claude의 상호 작용을 제한된 프롬프트 집합으로 제한하거나 Claude가 이미 보유한 특정 지식 코퍼스만 검토하도록 허용하는 사용자 지정 프레임워크를 만듭니다. 이를 통해 사용자가 해로운 행동에 참여할 가능성이 줄어듭니다.

  • 추가 안전 필터를 사용 설정합니다. 잠재적으로 유해한 프롬프트를 감지하고 실시간으로 해를 줄이기 위한 조치를 관리하는 데 도움이 되는 Anthropic에서 제작한 무료 실시간 콘텐츠 관리 도구입니다.

    • 추가 안전 필터를 사용 설정하는 방법에 대한 자세한 내용은 usersafety@anthropic.com으로 문의하세요.

  • Bedrock 고객의 경우:

    • 프라이빗 S3 버킷을 활성화하여 프롬프트와 완성도를 자체 평가를 위해 저장합니다.

고급 보호 장치

  • 최종 사용자의 모든 프롬프트를 Claude에 보내기 전에 해로운 콘텐츠가 아닌지 확인하기 위해 콘텐츠 관리 API를 실행합니다.

포괄적인 보호 장치

  • Claude(콘텐츠 관리에 사용) 또는 콘텐츠 관리 API에서 해로운 것으로 표시된 프롬프트를 플래그하는 내부 인간 검토 시스템을 설정하여 높은 위반 비율을 보이는 사용자를 제한하거나 제거할 수 있습니다.

답변이 도움되었나요?