API 배포를 통해 Claude의 Trust & Safety를 설정하기 시작한 단계에 있든, 이미 배포가 진행 중이든, 여기 AI 안전 프로그램 구축을 위해 고려할 수 있는 몇 가지 전략이 있습니다.
기본적인 보호 장치
각 API 호출과 연결된 ID를 저장하여 필요한 경우 시스템 내에서 문제의 콘텐츠를 찾을 수 있도록 합니다.
사용자에게 ID를 할당하는 것을 고려하세요. 이를 통해 Anthropic의 사용자 동의 정책을 위반하는 개인을 더 명확하게 추적할 수 있고, 오용 사례에서 더 세부적인 조치를 취할 수 있습니다.
API를 통해 Anthropic에 ID를 전달할지 여부는 사용자의 선택입니다. 하지만 제공된다면, 위반을 더 정확하게 지정할 수 있습니다. 최종 사용자의 개인 정보를 보호하기 위해 전달되는 모든 ID는 암호화 해시되어야 합니다.
Claude를 사용하기 전에 플랫폼에 계정을 생성하도록 요구하는 것을 고려하세요.
고객이 허용된 용도를 이해하도록 보장합니다.
중급 보호 장치
최종 사용자와 Claude의 상호 작용을 제한된 프롬프트 집합으로 제한하거나 Claude가 이미 보유한 특정 지식 코퍼스만 검토하도록 허용하는 사용자 지정 프레임워크를 만듭니다. 이를 통해 사용자가 해로운 행동에 참여할 가능성이 줄어듭니다.
추가 안전 필터를 사용 설정합니다. 잠재적으로 유해한 프롬프트를 감지하고 실시간으로 해를 줄이기 위한 조치를 관리하는 데 도움이 되는 Anthropic에서 제작한 무료 실시간 콘텐츠 관리 도구입니다.
추가 안전 필터를 사용 설정하는 방법에 대한 자세한 내용은 usersafety@anthropic.com으로 문의하세요.
Bedrock 고객의 경우:
프라이빗 S3 버킷을 활성화하여 프롬프트와 완성도를 자체 평가를 위해 저장합니다.
고급 보호 장치
최종 사용자의 모든 프롬프트를 Claude에 보내기 전에 해로운 콘텐츠가 아닌지 확인하기 위해 콘텐츠 관리 API를 실행합니다.
포괄적인 보호 장치
Claude(콘텐츠 관리에 사용) 또는 콘텐츠 관리 API에서 해로운 것으로 표시된 프롬프트를 플래그하는 내부 인간 검토 시스템을 설정하여 높은 위반 비율을 보이는 사용자를 제한하거나 제거할 수 있습니다.