모든 콜렉션
신뢰와 안전
사용자 안전에 대한 우리의 접근 방식
사용자 안전에 대한 우리의 접근 방식
1주 전에 업데이트함

사용자 안전은 Anthropic의 신뢰할 수 있고, 해석 가능하며, 조종 가능한 AI 시스템을 만들겠다는 사명의 핵심입니다. Claude와 상호작용하는 새로운 방법을 시작하면서, 오정보 생성, 문제가 되는 콘텐츠, 혐오 발언 또는 기타 오용을 통해 잠재적인 해악이 나타날 것으로 예상됩니다. 우리는 기존 모델 안전 노력을 보완하기 위해 추가 안전 기능에 적극 투자하고 실험하고 있으며, 유용한 도구를 광범위한 대상에게 제공하면서도 해를 끼치는 것을 최대한 완화하려고 노력하고 있습니다. 오픈 베타로 새 제품을 출시하면 실험, 반복 및 피드백을 들을 수 있습니다. 우리가 도입한 일부 안전 기능은 다음과 같습니다.

  • 잠재적으로 유해한 콘텐츠를 허용 가능한 사용 정책에 따라 플래그하는 검출 모델.

  • 프롬프트에 대한 안전 필터로, 검출 모델이 콘텐츠를 유해하다고 플래그할 경우 모델의 응답을 차단할 수 있습니다.

  • 강화된 안전 필터로, 검출 모델의 민감도를 높일 수 있습니다. 우리는 정책을 반복적으로 위반한 사용자에게 일시적으로 강화된 안전 필터를 적용하고, 위반이 없거나 적은 기간 동안 제어를 제거할 수 있습니다.

이러한 기능은 완벽하지 않으며, 거짓 긍정 또는 거짓 부정을 통해 실수할 수 있습니다. 이러한 조치에 대한 피드백과 사용자에게 설명하는 방법은 이러한 안전 시스템을 개선하는 데 핵심적인 역할을 하므로 usersafety@anthropic.com으로 피드백을 보내주시기 바랍니다. 자세히 알아보려면 AI 안전에 대한 핵심 견해를 읽어보세요.

답변이 도움되었나요?