메인 콘텐츠로 건너뛰기
모든 콜렉션신뢰와 안전
사용자 안전에 대한 우리의 접근 방식
사용자 안전에 대한 우리의 접근 방식
최소 2주 전에 업데이트됨

사용자 안전은 신뢰할 수 있고, 해석 가능하며, 조종 가능한 AI 시스템을 만들고자 하는 Anthropic의 사명의 핵심입니다. 우리가 Claude와 상호작용할 수 있는 새로운 방법들을 출시함에 따라, 잘못된 정보의 생성, 부적절한 콘텐츠, 혐오 발언 또는 기타 오용을 통해 새로운 유형의 잠재적 해악이 나타날 것으로 예상합니다. 우리는 기존의 모델 안전 노력을 보완하기 위한 추가 안전 기능에 적극적으로 투자하고 실험하고 있으며, 해악을 완화하기 위해 최선을 다하면서도 광범위한 사용자에게 유용한 도구를 제공하기 위해 노력하고 있습니다. 새로운 제품을 오픈 베타로 출시함으로써 우리는 실험하고, 반복하며, 여러분의 피드백을 들을 수 있습니다. 다음은 우리가 도입한 몇 가지 안전 기능입니다:

  • 우리의 사용 정책에 기반하여 잠재적으로 해로운 콘텐츠를 표시하는 탐지 모델.

  • 프롬프트에 대한 안전 필터로, 우리의 탐지 모델이 콘텐츠를 해로운 것으로 표시할 때 모델의 응답을 차단할 수 있습니다.

  • 강화된 안전 필터로, 우리의 탐지 모델의 민감도를 높일 수 있습니다. 우리는 정책을 반복적으로 위반하는 사용자에게 일시적으로 강화된 안전 필터를 적용할 수 있으며, 위반이 없거나 적은 기간 후에 이러한 제어를 제거할 수 있습니다.

이러한 기능들은 완벽하지 않으며, 우리는 거짓 양성 또는 거짓 음성을 통해 실수를 할 수 있습니다. 이러한 조치들과 우리가 사용자들에게 이를 설명하는 방식에 대한 여러분의 피드백은 이러한 안전 시스템을 개선하는 데 핵심적인 역할을 할 것이며, 우리는 여러분이 가질 수 있는 모든 피드백을 usersafety@anthropic.com으로 보내주시기를 권장합니다. 더 자세히 알아보려면, AI 안전에 대한 우리의 핵심 견해를 읽어보세요.

답변이 도움되었나요?