사용자 안전에 대한 우리의 접근 방식

사용자 안전은 신뢰할 수 있고, 해석 가능하며, 조정 가능한 AI 시스템을 만드는 Anthropic의 사명의 핵심입니다. 사람들이 Claude와 상호작용할 수 있는 새로운 방법을 출시하면서, 우리는 또한 잘못된 정보 생성, 불쾌한 콘텐츠, 혐오 발언 또는 기타 오용을 통해 새로운 유형의 잠재적 피해가 나타날 것으로 예상합니다. 우리는 기존의 모델 안전 노력을 보완하기 위한 추가적인 안전 기능에 적극적으로 투자하고 실험하고 있으며, 피해를 완화하기 위해 최선을 다하면서도 광범위한 사용자에게 유용한 도구를 제공하기 위해 노력하고 있습니다. 새로운 제품을 오픈 베타로 출시하는 것은 우리가 실험하고, 반복하며, 여러분의 피드백을 들을 수 있게 해줍니다. 다음은 우리가 도입한 몇 가지 안전 기능들입니다:

우리의 사용 정책에 기반하여 잠재적으로 유해한 콘텐츠를 표시하는 탐지 모델.
프롬프트에 대한 안전 필터로, 우리의 탐지 모델이 콘텐츠를 유해하다고 표시할 때 모델의 응답을 차단할 수 있습니다.
향상된 안전 필터로, 우리의 탐지 모델의 민감도를 높일 수 있게 해줍니다. 우리는 정책을 반복적으로 위반하는 사용자에게 일시적으로 향상된 안전 필터를 적용할 수 있으며, 위반이 없거나 적은 기간 후에 이러한 제어를 제거합니다.

이러한 기능들은 완벽하지 않으며, 우리는 거짓 양성이나 거짓 음성을 통해 실수를 할 수 있습니다. 이러한 조치들과 우리가 사용자에게 이를 설명하는 방식에 대한 여러분의 피드백은 우리가 이러한 안전 시스템을 개선하는 데 핵심적인 역할을 할 것이며, 여러분이 가지고 있는 피드백을 usersafety@anthropic.com으로 보내주시기를 권장합니다. 더 자세히 알아보려면, AI 안전에 대한 우리의 핵심 관점을 읽어보세요.