메인 콘텐츠로 건너뛰기
모든 콜렉션개인 정보 보호 및 법률
Anthropic은 웹에서 데이터를 크롤링하나요? 그리고 사이트 소유자가 크롤러를 차단하려면 어떻게 해야 하나요?

Anthropic은 웹에서 데이터를 크롤링하나요? 그리고 사이트 소유자가 크롤러를 차단하려면 어떻게 해야 하나요?

최소 2주 전에 업데이트됨

업계 표준에 따라 Anthropic은 모델 개발을 위해 공개 웹에서 데이터를 수집하고, 웹을 검색하며, 사용자의 지시에 따라 웹 콘텐츠를 검색하는 다양한 로봇을 사용합니다. Anthropic은 웹사이트 소유자의 투명성과 선택을 가능하게 하기 위해 다른 로봇들을 사용합니다. 아래는 Anthropic이 사용하는 세 가지 로봇에 대한 정보와 귀하의 콘텐츠에 접근을 허용하거나 제한하고 싶은 로봇에 대해 사이트 환경 설정을 하는 방법입니다.

용도

비활성화 시 결과

ClaudeBot

ClaudeBot은 잠재적으로 학습에 기여할 수 있는 웹 콘텐츠를 수집하여 생성형 AI 모델의 유용성과 안전성을 향상시키는 데 도움을 줍니다.

사이트가 ClaudeBot 접근을 제한하면, 해당 사이트의 향후 자료를 AI 모델 학습 데이터셋에서 제외해야 한다는 신호를 보내는 것입니다.

Claude-User

Claude-User는 Claude AI 사용자를 지원합니다. 개인이 Claude에게 질문할 때, Claude-User 에이전트를 사용하여 웹사이트에 접근할 수 있습니다.

Claude-User를 통해 사이트 소유자는 이러한 사용자 주도 요청을 통해 접근할 수 있는 사이트를 제어할 수 있습니다. 귀하의 사이트에서 Claude-User를 비활성화하면 사용자 쿼리에 대한 응답으로 귀하의 콘텐츠를 검색하는 것을 방지하여, 사용자 주도 웹 검색에서 귀하의 사이트 가시성이 감소할 수 있습니다.

Claude-SearchBot

Claude-SearchBot은 사용자를 위한 검색 결과 품질을 향상시키기 위해 웹을 탐색합니다. 검색 응답의 관련성과 정확성을 향상시키기 위해 온라인 콘텐츠를 특별히 분석합니다.

귀하의 사이트에서 Claude-SearchBot을 비활성화하면 검색 최적화를 위해 귀하의 콘텐츠를 인덱싱하는 것을 방지하여, 사용자 검색 결과에서 귀하의 사이트 가시성과 정확성이 감소할 수 있습니다.

안전하고 신뢰할 수 있는 첨단 시스템을 구축하고 책임 있는 AI 개발 분야를 발전시키는 우리의 사명의 일환으로, 우리는 데이터를 수집하는 원칙과 향후 크롤링을 거부하는 방법에 대한 지침을 공유하고 있습니다:

  • 우리의 데이터 수집은 투명해야 합니다. Anthropic은 위에서 설명한 봇을 사용하여 웹 콘텐츠에 접근합니다.

  • 우리의 크롤링은 침입적이거나 파괴적이지 않아야 합니다. 우리는 동일한 도메인을 크롤링하는 속도를 신중하게 고려하고 적절한 경우 Crawl-delay를 존중함으로써 최소한의 방해를 목표로 합니다.

  • Anthropic의 봇은 robots.txt의 업계 표준 지시사항을 준수함으로써 "크롤링 금지" 신호를 존중합니다.

  • Anthropic의 봇은 우회 방지 기술을 존중합니다 (예: 크롤링하는 사이트의 CAPTCHA를 우회하려 시도하지 않습니다.)

크롤링 활동을 제한하기 위해, 우리는 robots.txt의 비표준 Crawl-delay 확장을 지원합니다. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Crawl-delay: 1

전체 웹사이트에서 봇을 차단하려면 최상위 디렉토리의 robots.txt 파일에 다음을 추가하세요. 거부하고 싶은 모든 서브도메인에 대해 이를 수행하세요. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Disallow: /

Anthropic 봇에 의한 크롤링을 거부하려면 위와 같은 방식으로 robots.txt 파일을 수정해야 합니다. Anthropic 봇이 운영되는 IP 주소를 차단하는 등의 대체 방법은 제대로 작동하지 않거나 지속적으로 거부를 보장하지 못할 수 있습니다. 이는 robots.txt 파일을 읽는 우리의 능력을 방해하기 때문입니다. 또한, 우리는 현재 서비스 제공업체의 공개 IP를 사용하기 때문에 IP 범위를 공개하지 않습니다. 이는 향후 변경될 수 있습니다.

우리의 데이터 처리 관행과 약속에 대해 더 자세히 알아보시려면 도움말 센터를 방문하세요. 추가 질문이 있거나 우리의 봇이 오작동하고 있다고 생각되면 claudebot@anthropic.com으로 연락 주시기 바랍니다. 문의하시는 도메인이 포함된 이메일로 연락해 주시기 바랍니다. 그렇지 않으면 보고를 확인하기 어렵습니다.

답변이 도움되었나요?