메인 콘텐츠로 건너뛰기

Anthropic은 웹에서 데이터를 크롤링하나요? 그리고 사이트 소유자들은 어떻게 크롤러를 차단할 수 있나요?

이번 주에 업데이트함

업계 표준에 따라 Anthropic은 모델 개발을 위한 공개 웹 데이터 수집, 웹 검색, 그리고 사용자 요청에 따른 웹 콘텐츠 검색을 위해 다양한 로봇을 사용합니다. Anthropic은 웹사이트 소유자의 투명성과 선택권을 보장하기 위해 서로 다른 로봇을 사용합니다. 아래는 Anthropic이 사용하는 세 가지 로봇에 대한 정보와 원하는 로봇이 콘텐츠에 액세스할 수 있도록 허용하고 원하지 않는 로봇을 제한하기 위한 사이트 설정 방법입니다.

용도

비활성화 시 발생하는 일

ClaudeBot

ClaudeBot은 생성형 AI 모델의 훈련에 잠재적으로 기여할 수 있는 웹 콘텐츠를 수집하여 생성형 AI 모델의 유용성과 안전성을 향상시키는 데 도움을 줍니다.

사이트가 ClaudeBot 액세스를 제한하면, 해당 사이트의 향후 자료가 AI 모델 훈련 데이터셋에서 제외되어야 한다는 신호입니다.

Claude-User

Claude-User는 Claude AI 사용자를 지원합니다. 개인이 Claude에게 질문할 때, Claude-User 에이전트를 사용하여 웹사이트에 액세스할 수 있습니다.

Claude-User는 사이트 소유자가 이러한 사용자 주도 요청을 통해 액세스할 수 있는 사이트를 제어할 수 있게 해줍니다. 사이트에서 Claude-User를 비활성화하면 사용자 쿼리에 대한 응답으로 시스템이 콘텐츠를 검색하는 것을 방지하며, 이는 사용자 주도 웹 검색에서 사이트의 가시성을 감소시킬 수 있습니다.

Claude-SearchBot

Claude-SearchBot은 사용자를 위한 검색 결과 품질을 향상시키기 위해 웹을 탐색합니다. 검색 응답의 관련성과 정확성을 향상시키기 위해 온라인 콘텐츠를 구체적으로 분석합니다.

사이트에서 Claude-SearchBot을 비활성화하면 검색 최적화를 위해 시스템이 콘텐츠를 인덱싱하는 것을 방지하며, 이는 사용자 검색 결과에서 사이트의 가시성과 정확성을 감소시킬 수 있습니다.

안전하고 신뢰할 수 있는 최첨단 시스템을 구축하고 책임감 있는 AI 개발 분야를 발전시키려는 우리의 사명의 일환으로, 데이터 수집 원칙과 향후 크롤링을 거부하는 방법에 대한 지침을 공유합니다:

  • 데이터 수집은 투명해야 합니다. Anthropic은 위에서 설명한 봇들을 사용하여 웹 콘텐츠에 액세스합니다.

  • 크롤링은 침입적이거나 방해가 되어서는 안 됩니다. 동일한 도메인을 크롤링하는 속도에 대해 신중하게 고려하고 적절한 경우 Crawl-delay를 준수하여 최소한의 방해가 되도록 노력합니다.

  • Anthropic의 봇들은 robots.txt의 업계 표준 지시사항을 준수하여 "크롤링 금지" 신호를 존중합니다.

  • Anthropic의 봇들은 우회 방지 기술을 존중합니다 (예: 크롤링하는 사이트의 CAPTCHA를 우회하려고 시도하지 않습니다).

크롤링 활동을 제한하기 위해 robots.txt에 대한 비표준 Crawl-delay 확장을 지원합니다. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Crawl-delay: 1

전체 웹사이트에서 봇을 차단하려면 최상위 디렉토리의 robots.txt 파일에 다음을 추가하세요. 거부하고자 하는 모든 하위 도메인에 대해 이 작업을 수행해 주세요. 예시는 다음과 같습니다:

User-agent: ClaudeBot

Disallow: /

Anthropic 봇의 크롤링을 거부하려면 위의 방식으로 robots.txt 파일을 수정해야 합니다. Anthropic 봇이 작동하는 IP 주소를 차단하는 것과 같은 대체 방법은 올바르게 작동하지 않거나 지속적으로 거부를 보장하지 못할 수 있습니다. 이는 robots.txt 파일을 읽는 능력을 방해하기 때문입니다. 또한 현재 서비스 제공업체의 공용 IP를 사용하므로 IP 범위를 공개하지 않습니다. 이는 향후 변경될 수 있습니다.

데이터 처리 관행과 약속에 대한 자세한 내용은 도움말 센터에서 확인할 수 있습니다. 추가 질문이 있거나 봇이 오작동하고 있다고 생각되시면 claudebot@anthropic.com으로 연락해 주세요. 문의하시는 도메인이 포함된 이메일 주소로 연락해 주시기 바랍니다. 그렇지 않으면 신고를 확인하기 어렵습니다.

답변이 도움되었나요?