업계 표준에 따라 Anthropic은 웹 크롤러를 통해 수집한 인터넷의 공개 데이터와 같은 다양한 데이터 소스를 모델 개발에 사용합니다. 안전하고 신뢰할 수 있는 첨단 시스템을 구축하고 책임 있는 AI 개발 분야를 발전시키는 우리의 사명의 일환으로, 우리는 데이터를 수집하는 원칙과 향후 크롤링을 거부하는 방법에 대한 지침을 공유하고 있습니다:
우리의 데이터 수집은 투명해야 합니다. User Agent Token ClaudeBot은 Anthropic의 범용 웹 크롤러를 식별합니다.
우리의 크롤링은 침입적이거나 방해가 되어서는 안 됩니다. 우리는 동일한 도메인을 크롤링하는 속도를 신중하게 고려하고 적절한 경우 Crawl-delay를 존중함으로써 최소한의 방해를 목표로 합니다.
Anthropic의 크롤러는 robots.txt의 업계 표준 지시사항을 준수하여 "크롤링 금지" 신호를 존중합니다. 여기에는 Common Crawl의 CCBot User Agent에 대한 모든 disallow도 포함됩니다.
Anthropic의 크롤러는 우회 방지 기술을 존중합니다 (예: 크롤링하는 사이트의 CAPTCHA를 우회하려 시도하지 않습니다.)
크롤링 활동을 제한하기 위해 우리는 robots.txt의 비표준 Crawl-delay 확장을 지원합니다. 예시는 다음과 같습니다:
User-agent: ClaudeBot
Crawl-delay: 1
전체 웹사이트에서 크롤러를 차단하려면 최상위 디렉토리의 robots.txt 파일에 다음을 추가하세요. 거부하고자 하는 모든 서브도메인에 대해 이 작업을 수행하세요.
User-agent: ClaudeBot
Disallow: /
ClaudeBot에 의한 크롤링을 거부하려면 위와 같은 방식으로 robots.txt 파일을 수정해야 합니다. ClaudeBot이 작동하는 IP 주소를 차단하는 등의 대체 방법은 제대로 작동하지 않거나 지속적으로 거부를 보장하지 못할 수 있습니다. 이는 robots.txt 파일을 읽는 우리의 능력을 방해하기 때문입니다. 또한 우리는 현재 서비스 제공업체의 공용 IP를 사용하기 때문에 IP 범위를 공개하지 않습니다. 이는 향후 변경될 수 있습니다.
우리의 데이터 처리 관행과 약속에 대해 더 자세히 알아보려면 도움말 센터를 방문하세요. 추가 질문이 있거나 우리의 크롤러가 오작동하고 있다고 생각되면 claudebot@anthropic.com으로 연락해 주세요. 문의하시는 도메인이 포함된 이메일로 연락해 주시기 바랍니다. 그렇지 않으면 보고를 확인하기 어렵습니다.