В соответствии с отраслевым стандартом, Anthropic использует различные источники данных для разработки моделей, такие как общедоступные данные из интернета, собранные с помощью веб-краулера. В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки искусственного интеллекта, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:
Наш сбор данных должен быть прозрачным. Токен User Agent ClaudeBot идентифицирует универсальный веб-краулер Anthropic.
Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальному нарушению, тщательно продумывая, как быстро мы сканируем одни и те же домены, и уважая Crawl-delay, где это уместно.
Краулер Anthropic уважает сигналы "не сканировать", соблюдая стандартные для отрасли директивы в robots.txt, включая любые запреты для User Agent Common Crawl's CCBot.
Краулер Anthropic уважает технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сканируемых сайтов.)
Чтобы ограничить активность сканирования, мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:
User-agent: ClaudeBot
Crawl-delay: 1
Чтобы заблокировать краулер для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем корневом каталоге. Пожалуйста, сделайте это для каждого поддомена, который вы хотите исключить.
User-agent: ClaudeBot
Disallow: /
Отказ от сканирования ClaudeBot требует изменения файла robots.txt вышеуказанным способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работает ClaudeBot, могут не работать корректно или постоянно гарантировать отказ, так как это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP-адресов, так как используем публичные IP-адреса поставщика услуг. Это может измениться в будущем.
Вы можете узнать больше о наших практиках обработки данных и обязательствах в нашем Центре поддержки. Если у вас есть дополнительные вопросы или вы считаете, что наш краулер может работать неправильно, пожалуйста, обратитесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы с нами связываетесь, так как в противном случае трудно проверить сообщения.