Собирает ли Anthropic данные из интернета, и как владельцы сайтов могут заблокировать этот сбор?

В соответствии с отраслевым стандартом, Anthropic использует различные источники данных для разработки моделей, такие как общедоступные данные из интернета, собранные с помощью веб-краулера. В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки искусственного интеллекта, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:

Наш сбор данных должен быть прозрачным. Токен User Agent ClaudeBot идентифицирует универсальный веб-краулер Anthropic.
Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальному нарушению, тщательно продумывая, как быстро мы сканируем одни и те же домены, и уважая Crawl-delay, где это уместно.
Краулер Anthropic уважает сигналы "не сканировать", соблюдая стандартные для отрасли директивы в robots.txt, включая любые запреты для User Agent Common Crawl's CCBot.
Краулер Anthropic уважает технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сканируемых сайтов.)

Чтобы ограничить активность сканирования, мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:

User-agent: ClaudeBot

Crawl-delay: 1

Чтобы заблокировать краулер для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем корневом каталоге. Пожалуйста, сделайте это для каждого поддомена, который вы хотите исключить.

User-agent: ClaudeBot

Disallow: /

Отказ от сканирования ClaudeBot требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работает ClaudeBot, могут работать некорректно или не гарантировать постоянный отказ, так как это мешает нам читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP, так как используем публичные IP провайдера услуг. Это может измениться в будущем.

Вы можете узнать больше о наших практиках обработки данных и обязательствах в нашем Центре поддержки. Если у вас есть дополнительные вопросы или вы считаете, что наш краулер может работать неправильно, пожалуйста, обратитесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы с нами связываетесь, так как в противном случае трудно проверить сообщения.