К основному содержимому
Собирает ли Anthropic данные из интернета, и как владельцы сайтов могут заблокировать этот сбор?
Обновлено более 4 мес. назад

В соответствии с отраслевым стандартом, Anthropic использует различные источники данных для разработки моделей, такие как общедоступные данные из интернета, собранные с помощью веб-краулера. В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки искусственного интеллекта, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:

  • Наш сбор данных должен быть прозрачным. Токен User Agent ClaudeBot идентифицирует универсальный веб-краулер Anthropic.

  • Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальному нарушению, тщательно продумывая, как быстро мы сканируем одни и те же домены, и уважая Crawl-delay, где это уместно.

  • Краулер Anthropic уважает сигналы "не сканировать", соблюдая стандартные для отрасли директивы в robots.txt, включая любые запреты для User Agent Common Crawl's CCBot.

  • Краулер Anthropic уважает технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сканируемых сайтов.)

Чтобы ограничить активность сканирования, мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:

User-agent: ClaudeBot

Crawl-delay: 1

Чтобы заблокировать краулер для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем корневом каталоге. Пожалуйста, сделайте это для каждого поддомена, который вы хотите исключить.

User-agent: ClaudeBot

Disallow: /

Отказ от сканирования ClaudeBot требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работает ClaudeBot, могут работать некорректно или не гарантировать постоянный отказ, так как это мешает нам читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP-адресов, так как используем публичные IP-адреса поставщика услуг. Это может измениться в будущем.

Вы можете узнать больше о наших практиках обработки данных и обязательствах в нашем Центре поддержки. Если у вас есть дополнительные вопросы или вы считаете, что наш краулер может работать неправильно, пожалуйста, обратитесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы с нами связываетесь, так как в противном случае трудно проверить сообщения.

Нашли ответ на свой вопрос?