К основному содержимому

Собирает ли Anthropic данные из интернета, и как владельцы сайтов могут заблокировать краулер?

Обновлено на этой неделе

В соответствии с отраслевыми стандартами, Anthropic использует различные роботы для сбора данных из публичного интернета для разработки моделей, поиска в интернете и получения веб-контента по запросу пользователей. Anthropic использует разные роботы для обеспечения прозрачности и выбора для владельцев веб-сайтов. Ниже представлена информация о трех роботах, которые использует Anthropic, и о том, как настроить предпочтения вашего сайта, чтобы разрешить доступ тем, которым вы хотите предоставить доступ к вашему контенту, и ограничить тех, которым не хотите.

Бот

Использование

Что происходит при его отключении

ClaudeBot

ClaudeBot помогает повысить полезность и безопасность наших генеративных ИИ-моделей, собирая веб-контент, который потенциально может способствовать их обучению.

Когда сайт ограничивает доступ ClaudeBot, это сигнализирует о том, что будущие материалы сайта должны быть исключены из наших наборов данных для обучения ИИ-моделей.

Claude-User

Claude-User поддерживает пользователей Claude AI. Когда люди задают вопросы Claude, он может получать доступ к веб-сайтам, используя агент Claude-User.

Claude-User позволяет владельцам сайтов контролировать, к каким сайтам можно получить доступ через эти запросы, инициированные пользователями. Отключение Claude-User на вашем сайте предотвращает получение нашей системой вашего контента в ответ на пользовательский запрос, что может снизить видимость вашего сайта для веб-поиска, направляемого пользователями.

Claude-SearchBot

Claude-SearchBot навигирует по интернету для улучшения качества результатов поиска для пользователей. Он анализирует онлайн-контент специально для повышения релевантности и точности поисковых ответов.

Отключение Claude-SearchBot на вашем сайте предотвращает индексацию нашей системой вашего контента для оптимизации поиска, что может снизить видимость и точность вашего сайта в результатах поиска пользователей.

В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки ИИ, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:

  • Наш сбор данных должен быть прозрачным. Anthropic использует описанные выше боты для доступа к веб-контенту.

  • Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальным нарушениям, продуманно подходя к скорости сканирования одних и тех же доменов и соблюдая Crawl-delay там, где это уместно.

  • Боты Anthropic соблюдают сигналы "не сканировать", следуя отраслевым стандартным директивам в robots.txt.

  • Боты Anthropic соблюдают технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сайтов, которые мы сканируем).

Для ограничения активности сканирования мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:

User-agent: ClaudeBot

Crawl-delay: 1

Чтобы заблокировать бота для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем каталоге верхнего уровня. Пожалуйста, делайте это для каждого поддомена, от которого вы хотите отказаться. Пример этого:

User-agent: ClaudeBot

Disallow: /

Отказ от сканирования ботами Anthropic требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работают боты Anthropic, могут работать неправильно или не гарантировать постоянный отказ, поскольку это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP, поскольку используем публичные IP поставщиков услуг. Это может измениться в будущем.

Вы можете узнать больше о наших практиках и обязательствах по обработке данных в нашем Центре помощи. Если у вас есть дополнительные вопросы или вы считаете, что наши боты могут работать неправильно, пожалуйста, обращайтесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы нам пишете, поскольку иначе сложно проверить сообщения.

Нашли ответ на свой вопрос?