В соответствии с отраслевыми стандартами, Anthropic использует различные роботы для сбора данных из публичного интернета для разработки моделей, поиска в интернете и получения веб-контента по запросу пользователей. Anthropic использует разные роботы для обеспечения прозрачности и выбора для владельцев веб-сайтов. Ниже представлена информация о трех роботах, которые использует Anthropic, и о том, как настроить предпочтения вашего сайта, чтобы разрешить доступ тем, которым вы хотите предоставить доступ к вашему контенту, и ограничить тех, которым не хотите.
Бот
|
Использование
|
Что происходит при его отключении
|
ClaudeBot
|
ClaudeBot помогает повысить полезность и безопасность наших генеративных ИИ-моделей, собирая веб-контент, который потенциально может способствовать их обучению.
|
Когда сайт ограничивает доступ ClaudeBot, это сигнализирует о том, что будущие материалы сайта должны быть исключены из наших наборов данных для обучения ИИ-моделей.
|
Claude-User
|
Claude-User поддерживает пользователей Claude AI. Когда люди задают вопросы Claude, он может получать доступ к веб-сайтам, используя агент Claude-User.
|
Claude-User позволяет владельцам сайтов контролировать, к каким сайтам можно получить доступ через эти запросы, инициированные пользователями. Отключение Claude-User на вашем сайте предотвращает получение нашей системой вашего контента в ответ на пользовательский запрос, что может снизить видимость вашего сайта для веб-поиска, направляемого пользователями.
|
Claude-SearchBot
|
Claude-SearchBot навигирует по интернету для улучшения качества результатов поиска для пользователей. Он анализирует онлайн-контент специально для повышения релевантности и точности поисковых ответов.
|
Отключение Claude-SearchBot на вашем сайте предотвращает индексацию нашей системой вашего контента для оптимизации поиска, что может снизить видимость и точность вашего сайта в результатах поиска пользователей.
|
В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки ИИ, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:
Наш сбор данных должен быть прозрачным. Anthropic использует описанные выше боты для доступа к веб-контенту.
Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальным нарушениям, продуманно подходя к скорости сканирования одних и тех же доменов и соблюдая Crawl-delay там, где это уместно.
Боты Anthropic соблюдают сигналы "не сканировать", следуя отраслевым стандартным директивам в robots.txt.
Боты Anthropic соблюдают технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сайтов, которые мы сканируем).
Для ограничения активности сканирования мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:
User-agent: ClaudeBot
Crawl-delay: 1
Чтобы заблокировать бота для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем каталоге верхнего уровня. Пожалуйста, делайте это для каждого поддомена, от которого вы хотите отказаться. Пример этого:
User-agent: ClaudeBot
Disallow: /
Отказ от сканирования ботами Anthropic требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работают боты Anthropic, могут работать неправильно или не гарантировать постоянный отказ, поскольку это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP, поскольку используем публичные IP поставщиков услуг. Это может измениться в будущем.
Вы можете узнать больше о наших практиках и обязательствах по обработке данных в нашем Центре помощи. Если у вас есть дополнительные вопросы или вы считаете, что наши боты могут работать неправильно, пожалуйста, обращайтесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы нам пишете, поскольку иначе сложно проверить сообщения.