К основному содержимому

Собирает ли Anthropic данные из интернета, и как владельцы сайтов могут заблокировать этот сбор?

Обновлено более 3 нед. назад

В соответствии с отраслевым стандартом, Anthropic использует различных роботов для сбора данных из общедоступного интернета для разработки моделей, поиска в интернете и извлечения веб-контента по указанию пользователей. Anthropic использует разных роботов, чтобы обеспечить прозрачность и выбор для владельцев веб-сайтов. Ниже приведена информация о трех роботах, которые использует Anthropic, и о том, как настроить предпочтения вашего сайта, чтобы разрешить доступ тем, кому вы хотите предоставить доступ к вашему контенту, и ограничить тех, кому не хотите.

Бот

Использование

Что происходит при его отключении

ClaudeBot

ClaudeBot помогает повысить полезность и безопасность наших генеративных моделей ИИ, собирая веб-контент, который потенциально может способствовать их обучению.

Когда сайт ограничивает доступ ClaudeBot, это сигнализирует о том, что будущие материалы сайта должны быть исключены из наборов данных для обучения наших моделей ИИ.

Claude-User

Claude-User поддерживает пользователей ИИ Claude. Когда люди задают вопросы Claude, он может получать доступ к веб-сайтам, используя агент Claude-User.

Claude-User позволяет владельцам сайтов контролировать, к каким сайтам можно получить доступ через эти запросы, инициированные пользователем. Отключение Claude-User на вашем сайте предотвращает получение нашей системой вашего контента в ответ на запрос пользователя, что может снизить видимость вашего сайта при поиске в интернете, направляемом пользователем.

Claude-SearchBot

Claude-SearchBot перемещается по интернету для улучшения качества результатов поиска для пользователей. Он анализирует онлайн-контент специально для повышения релевантности и точности поисковых ответов.

Отключение Claude-SearchBot на вашем сайте предотвращает индексирование вашего контента нашей системой для оптимизации поиска, что может снизить видимость и точность вашего сайта в результатах поиска пользователей.

В рамках нашей миссии по созданию безопасных и надежных передовых систем и продвижению области ответственной разработки ИИ, мы делимся принципами, по которым мы собираем данные, а также инструкциями о том, как отказаться от нашего сканирования в будущем:

  • Наш сбор данных должен быть прозрачным. Anthropic использует описанные выше боты для доступа к веб-контенту.

  • Наше сканирование не должно быть навязчивым или разрушительным. Мы стремимся к минимальному нарушению, тщательно продумывая, как быстро мы сканируем одни и те же домены, и уважая Crawl-delay, где это уместно.

  • Боты Anthropic уважают сигналы "не сканировать", соблюдая стандартные для отрасли директивы в robots.txt.

  • Боты Anthropic уважают технологии защиты от обхода (например, мы не будем пытаться обойти CAPTCHA для сканируемых сайтов.)

Чтобы ограничить активность сканирования, мы поддерживаем нестандартное расширение Crawl-delay для robots.txt. Пример этого может быть:

User-agent: ClaudeBot

Crawl-delay: 1

Чтобы заблокировать бота для всего вашего веб-сайта, добавьте это в файл robots.txt в вашем корневом каталоге. Пожалуйста, сделайте это для каждого поддомена, который вы хотите исключить. Пример этого:

User-agent: ClaudeBot

Disallow: /

Отказ от сканирования ботами Anthropic требует изменения файла robots.txt описанным выше способом. Альтернативные методы, такие как блокировка IP-адреса(ов), с которых работают боты Anthropic, могут работать некорректно или не гарантировать постоянный отказ, так как это препятствует нашей способности читать ваш файл robots.txt. Кроме того, мы в настоящее время не публикуем диапазоны IP-адресов, так как используем публичные IP-адреса поставщика услуг. Это может измениться в будущем.

Вы можете узнать больше о наших практиках обработки данных и обязательствах в нашем Центре поддержки. Если у вас есть дополнительные вопросы или вы считаете, что наши боты могут работать неправильно, пожалуйста, обратитесь по адресу claudebot@anthropic.com. Пожалуйста, обращайтесь с электронной почты, которая включает домен, по поводу которого вы с нами связываетесь, так как в противном случае трудно проверить сообщения.

Нашли ответ на свой вопрос?