Durchsucht Anthropic Daten aus dem Internet, und wie können Website-Betreiber den Crawler blockieren?

Gemäß Industriestandard verwendet Anthropic eine Vielzahl von Robotern, um Daten aus dem öffentlichen Web für die Modellentwicklung zu sammeln, das Web zu durchsuchen und Webinhalte auf Anweisung der Benutzer abzurufen. Anthropic verwendet verschiedene Roboter, um Transparenz und Wahlmöglichkeiten für Website-Betreiber zu ermöglichen. Nachfolgend finden Sie Informationen zu den drei Robotern, die Anthropic einsetzt, und wie Sie Ihre Website-Einstellungen festlegen können, um diejenigen zuzulassen, die auf Ihre Inhalte zugreifen sollen, und diejenigen zu beschränken, die Sie nicht wünschen.

Bot	Verwendung	Was passiert, wenn Sie ihn deaktivieren
ClaudeBot	ClaudeBot hilft, den Nutzen und die Sicherheit unserer generativen KI-Modelle zu verbessern, indem er Webinhalte sammelt, die potenziell zu deren Training beitragen könnten.	Wenn eine Website den Zugriff für ClaudeBot einschränkt, signalisiert dies, dass zukünftige Materialien dieser Website von unseren KI-Modell-Trainingsdatensätzen ausgeschlossen werden sollten.
Claude-User	Claude-User unterstützt Claude KI-Benutzer. Wenn Einzelpersonen Claude Fragen stellen, kann es unter Verwendung eines Claude-User-Agenten auf Websites zugreifen.	Claude-User ermöglicht es Website-Betreibern zu kontrollieren, auf welche Websites durch diese benutzerinitiierten Anfragen zugegriffen werden kann. Die Deaktivierung von Claude-User auf Ihrer Website verhindert, dass unser System Ihre Inhalte als Antwort auf eine Benutzeranfrage abruft, was die Sichtbarkeit Ihrer Website für benutzerdefinierte Websuchen reduzieren kann.
Claude-SearchBot	Claude-SearchBot navigiert im Web, um die Qualität der Suchergebnisse für Benutzer zu verbessern. Er analysiert Online-Inhalte speziell zur Verbesserung der Relevanz und Genauigkeit von Suchantworten.	Die Deaktivierung von Claude-SearchBot auf Ihrer Website verhindert, dass unser System Ihre Inhalte für die Suchoptimierung indiziert, was die Sichtbarkeit und Genauigkeit Ihrer Website in den Suchergebnissen der Benutzer reduzieren kann.

Als Teil unserer Mission, sichere und zuverlässige Grenzsysteme zu entwickeln und das Feld der verantwortungsvollen KI-Entwicklung voranzutreiben, teilen wir die Prinzipien, nach denen wir Daten sammeln, sowie Anweisungen, wie man sich in Zukunft von unserem Crawling abmelden kann:

Unsere Datensammlung sollte transparent sein. Anthropic verwendet die oben beschriebenen Bots, um auf Webinhalte zuzugreifen.
Unser Crawling sollte nicht aufdringlich oder störend sein. Wir streben minimale Störungen an, indem wir sorgfältig darüber nachdenken, wie schnell wir dieselben Domains crawlen, und Crawl-delay respektieren, wo es angemessen ist.
Anthropics Bots respektieren "Do not crawl"-Signale, indem sie branchenübliche Anweisungen in robots.txt beachten.
Anthropics Bots respektieren Anti-Umgehungs-Technologien (z.B. werden wir nicht versuchen, CAPTCHAs für die Websites zu umgehen, die wir crawlen.)

Um Crawling-Aktivitäten zu begrenzen, unterstützen wir die nicht-standardmäßige Crawl-delay-Erweiterung für robots.txt. Ein Beispiel dafür könnte sein:

User-agent: ClaudeBot

Crawl-delay: 1

Um einen Bot von Ihrer gesamten Website zu blockieren, fügen Sie dies zur robots.txt-Datei in Ihrem obersten Verzeichnis hinzu. Bitte tun Sie dies für jede Subdomain, die Sie abmelden möchten. Ein Beispiel dafür ist:

User-agent: ClaudeBot

Disallow: /

Die Abmeldung vom Crawling durch Anthropic Bots erfordert die Änderung der robots.txt-Datei wie oben beschrieben. Alternative Methoden wie das Blockieren von IP-Adresse(n), von denen aus Anthropic Bots operieren, funktionieren möglicherweise nicht korrekt oder garantieren nicht dauerhaft eine Abmeldung, da dies unsere Fähigkeit beeinträchtigt, Ihre robots.txt-Datei zu lesen. Zusätzlich veröffentlichen wir derzeit keine IP-Bereiche, da wir öffentliche IPs von Dienstanbietern verwenden. Dies könnte sich in Zukunft ändern.

Mehr über unsere Datenverarbeitungspraktiken und Verpflichtungen erfahren Sie in unserem Help Center. Wenn Sie weitere Fragen haben oder glauben, dass unsere Bots möglicherweise nicht richtig funktionieren, wenden Sie sich bitte an claudebot@anthropic.com. Bitte melden Sie sich von einer E-Mail-Adresse aus, die die Domain enthält, über die Sie uns kontaktieren, da es sonst schwierig ist, Berichte zu verifizieren.

Verwandte Artikel

Blockieren und Entfernen von Inhalten aus Claude