Zum Hauptinhalt springen
Alle KollektionenDatenschutz & Rechtliches
Durchsucht Anthropic Daten aus dem Internet, und wie können Website-Betreiber den Crawler blockieren?
Durchsucht Anthropic Daten aus dem Internet, und wie können Website-Betreiber den Crawler blockieren?
Gestern aktualisiert

Gemäß Industriestandard verwendet Anthropic eine Vielzahl von Datenquellen für die Modellentwicklung, wie z.B. öffentlich verfügbare Daten aus dem Internet, die über einen Webcrawler gesammelt werden. Als Teil unserer Mission, sichere und zuverlässige Grenzsysteme zu entwickeln und das Feld der verantwortungsvollen KI-Entwicklung voranzutreiben, teilen wir die Prinzipien, nach denen wir Daten sammeln, sowie Anweisungen, wie man sich in Zukunft von unserem Crawling abmelden kann:

  • Unsere Datensammlung sollte transparent sein. Der User Agent Token ClaudeBot identifiziert Anthropics allgemeinen Webcrawler.

  • Unser Crawling sollte nicht aufdringlich oder störend sein. Wir zielen auf minimale Störungen ab, indem wir sorgfältig darüber nachdenken, wie schnell wir dieselben Domains crawlen, und Crawl-delay respektieren, wo es angemessen ist.

  • Anthropics Crawler respektiert "nicht crawlen" Signale, indem er branchenübliche Anweisungen in robots.txt beachtet, einschließlich aller Verbote für den Common Crawl's CCBot User Agent.

  • Anthropics Crawler respektiert Anti-Umgehungstechnologien (z.B. werden wir nicht versuchen, CAPTCHAs für die von uns gecrawlten Seiten zu umgehen.)

Um die Crawling-Aktivität zu begrenzen, unterstützen wir die nicht-standardmäßige Crawl-delay Erweiterung für robots.txt. Ein Beispiel dafür könnte sein:

User-agent: ClaudeBot

Crawl-delay: 1

Um den Crawler von Ihrer gesamten Website zu blockieren, fügen Sie dies zur robots.txt-Datei in Ihrem obersten Verzeichnis hinzu. Bitte tun Sie dies für jede Subdomain, die Sie abmelden möchten.

User-agent: ClaudeBot

Disallow: /

Um sich vom Crawling durch ClaudeBot abzumelden, muss die robots.txt-Datei wie oben beschrieben geändert werden. Alternative Methoden wie das Blockieren von IP-Adresse(n), von denen aus ClaudeBot operiert, funktionieren möglicherweise nicht korrekt oder garantieren nicht dauerhaft eine Abmeldung, da dies unsere Fähigkeit beeinträchtigt, Ihre robots.txt-Datei zu lesen. Darüber hinaus veröffentlichen wir derzeit keine IP-Bereiche, da wir öffentliche IPs von Dienstanbietern verwenden. Dies könnte sich in Zukunft ändern.

Mehr über unsere Datenverarbeitungspraktiken und Verpflichtungen erfahren Sie in unserem Help Center. Wenn Sie weitere Fragen haben oder glauben, dass unser Crawler möglicherweise nicht richtig funktioniert, wenden Sie sich bitte an claudebot@anthropic.com. Bitte melden Sie sich von einer E-Mail-Adresse aus, die die Domain enthält, über die Sie uns kontaktieren, da es sonst schwierig ist, Berichte zu verifizieren.

Hat dies deine Frage beantwortet?