Anthropic

Gemäß Branchenstandard verwendet Anthropic eine Vielzahl von Datenquellen für die Modellentwicklung, wie z.B. öffentlich verfügbare Daten aus dem Internet, die über einen Webcrawler gesammelt werden. Als Teil unserer Mission, sichere und zuverlässige Spitzensysteme zu entwickeln und das Feld der verantwortungsvollen KI-Entwicklung voranzutreiben, teilen wir die Prinzipien, nach denen wir Daten sammeln, sowie Anweisungen, wie man sich in Zukunft von unserem Crawling abmelden kann:

Unsere Datensammlung sollte transparent sein. Der User Agent Token ClaudeBot identifiziert Anthropics allgemeinen Webcrawler.

Unser Crawling sollte nicht aufdringlich oder störend sein. Wir streben minimale Störungen an, indem wir sorgfältig darüber nachdenken, wie schnell wir dieselben Domains crawlen, und Crawl-delay respektieren, wo es angemessen ist.

Anthropics Crawler respektiert "Do not crawl"-Signale, indem er branchenübliche Anweisungen in robots.txt beachtet, einschließlich aller Disallows für den <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">Common Crawl's CCBot</a> User Agent.

Anthropics Crawler respektiert Anti-Umgehungstechnologien (z.B. werden wir nicht versuchen, CAPTCHAs für die von uns gecrawlten Seiten zu umgehen.)

- Unsere Datensammlung sollte transparent sein. Der User Agent Token ClaudeBot identifiziert Anthropics allgemeinen Webcrawler.
- Unser Crawling sollte nicht aufdringlich oder störend sein. Wir streben minimale Störungen an, indem wir sorgfältig darüber nachdenken, wie schnell wir dieselben Domains crawlen, und Crawl-delay respektieren, wo es angemessen ist.
- Anthropics Crawler respektiert "Do not crawl"-Signale, indem er branchenübliche Anweisungen in robots.txt beachtet, einschließlich aller Disallows für den <a href="https://commoncrawl.org/ccbot" rel="nofollow noopener noreferrer" target="_blank">Common Crawl's CCBot</a> User Agent.
- Anthropics Crawler respektiert Anti-Umgehungstechnologien (z.B. werden wir nicht versuchen, CAPTCHAs für die von uns gecrawlten Seiten zu umgehen.)

Um die Crawling-Aktivität zu begrenzen, unterstützen wir die nicht-standardmäßige Crawl-delay-Erweiterung für robots.txt. Ein Beispiel dafür könnte sein:

Um den Crawler von Ihrer gesamten Website zu blockieren, fügen Sie dies zur robots.txt-Datei in Ihrem obersten Verzeichnis hinzu. Bitte tun Sie dies für jede Subdomain, die Sie abmelden möchten.

Um sich vom Crawling durch ClaudeBot abzumelden, ist eine Änderung der robots.txt-Datei wie oben beschrieben erforderlich. Alternative Methoden wie das Blockieren von IP-Adresse(n), von denen aus ClaudeBot operiert, funktionieren möglicherweise nicht korrekt oder garantieren nicht dauerhaft eine Abmeldung, da dies unsere Fähigkeit beeinträchtigt, Ihre robots.txt-Datei zu lesen. Darüber hinaus veröffentlichen wir derzeit keine IP-Bereiche, da wir öffentliche IPs von Dienstanbietern verwenden. Dies könnte sich in Zukunft ändern.

Mehr über unsere Datenverarbeitungspraktiken und Verpflichtungen erfahren Sie in unserem <a href="https://support.anthropic.com/en/collections/4078534-privacy-legal">Help Center</a>. Wenn Sie weitere Fragen haben oder glauben, dass unser Crawler möglicherweise nicht richtig funktioniert, wenden Sie sich bitte an <a href="mailto:claudebot@anthropic.com" rel="nofollow noopener noreferrer" target="_blank">claudebot@anthropic.com</a>. Bitte melden Sie sich von einer E-Mail-Adresse aus, die die Domain enthält, über die Sie uns kontaktieren, da es sonst schwierig ist, Berichte zu verifizieren.

Durchsucht Anthropic Daten aus dem Internet, und wie können Website-Betreiber den Crawler blockieren?

Terms of Service - Consumer

Product

Research

Terms of Service - Commercial

Privacy Policy

Company

Usage Policy

News

Responsible Disclosure Policy

Careers

Compliance

Finden Sie Antworten und erhalten Sie Hilfe vom Intercom-Support und von Community-Experten