Claude ist eine Anwendung für künstliche Intelligenz, die vom Entwickler für künstliche Intelligenz Anthropic entwickelt wurde. Wie die meisten Entwickler künstlicher Intelligenz rufen die von Anthropic gesendeten Crawler täglich riesige Mengen an Inhalten im Internet ab und crawlen sie, um Modelle künstlicher Intelligenz zu trainieren. iFixit ist eine bekannte Demontage- und Reparatur-Website in der Branche. Die Website enthält viele Demontageartikel mit Text und Bildern, sodass der von Anthropic gesendete Crawler auch einen verrückten Crawl auf iFixit gestartet hat.

Der Webmaster beschwerte sich auf X/Twitter: Ich weiß, dass Sie hungrig nach Daten sind und Claude wirklich schlau ist, aber müssen Sie unsere Server wirklich eine Million Mal in 24 Stunden erreichen? Sie stehlen nicht nur unsere Inhalte, ohne dafür zu bezahlen, sondern nehmen uns auch unsere DevOps-Ressourcen weg, was einfach nicht cool ist.

Website-Protokolle zeigen, dass ClaudeBot jede Minute Tausende von Besuchen bei iFixit initiiert, was sich negativ auf den iFixit-Server auswirkt, da diese Art des Crawlens nicht nur Server-CPU-Ressourcen, sondern auch Netzwerkbandbreite verbraucht. Keine Website möchte diese Situation sehen.

iFixit sagte in einem Interview mit 404media:

Wir verfügen über die größte Wartungsinformationsdatenbank der Welt, und wenn sie alle Informationen ohne Erlaubnis stehlen würden, würde das zum Absturz unserer Server führen. iFixit verfügt derzeit über Millionen von Links zu verschiedenen Reparaturanleitungen, Reparaturrevisionshistorien, Blogs, Nachrichtenbeiträgen, Recherchen, Foren, von der Community bereitgestellten Reparaturanleitungen, Fragen und Antworten und mehr.

Das Support-Team von Anthropic entschuldigte sich nicht für die Beschwerde und gab folgende Antwort:

Gemäß Industriestandards nutzt Anthropic eine Vielzahl von Datenquellen für die Modellentwicklung, beispielsweise öffentlich verfügbare Daten im Internet, die über Webcrawler gesammelt werden. Unser Crawling sollte nicht aufdringlich oder destruktiv sein und unser Ziel ist es, Störungen zu minimieren, indem wir gegebenenfalls die Crawling-Latenz respektieren.

Der einfachste Weg für eine Website besteht darin, den Claude-Crawler direkt zu blockieren. Bluedot.com ist auch DDoS-Angriffen des Claude-Crawlers ausgesetzt. Der Crawler crawlt tausende Male pro Minute, was Auswirkungen auf den Bluedot.com-Server hat. Deshalb haben wir den Claude-Crawler frühzeitig blockiert.

Wenn Sie es blockieren möchten, können Sie der robots.txt folgenden Inhalt hinzufügen:

User-agent: ClaudeBotDisallow: /

Um auf der sicheren Seite zu sein, verwenden wir natürlich auch reguläre Ausdrücke auf Nginx, um den ClaudeBot-Crawler anzupassen. Wenn der ClaudeBot-Crawler das robots.txt-Protokoll nicht einhält und weiter crawlt, kann er direkt abgefangen werden.

Um zu verhindern, dass der Crawler die robots.txt-Datei nicht crawlen kann, wird empfohlen, dass der Webmaster zuerst die robots.txt-Datei aktualisiert. Wenn Sie im Website-Protokoll nach einigen Tagen immer noch Aufzeichnungen darüber sehen, dass ClaudeBot nicht-robots.txt-Dateien abgreift, bedeutet dies, dass das Protokoll nicht befolgt wurde. Sie können HTTP 444 direkt über Nginx zurückgeben, um die Verbindung zu verwerfen und die Serverlast zu reduzieren.