Eine große Anzahl von Nachrichten-Websites blockierte die Zeitmaschine zum Speichern von Schnappschüssen, weil diese von der KI erfasst wurden, um das Model

Nach Angaben von WIRED haben viele Websites in den USA damit begonnen, die Snapshot-Funktion der Wayback Machine des Internet Archive zu blockieren, d. h. die Wayback Machine darf die Seiten dieser Nachrichten-Websites nicht mehr erfassen und archivieren. Der Grund dafür ist, dass KI-Crawler Daten erfassen und diese zum Trainieren von Modellen verwenden.

Der aktuelle Boom der künstlichen Intelligenz hat dazu geführt, dass ein großer Teil des Website-Verkehrs erheblich zurückgegangen ist, und KI-Unternehmen finden Möglichkeiten, Beschränkungen zu umgehen, Website-Inhalte illegal zu crawlen und die erfassten Daten letztendlich für KI-Konversationsroboter oder zum Training nachfolgender Modelle der künstlichen Intelligenz zu verwenden.

Bei Websites beinhaltet dieses Verhalten das Crawlen und Verwenden von Inhalten ohne Erlaubnis und führt zu einem Rückgang des Website-Verkehrs. Daher haben viele Websites Suchcrawlern mit künstlicher Intelligenz ausdrücklich verboten, Website-Daten in robots.txt zu crawlen.

Sowohl das Internetarchiv als auch seine Benutzer wurden versehentlich getötet:

Um ihre legitimen Rechte und Interessen zu schützen, haben viele bekannte Nachrichtenmedien, darunter USA Today, die New York Times usw., die Zeitmaschine der Website des Internet Archive blockiert. Diese Nachrichten-Websites schließen den Crawler ia_archiverbot aus, der vom Internet Archive verwendet wird.

Neben Nachrichtenmedien verbieten auch Online-Foren wie Reddit dem Internet Archive das Crawlen von Inhalten. Reddit hat Lizenzvereinbarungen mit Google und OpenAI unterzeichnet, um diesen Unternehmen das Crawlen von Daten und deren Nutzung zum Trainieren von Modellen der künstlichen Intelligenz zu ermöglichen. Zumindest für Reddit ist es möglicherweise nicht möglich, weiterhin Daten zu verkaufen, wenn das Internet Archive Daten crawlen darf und KI-Unternehmen dann die Daten des Internet Archive crawlen.

Das Problem ist, dass viele Inhalte nicht dauerhaft existieren. Die Bedeutung der Website-Zeitmaschine besteht darin, dass Sie Änderungen im Webseiteninhalt anzeigen und den Inhalt anhand von Schnappschüssen weiter durchsuchen können, wenn die Webseite gelöscht wird. Dies ist für viele Benutzer sehr wichtig.

Daher ist es im Rahmen des KI-Wahnsinns tatsächlich ein Totschlag des Internetarchivs und seiner Benutzer, wenn die Nachrichtenmedien das Internetarchiv daran hindern, Daten zu crawlen: um KI-Unternehmen zu blockieren und dann Benutzer zu blockieren, die normalerweise verwandte Funktionen nutzen.

USA Today sagte, dies sei nicht an das Internet Archive gerichtet:

Ein Sprecher von USA Today sagte, dass das Blockieren von Inhalten, die vom Internet Archive gecrawlt werden, nicht speziell auf das Internet Archive abzielt. Es ist der übliche Plan des Unternehmens, alle Webcrawler weitgehend zu blockieren.

Der Direktor für kommerzielle Angelegenheiten und Lizenzen des Guardian sagte, das Unternehmen kommuniziere mit dem Internet Archive, um den möglichen Missbrauch von Unternehmen für künstliche Intelligenz beim Crawlen von Inhalten zu Aufbewahrungszwecken zu besprechen (es gibt jedoch noch kein klares Ergebnis).

Aus dieser Situation zu urteilen, könnten in Zukunft immer mehr Medien das Internetarchiv blockieren, um zu verhindern, dass ihre Inhalte von KI-Unternehmen durch das Internetarchiv gecrawlt werden. Letztlich liegt die Ursache immer noch bei diesen KI-Unternehmen.

Es ist nicht ungewöhnlich, dass diese KI-Unternehmen Inhalte ohne Genehmigung und mit hoher Häufigkeit crawlen. Letztendlich kann dies die Landschaft des offenen Internets verändern und es mehr Websites ermöglichen, vom öffentlichen Zugang zum registrierten Login-Zugang oder sogar zum kostenpflichtigen Zugang überzugehen.