Bei der Lektüre von mehr als 10.000 Bänden zeigen Gerichtsdokumente, dass Anthropic Millionen physischer Bücher zerstört hat, um AI

Generative KI steht seit langem wegen ihrer bekannten Zuverlässigkeitsprobleme, ihres enormen Energieverbrauchs und der unbefugten Nutzung von urheberrechtlich geschütztem Material in der Kritik. Nun hat ein kürzlich durchgeführtes Gerichtsverfahren ergeben, dass das Trainieren dieser KI-Modelle auch die Massenvernichtung physischer Bücher mit sich bringt.

In einem aktuellen Urteil gegen Anthropic verbirgt sich ein überraschendes Detail: Das KI-generierende Unternehmen zerstörte Millionen physischer Bücher, schnitt die Bindungen ab und entsorgte die Überreste, um seine Assistenten für künstliche Intelligenz zu schulen. Es ist erwähnenswert, dass diese Zerstörung als Faktor für die endgültige Entscheidung des Gerichts zugunsten von Anthropic angesehen wurde.

Um sein Sprachmodell und den ChatGPT-Konkurrenten Claude aufzubauen, trainierte Anthropic mit so vielen Büchern wie möglich. Das Unternehmen kaufte Millionen physischer Bücher und digitalisierte sie, indem es die Seiten herausriss und scannte und sie dabei dauerhaft zerstörte.

Darüber hinaus hat Anthropic keine Pläne, die endgültige digitale Version öffentlich zu veröffentlichen. Dieses Detail trug dazu bei, den Richter davon zu überzeugen, dass das Digitalisieren und Scrapen der Bücher eine ausreichende Umwandlung darstellte, um als faire Nutzung zu gelten. Während Claude möglicherweise digitalisierte Bibliotheken verwendet, um einzigartige Inhalte zu generieren, weisen Kritiker darauf hin, dass große Sprachmodelle Inhalte manchmal wörtlich auf der Grundlage ihrer Trainingsdaten reproduzieren können.

Der teilweise Rechtssieg von Anthropic ermöglicht es dem Unternehmen, KI-Modelle mithilfe urheberrechtlich geschützter Bücher zu trainieren, ohne den ursprünglichen Herausgeber oder Autor zu benachrichtigen, wodurch möglicherweise eines der größten Hindernisse beseitigt wird, mit denen die generative KI-Branche konfrontiert ist. Ein ehemaliger Metal-Manager gab kürzlich zu, dass KI über Nacht sterben würde, wenn sie zur Einhaltung von Urheberrechtsgesetzen verpflichtet wäre, wahrscheinlich weil Entwickler den Zugriff auf die riesigen Datenmengen verlieren würden, die zum Trainieren großer Sprachmodelle erforderlich sind.

Allerdings stellen anhaltende Urheberrechtsstreitigkeiten immer noch eine erhebliche Bedrohung für die Technologie dar. Anfang dieses Monats gab der CEO von Getty Images zu, dass das Unternehmen es sich nicht leisten kann, alle Urheberrechtsverletzungen im Zusammenhang mit KI zu bekämpfen. Unterdessen könnte Disneys Klage gegen Midjourney – in der das Unternehmen die Fähigkeit des Bildgenerators zum Kopieren urheberrechtlich geschützter Inhalte demonstrierte – erhebliche Auswirkungen auf das breitere generative KI-Ökosystem haben.

Allerdings entschied der Richter im Anthropic-Fall gegen das Unternehmen, weil es sich zum Teil auf eine Bibliothek mit Raubkopien stützte, um Cloud auszubilden. Anthropic steht im Dezember immer noch vor einem Urheberrechtsprozess, bei dem das Unternehmen für jedes Raubkopienwerk möglicherweise bis zu 150.000 US-Dollar zahlen muss.