Blog Books Factory

KI trainiert mit Raubkopien. Protest der Buchbranche

Meta, der von Mark Zuckerberg gegründete Tech-Gigant, hat sein neuestes KI-Modell, LLaMA, mit einem riesigen Datensatz trainiert – unter anderem mit Büchern aus der berüchtigten Piraterieplattform Library Genesis (LibGen).

LibGen ist eine illegale Datenbank, die Millionen von Publikationen umfasst – von Klassikern der Weltliteratur über akademische Werke bis hin zu aktuellen Bestsellern. Für Meta stellte diese Sammlung eine wahre Goldgrube dar – allerdings ohne Einwilligung von Autor*innen oder Verlagen.

Zuckerberg: alles im Rahmen des Gesetzes?

Interne Meta-Dokumente zeigen, dass Mark Zuckerberg persönlich die Nutzung von LibGen-Daten zur KI-Schulung genehmigte. Seine Begründung: Diese Nutzung falle unter das US-amerikanische Prinzip des „Fair Use“, das bestimmte Arten der Verwendung urheberrechtlich geschützter Werke für Forschung oder Entwicklung erlaubt.

Diese Interpretation ist höchst umstritten – insbesondere angesichts der kommerziellen Interessen und der enormen Datenmengen, die verarbeitet wurden.

Rechtmäßige Quellen? Zu teuer!

Aus den internen Papieren geht ebenfalls hervor, dass Meta durchaus den Erwerb von Lizenzen bei Verlagen erwogen hatte – die angebotenen Konditionen wurden intern jedoch als „unvernünftig teuer“ abgelehnt.

Die Entscheidung, auf Raubkopien zurückzugreifen, war also eine bewusste Geschäftsentscheidung – und keine Notwendigkeit.

Wurde Ihr Buch zum Training benutzt? Das können Sie prüfen

Obwohl Meta keine vollständige Liste der verwendeten Buchtitel veröffentlicht hat, bietet das Magazin The Atlantic eine durchsuchbare Datenbank an, die auf Piraterie-Archiven wie LibGen basiert.

Die Datenbank umfasst rund 190.000 Titel. Autor*innen können dort prüfen, ob ihre Werke beim Training von KI-Systemen wie LLaMA, GPT-3 oder Claude verwendet wurden.

Rechtliche Schritte in Deutschland

In den USA laufen bereits mehrere Klagen gegen die unerlaubte Nutzung von Büchern zur KI-Entwicklung. Auch in Deutschland wächst der Widerstand.

Der Börsenverein des Deutschen Buchhandels, die Initiative Urheberrecht sowie der Verband deutscher Schriftstellerinnen und Schriftsteller (VS in ver.di) fordern klare Regeln: vollständige Transparenz bei den Trainingsdaten, das Recht auf Widerspruch und angemessene Vergütung

Zudem haben deutsche Autor*innen wie Juli Zeh und Volker Kutscher öffentlich gefordert, die Rechte von Kreativen im Zeitalter der KI stärker zu schützen. Erste juristische Prüfungen auf nationaler und EU-Ebene laufen bereits.

Zeit für neue Regeln?

Die unautorisierte Nutzung kreativer Werke für KI-Training wird immer häufiger. Ohne klare gesetzliche Regelungen droht die Gefahr, dass Bücher künftig als kostenlose Rohstoffe behandelt werden und das Urheberrecht seine Wirksamkeit verliert. Viele fordern deshalb:

  • vollständige Offenlegung der Trainingsdaten,
  • einfache Opt-out-Möglichkeiten für Urheber*innen
  • Eine faire, gesetzlich garantierte Vergütung für jede Nutzung.

Ohne solche Regelungen könnte der Wert kreativer Arbeit langfristig untergraben werden.

Quellen:

  1. The Atlantic