
Meta, gigant technologiczny Marka Zuckerberga, trenowała swój najnowszy model sztucznej inteligencji LLaMA na ogromnych zbiorach książek pochodzących z pirackiego serwisu Library Genesis (LibGen).
LibGen to nielegalne repozytorium zawierające miliony publikacji – od klasyki literatury, przez tytuły naukowe, po współczesne bestsellery. Dla Mety te zasoby okazały się idealnym źródłem danych, ale wszystko odbyło się bez akceptacji autorów i wydawców.
Zuckerberg: to zgodne z prawem
Z ujawnionych wewnętrznych dokumentów Mety wynika, że to sam Mark Zuckerberg zatwierdził wykorzystanie treści z LibGen jako danych treningowych. Jego zdaniem, taki sposób pozyskiwania mieści się w granicach amerykańskiego prawa. Konkretnie w tzw. dozwolonym użytku (ang. fair use), który pozwala m.in. na analizę tekstów w celach badawczych lub rozwojowych.
To interpretacja kontrowersyjna i prawnie wątpliwa — szczególnie że chodzi o komercyjne zastosowanie i skalę obejmującą setki tysięcy utworów.
Legalne źródła? Za drogo!
Z dokumentów wynika też, że Meta rozważała zakup licencji na publikacje, jednak pracownicy firmy określili warunki oferowane przez wydawców jako „nieracjonalnie drogie”. W rezultacie zdecydowano się na wykorzystanie materiałów z LibGen – choć miały nielegalne pochodzenie.
Nie brak alternatywy był problemem, lecz zwykła kalkulacja zysków.
Czy Twoja książka trafiła do AI? Sprawdź w The Atlantic
Choć Meta nie ujawnia pełnej listy tytułów użytych w procesie trenowania AI, wielu badaczy i autorów sięga po bazę przygotowaną przez The Atlantic – niezależny zbiór danych stworzony na podstawie pirackich źródeł, takich jak LibGen.
Znajduje się w niej ok. 190 tys. tytułów. Umożliwia sprawdzenie, czy konkretną książkę wykorzystano do rozbudowy modeli językowych — również przez inne firmy rozwijające sztuczną inteligencję.
Procesy w toku. Europa się budzi – Polska śpi
W USA już toczy się kilka procesów sądowych dotyczących nielegalnego wykorzystania książek do trenowania AI. Pozwy wytoczyli m.in. Sarah Silverman, Paul Tremblay czy Michael Chabon. Sprawy dotyczą zarówno naruszenia praw autorskich, jak i braku transparentności ze strony OpenAI i Mety.
Z kolei we Francji trwają przygotowania do podobnych pozwów zbiorowych. Ich celem będzie obrona interesów autorów i wydawców przed nieuprawnionym wykorzystaniem ich pracy przez big techy.
A Polska? Jak dotąd brak reakcji ze strony instytucji publicznych czy ustawodawców. Ani Ministerstwo Kultury i Dziedzictwa Narodowego, ani organizacje zarządzające prawami autorskimi nie zajęły stanowiska w tej sprawie, choć w bazie od The Atlantic można odnaleźć także utwory polskich pisarzy i pisarek – m.in. Olgi Tokarczuk i Szczepana Twardocha.
Czas na nowe regulacje?
Zjawisko wykorzystywania cudzej pracy do rozwoju sztucznej inteligencji stało się powszechne. Dlatego środowiska twórcze na całym świecie domagają się nowych ram prawnych:
- jawności źródeł danych treningowych,
- możliwości wycofania utworów z takich zbiorów,
- odpowiednich rekompensat finansowych.
Bez zdecydowanej reakcji, książki mogą zostać uznane na stałe za „darmowy surowiec” — a prawo autorskie za martwe.
Żródła: