Blog Books Factory

L’IA entraînée avec des livres piratés. Les auteurs ripostent

Meta, le géant technologique fondé par Mark Zuckerberg, a entraîné son dernier modèle d’intelligence artificielle, LLaMA, à partir d’un vaste corpus de livres provenant du site de piratage bien connu Library Genesis (LibGen).

LibGen est une bibliothèque illégale qui héberge des millions de publications, allant des classiques de la littérature aux best-sellers contemporains, en passant par des ouvrages scientifiques. Pour Meta, cette base représentait une véritable mine d’or, exploitée sans le consentement des auteurs ni des éditeurs.

Zuckerberg : une interprétation « légale »

Selon des documents internes, Mark Zuckerberg a validé lui-même l’utilisation de ces données issues de LibGen pour entraîner l’IA. Il a affirmé que cela relevait du cadre juridique américain, en s’appuyant sur le principe du « fair use », qui autorise certains usages d’œuvres protégées à des fins de recherche ou de développement.

Mais, cette lecture du droit est largement contestée, notamment au regard de l’ampleur des données utilisées et de l’objectif commercial assumé.

Des sources légales ? Trop chères !

Les documents montrent également que Meta avait envisagé d’acheter des licences auprès des éditeurs. Mais, les conditions proposées ont été jugées « déraisonnablement coûteuses » en interne. La direction a donc préféré utiliser les fichiers piratés, non par manque d’alternatives, cependant par choix économique.

Ce n’était pas une nécessité, toutefois une stratégie.

Votre livre a-t-il été utilisé ? Un outil permet de vérifier

Meta n’a jamais publié de liste complète des titres ayant servi à entraîner ses modèles. Toutefois, une base de données consultable en ligne a été mise à disposition par The Atlantic : elle s’appuie sur les archives de LibGen et permet aux auteurs de vérifier si leurs ouvrages ont été utilisés par Meta, OpenAI ou d’autres grands acteurs de l’IA.

Elle comprend plus de 190 000 titres.

Les poursuites s’organisent. La France réagit

Aux États-Unis, plusieurs procès sont déjà en cours. En France aussi, la résistance s’organise : des collectifs comme la Ligue des auteurs professionnels, la SGDL ou le Syndicat national de l’édition réclament des mesures fortes face aux géants du numérique.

Des auteurs comme Alain Damasio ou Titiou Lecoq ont publiquement dénoncé ces pratiques, appelant à une régulation plus stricte.

À Bruxelles, la question fait également son chemin : la directive européenne sur l’IA prévoit un droit d’opposition explicite pour les titulaires de droits.

Vers un nouveau cadre juridique ?

L’utilisation non autorisée des œuvres littéraires pour entraîner l’intelligence artificielle devient une pratique courante. De plus en plus de voix s’élèvent pour réclamer :

  • une transparence totale sur les données utilisées,
  • un droit de refus clair et accessible,
  • une rémunération équitable pour chaque usage.

Sans un encadrement adapté, le risque est réel que les livres deviennent une simple matière première gratuite et que le droit d’auteur perde toute portée.

Sources :

  1. L’Atlantique