Mark Zuckerberg visé en justice, 5 éditeurs l'accusent pour l'entraînement de Llama
L’offensive judiciaire prend un tour plus personnel. Dans la nouvelle plainte déposée contre Meta, les éditeurs ne se contentent pas de viser l’entreprise : ils accusent aussi Mark Zuckerberg d’avoir « personnellement autorisé » l’usage d’œuvres protégées pour entraîner Llama.
Une plainte qui place Meta, et son patron, au centre du tir
Le 5 mai 2026, cinq grands noms de l’édition américaine — Elsevier, Cengage, Hachette Book Group, Macmillan et McGraw Hill — ont déposé plainte devant le tribunal fédéral de Manhattan contre Meta Platforms. Leur accusation est directe : le groupe aurait exploité sans autorisation des livres et articles de revue relevant du droit d’auteur pour entraîner sa famille de modèles d’IA Llama.
Selon les éléments rapportés notamment par AP et Reuters, les plaignants avancent une formule particulièrement lourde de conséquences : Mark Zuckerberg aurait « personnellement autorisé » cette utilisation. Dans un paysage où les recours sur les données d’entraînement visent souvent des entreprises de manière abstraite, la personnalisation du reproche donne une tout autre portée au dossier. Elle expose Meta à un risque juridique, mais aussi à une mise en cause de sa gouvernance.
Le choix des plaignants n’a rien d’anecdotique. Elsevier est l’un des plus puissants éditeurs scientifiques au monde. McGraw Hill et Cengage pèsent lourd dans l’édition éducative. Hachette et Macmillan incarnent, eux, le cœur de l’édition généraliste et académique. Ensemble, ils représentent une part significative du marché des contenus à forte valeur, précisément ceux qui intéressent les modèles génératifs pour leur qualité rédactionnelle, leur structuration et leur richesse informationnelle.
Derrière Llama, la question explosive des données d’entraînement
Le cœur du litige porte sur une question devenue centrale dans l’IA générative : sur quelles bases les grands modèles ont-ils été entraînés ? Depuis l’explosion publique de ces systèmes à partir de 2022, les entreprises du secteur invoquent régulièrement le fair use, c’est-à-dire une exception du droit américain permettant certains usages non autorisés d’œuvres protégées. Les ayants droit, eux, soutiennent que l’ingestion massive de contenus protégés à des fins commerciales dépasse largement ce cadre.
Dans le cas de Meta, l’enjeu est encore plus visible parce que Llama occupe une place particulière sur le marché. Contrairement à des modèles plus fermés, la famille Llama a été largement diffusée, adaptée et intégrée dans tout l’écosystème IA. Cette diffusion nourrit l’argument des éditeurs : si des œuvres protégées ont servi à l’entraînement, l’exploitation n’aurait pas seulement bénéficié à un produit interne, mais à une stratégie d’influence technologique beaucoup plus large.
La plainte s’inscrit aussi dans un contexte embarrassant pour Meta. L’entreprise fait déjà face à d’autres critiques sur la provenance de certaines données d’entraînement. Chaque nouveau dossier ne s’ajoute donc pas isolément : il contribue à dessiner une image plus problématique de la manière dont les grands laboratoires ont constitué leurs corpus.
Pourquoi l’accusation visant Zuckerberg compte autant
L’élément le plus saillant du dossier n’est pas seulement l’ampleur des éditeurs mobilisés, mais la décision de nommer Mark Zuckerberg dans le récit judiciaire. En affirmant qu’il aurait « personnellement autorisé » l’exploitation des contenus, les plaignants tentent de faire sortir l’affaire du seul champ technique pour la ramener au niveau de la décision stratégique.
Sur le plan judiciaire, cette formulation peut servir plusieurs objectifs. D’abord, montrer qu’il ne s’agirait pas d’une dérive périphérique ou d’un choix laissé à des équipes techniques, mais d’une orientation validée au plus haut niveau. Ensuite, renforcer l’idée d’une connaissance consciente du risque juridique. Enfin, accroître la pression dans une éventuelle négociation : lorsque le fondateur et patron est explicitement visé, le coût réputationnel grimpe immédiatement.
Pour Meta, le danger est double. Il y a le risque financier classique lié à des dommages potentiellement élevés, surtout si l’affaire s’étend à des usages nombreux et prolongés. Mais il y a aussi un risque de narration publique : celui d’une entreprise qui aurait avancé dans l’IA en assumant d’utiliser des contenus protégés avant de traiter la facture plus tard.
Les éditeurs attaquent à un moment charnière
Cette plainte n’arrive pas dans le vide. Depuis plus de deux ans, l’industrie culturelle et éditoriale cherche le bon point d’appui pour imposer ses conditions aux acteurs de l’IA. Les procès se multiplient, mais tous ne se valent pas. Ici, la coalition de plaignants renforce la portée politique du dossier : ce ne sont pas des auteurs isolés, mais une partie structurée de l’édition américaine qui monte au front.
Le signal est important pour deux raisons. D’abord, les contenus concernés ne sont pas seulement des romans ou des essais grand public, mais aussi des ouvrages pédagogiques et des publications scientifiques, soit des ressources dont la valeur commerciale repose précisément sur leur fiabilité, leur mise à jour et leur rareté relative. Ensuite, ces éditeurs disposent de moyens juridiques et financiers considérables, ce qui augmente la probabilité d’un contentieux long, fouillé et potentiellement riche en découvertes internes.
Si la procédure va loin, elle pourrait forcer Meta à documenter plus finement la composition de ses jeux de données, un point que l’industrie de l’IA a longtemps gardé dans le flou. Or, cette opacité devient de plus en plus difficile à tenir face aux tribunaux, aux régulateurs et aux détenteurs de droits.
Un front de plus dans la guerre du copyright génératif
L’affaire Meta s’inscrit dans une bataille plus large qui oppose l’économie de l’IA aux industries du contenu. D’un côté, les laboratoires expliquent qu’il est impossible d’entraîner des modèles compétitifs sans absorber des masses gigantesques de textes, images, sons et vidéos. De l’autre, les ayants droit rétorquent que cette logique revient à bâtir des produits commerciaux sur une extraction non rémunérée de leur travail.
Le contentieux autour de Llama illustre parfaitement cette tension. Les modèles génératifs ne reproduisent pas mécaniquement un livre ou un article à l’identique dans la plupart des cas ; ils apprennent des motifs, des styles, des structures, des connaissances. C’est justement là que se situe la zone grise juridique : cet apprentissage statistique constitue-t-il un usage transformateur légitime, ou une exploitation illicite à grande échelle ?
Le fait que la plainte vise des maisons aussi différentes qu’Elsevier et Hachette montre que le débat ne concerne plus seulement un secteur culturel particulier. Toute l’économie du savoir entre dans le champ : édition scientifique, manuels scolaires, littérature, non-fiction, bases de connaissances.
Pour Meta, l’enjeu dépasse largement ce seul procès
Meta a bâti une part de sa crédibilité IA sur l’idée d’une ouverture relative de ses modèles et sur sa capacité à rivaliser avec des acteurs comme OpenAI, Google ou Anthropic. Une défaite nette sur le terrain du copyright fragiliserait cette stratégie de plusieurs façons.
D’abord, elle pourrait renchérir brutalement le coût réel de l’entraînement. Si des licences deviennent nécessaires ou si des indemnisations massives sont prononcées, l’avantage économique du scraping à grande échelle se réduit. Ensuite, elle pourrait ralentir le développement de nouveaux modèles, parce que chaque itération devrait être juridiquement mieux sécurisée. Enfin, elle affecterait la réputation de Meta auprès des partenaires institutionnels, des entreprises clientes et des développeurs qui misent sur l’écosystème Llama.
Le point le plus concret à surveiller sera la réponse procédurale de Meta dans les prochaines semaines : contestation de la plainte, défense fondée sur le fair use, ou tentative de faire limiter le périmètre des œuvres en cause. Mais le vrai test viendra plus tard, lors de la phase de production de pièces, si le tribunal l’autorise. C’est à ce moment-là que pourrait apparaître la documentation interne sur les arbitrages effectués autour des données d’entraînement.
Pour l’industrie, le prochain jalon est clair : savoir si cette plainte débouche sur un accord discret, comme cela arrive souvent, ou sur une décision de fond capable d’établir une jurisprudence. Dans un cas comme dans l’autre, la conséquence est déjà mesurable : les grands éditeurs montrent qu’ils ne veulent plus simplement protester contre l’IA générative, mais en facturer l’apprentissage.