Toutes les grandes IA ont ignoré les lois du droit d'auteur. Ce qui est étonnant, c'est qu'il n'y a toujours pas de conséquences

Les éditeurs français ont marre et viennent de poursuivre un objectif de violation du droit d’auteur. Ils ne sont pas les premiers et ils ne seront pas les derniers, mais le problème n’est pas le problème: le problème est que les entreprises d’IA ont utilisé du contenu du droit d’auteur pour former leurs modèles, et c’est comme si de rien n’était.

Tout reste le même. Plus de deux ans se sont écoulés depuis que Getty a dénoncé la diffusion stable, qu’il a accusée d’avoir volé ses photos pour former son modèle de génération d’images. Ce fut le premier d’une grande liste de demandes pour exactement la même chose, mais malgré le temps qui s’est écoulé, il n’y a pas eu de nouvelles à ce sujet. C’est comme si la diffusion stable avait fait – comme les autres – se retrouvait en arrière-plan pour les tribunaux de la justice.

Je copie? La suspicion sur ce type de comportement a été constante, et elle était déjà avant le lancement de Chatgpt en novembre 2022. Des mois auparavant, en juin, Dall-E a été accusé de base d’images avec les droits des créateurs de l’auteur qui n’ont rien reçu en retour. Microsoft, Openai et Github ont également été poursuivis quelques semaines avant le lancement du Chatgpt, mais cette fois parce que Github Copilot avait été formé sans autorisation avec le code de divers développeurs qui n’avaient pas donné leur permission. Un juge de Californie a rejeté pratiquement toutes les revendications des plaignants en juillet 2024.

Peu de phrases punissent des entreprises d’IA. Pour l’instant, les phrases qui se sont produites, comme les susmentionnées, donnent la victoire apparente aux compagnies de l’IA. Cela s’est produit par exemple avec un procès contre Openai, que la société a réussi à gagner. Bien sûr, cette victoire peut coûter cher dans son autre excellent demande en attente avec le New York Times, ce qui peut prétendre qu’il a subi des dommages démontrables.

Utilisation équitable? Le procès du New York Times contre Openai a commencé en janvier 2025 et est sans aucun doute l’un des plus importants de ce domaine. L’entreprise dirigée par Sam Altman – qui a utilisé toutes les données qu’il a pu – est à pratiquer qu’elle utilise un «usage équitable» du contenu pour former leurs modèles. Ce qui est drôle, c’est que, d’une part, ils disent cela, et d’autre, ils ont conclu des accords millionnaires avec des plateformes telles que Reddit et des médias ou des éditoriaux tels que le pays précisément pour obtenir une licence de contenu et éviter de nouvelles demandes.

Meta est un autre niveau. Les fins auxquelles les entreprises atteignent des données de qualité avec lesquelles former leurs modèles d’IA sont extraordinaires. Perrleplexity a sauté les barrières Internet, mais l’objectif était encore plus frappant: nous savions récemment qu’ils avaient utilisé plus de 80 To de livres téléchargés via BitTorrent pour former leur modèle. Beaucoup d’entre eux avec le droit d’auteur, quelque chose qui a provoqué de nombreuses critiques et la demande récente de certains groupes de rédaction français.

Il semble y avoir une punition. Mais comme nous le disons, ce vol historique de propriété intellectuelle semble être supposé: il n’y a pas de phrases qui ont puni ces violations du droit d’auteur pour le moment, et c’est comme si collectivement ces violations avaient été ignorées parce que l’IA offre des avantages intéressants. Mais nous oublions comment ils les ont obtenus … ou du moins il semble.

Dans Simseo | 5 000 « jetons » de mon blog sont utilisés pour former une IA. Je n’ai pas donné ma permission