Le procès du New York Times contre OpenAI pourrait avoir des implications majeures pour le développement de l'intelligence artificielle

En 1954, le correspondant scientifique du Guardian a parlé des « cerveaux électroniques », dotés d’une forme de mémoire qui leur permettait de récupérer des informations, comme l’attribution des sièges dans les compagnies aériennes, en quelques secondes.

De nos jours, l’idée que les ordinateurs stockent des informations est si courante que nous ne pensons même pas à la signification réelle de mots comme « mémoire ». Cependant, dans les années 1950, ce langage était nouveau pour la plupart des gens, et l’idée d’un « cerveau électronique » était pleine de possibilités.

En 2024, votre micro-ondes disposera de plus de puissance de calcul que tout ce qu’on appelait un cerveau dans les années 1950, mais le monde de l’intelligence artificielle pose de nouveaux défis au langage et aux avocats. Le mois dernier, le journal New York Times a intenté une action en justice contre OpenAI et Microsoft, propriétaires du populaire outil de génération de texte basé sur l’IA ChatGPT, pour leur utilisation présumée des articles du Times dans les données qu’ils utilisent pour former (améliorer) et tester. leurs systèmes.

Ils affirment qu’OpenAI a violé le droit d’auteur en utilisant leur journalisme dans le cadre du processus de création de ChatGPT. Ce faisant, affirme le procès, ils ont créé un produit concurrent qui menace leur entreprise. Jusqu’à présent, la réponse d’OpenAI a été très prudente, mais un principe clé souligné dans un communiqué publié par la société est que son utilisation des données en ligne relève du principe connu sous le nom de « utilisation équitable ». En effet, selon OpenAI, ils transforment le travail en quelque chose de nouveau dans le processus : le texte généré par ChatGPT.

Au cœur de cette problématique se trouve la question de l’utilisation des données. Quelles données les entreprises comme OpenAI ont-elles le droit d’utiliser, et que signifient réellement des concepts comme « transformer » dans ces contextes ? Des questions comme celle-ci, concernant les données sur lesquelles nous entraînons des systèmes d’IA ou des modèles comme ChatGPT, restent un champ de bataille académique féroce. La loi est souvent à la traîne par rapport au comportement de l’industrie.

Si vous avez utilisé l’IA pour répondre à des e-mails ou résumer votre travail, vous pourriez considérer ChatGPT comme une fin justifiant les moyens. Cependant, nous devrions peut-être nous inquiéter si le seul moyen d’y parvenir est d’exempter certaines sociétés des lois qui s’appliquent à tout le monde.

Non seulement cela pourrait changer la nature du débat autour des poursuites en matière de droit d’auteur comme celle-ci, mais cela pourrait également changer la façon dont les sociétés structurent leur système juridique.

Questions fondamentales

Des cas comme celui-ci peuvent soulever des questions épineuses sur l’avenir des systèmes juridiques, mais ils peuvent également remettre en question l’avenir des modèles d’IA eux-mêmes. Le New York Times estime que ChatGPT menace l’existence à long terme du journal. Sur ce point, OpenAI affirme dans son communiqué collaborer avec les agences de presse pour offrir de nouvelles opportunités en matière de journalisme. Il indique que les objectifs de l’entreprise sont de « soutenir un écosystème d’information sain » et d’« être un bon partenaire ».

Même si nous pensons que les systèmes d’IA sont un élément nécessaire de l’avenir de notre société, détruire les sources de données sur lesquelles ils ont été initialement formés semble être une mauvaise idée. C’est une préoccupation partagée par des efforts créatifs comme le New York Times, des auteurs comme George RR Martin, ainsi que par l’encyclopédie en ligne Wikipédia.

Les partisans de la collecte de données à grande échelle, comme celle utilisée pour alimenter les Large Language Models (LLM), la technologie qui sous-tend les chatbots d’IA tels que ChatGPT, soutiennent que les systèmes d’IA « transforment » les données sur lesquelles ils s’entraînent en « apprenant » à partir de leurs ensembles de données, puis créer quelque chose de nouveau.

En fait, cela signifie que les chercheurs fournissent des données écrites par des personnes et demandent à ces systèmes de deviner les mots suivants dans la phrase, comme ils le feraient face à une vraie question d’un utilisateur. En cachant puis en révélant ces réponses, les chercheurs peuvent fournir une réponse binaire « oui » ou « non » qui aide à pousser les systèmes d’IA vers des prédictions précises. C’est pour cette raison que les LLM ont besoin de vastes quantités de textes écrits.

Si nous devions copier les articles du site Internet du New York Times et faire payer l’accès aux gens, la plupart des gens conviendraient qu’il s’agirait d’un « vol systématique à grande échelle » (comme le dit le procès du journal). Mais améliorer la précision d’une IA en utilisant des données pour la guider, comme indiqué ci-dessus, est plus compliqué que cela.

Des entreprises comme OpenAI ne stockent pas leurs données de formation et soutiennent donc que les articles du New York Times introduits dans l’ensemble de données ne sont pas réellement réutilisés. Un contre-argument à cette défense de l’IA, cependant, est qu’il existe des preuves que des systèmes tels que ChatGPT peuvent « divulguer » des extraits textuels de leurs données d’entraînement. OpenAI dit qu’il s’agit d’un « bug rare ».

Cependant, cela suggère que ces systèmes stockent et mémorisent certaines des données sur lesquelles ils sont formés (involontairement) et peuvent les régurgiter textuellement lorsqu’ils y sont invités de manière spécifique. Cela contournerait les barrières payantes qu’une publication à but lucratif pourrait mettre en place pour protéger sa propriété intellectuelle.

L’utilisation de la langue

Mais ce qui est susceptible d’avoir un impact à plus long terme sur la façon dont nous abordons la législation dans des cas comme ceux-ci, c’est notre utilisation du langage. La plupart des chercheurs en IA vous diront que le mot « apprentissage » est un mot très lourd et inexact à utiliser pour décrire ce que fait réellement l’IA.

Il faut se demander si la loi, dans sa forme actuelle, est suffisante pour protéger et soutenir les personnes alors que la société connaît un changement massif vers l’ère de l’IA. Le fait que quelque chose s’appuie sur une œuvre existante protégée par le droit d’auteur d’une manière différente de l’original est appelé « utilisation transformatrice » et constitue une défense utilisée par OpenAI.

Cependant, ces lois ont été conçues pour encourager les gens à remixer, recombiner et expérimenter des œuvres déjà diffusées dans le monde extérieur. Les mêmes lois n’ont pas vraiment été conçues pour protéger des produits technologiques valant plusieurs milliards de dollars qui fonctionnent à une vitesse et à une échelle de plusieurs ordres de grandeur supérieures à celles auxquelles n’importe quel écrivain humain pourrait aspirer.

Le problème avec de nombreuses défenses contre la collecte et l’utilisation de données à grande échelle est qu’elles reposent sur des utilisations étranges de la langue anglaise. On dit que l’IA « apprend », qu’elle « comprend », qu’elle peut « penser ». Cependant, ce sont des analogies et non un langage technique précis.

Tout comme en 1954, lorsque les gens regardaient l’équivalent moderne d’une calculatrice cassée et l’appelaient « cerveau », nous utilisons un langage ancien pour aborder des concepts complètement nouveaux. Quel que soit le nom que nous lui donnons, les systèmes comme ChatGPT ne fonctionnent pas comme notre cerveau, et les systèmes d’IA ne jouent pas le même rôle dans la société que les gens.

Tout comme nous avons dû développer de nouveaux mots et une nouvelle compréhension commune de la technologie pour donner un sens aux ordinateurs dans les années 1950, nous devrons peut-être développer un nouveau langage et de nouvelles lois pour aider à protéger notre société dans les années 2020.