Meta alerte sur la difficulté de payer toutes les données utilisées pour entraîner une IA

Nous sommes témoins de la manière dont l’intelligence artificielle (IA) entraîne des changements notables dans le monde dans lequel nous vivons. La liste des zones touchées d’une manière ou d’une autre par le vertige développement de cette discipline C’est énorme, même si on parle beaucoup ces jours-ci du droit d’auteur.

La conversation tourne autour de la position des grandes entreprises technologiques concernant une éventuelle mise à jour de la réglementation sur le droit d’auteur aux États-Unis – qui pourrait créer un précédent dans le monde entier – qui envisage l’idée de payer pour les données utilisées pour entraîner les systèmes d’IA. La Big Tech n’est pas amusée.

Un changement qui peut changer l’industrie

Avant d’aborder le sujet, il est nécessaire de rappeler pourquoi nous sommes arrivés ici, et nous pouvons le faire de manière simple sans entrer dans les détails techniques. Les modèles de langage qui alimentent les outils d’IA comme ChatGPT d’OpenAI, Bing Chat de Microsoft et Bard de Google ont été formés sur d’énormes ensembles de données.

Les modèles de langage impliqués dans l’exemple précédent sont GPT-3.5, GPT-4 et PaLM. Grâce à leurs capacités, les chatbots susmentionnés peuvent nous aider à créer un itinéraire de voyage, à écrire de la poésie ou à expliquer la fission nucléaire avec des pommes. Alors d’où viennent toutes ces informations ? Voici la polémique.

En général, il peut y avoir des exceptions, les ensembles de données sont constitués d’informations collectées à partir de Wikipédia, blogs, pages d’actualités, des livres et du code provenant de plateformes de style GitHub. Et dans tout cela, il y a du matériel protégé par le droit d’auteur. Il existe également des modèles entraînés avec des images et des vidéos disponibles sur Internet.

À mesure que l’IA générative évolue et devient plus populaire, les auteurs d’œuvres de toutes sortes ont commencé à se plaindre – et dans certains cas à poursuivre en justice – les grandes entreprises technologiques pour avoir utilisé leurs travaux sans autorisation. Or, il y a aussi ceux qui prétendent que le cadre législatif actuel ne tient pas compte de cette réalité à laquelle nous sommes témoins.

L’un des éléments de cet essaim est le Bureau du droit d’auteur des États-Unis, qui s’est engagé à résoudre le problème, ouvrant la porte à un éventuel système de rémunération des auteurs. La période de commentaires est actuellement en cours d’élaboration, au cours de laquelle le bureau reçoit les commentaires des parties impliquées dans l’affaire.

Eh bien, certains des plus grands géants technologiques de la planète n’apprécient pas les changements à cet égard. Selon Business Insider, Meta a noté dans sa présentation qu ‘«il serait impossible pour les développeurs d’IA d’acquérir des licences de droits d’auteur pour des œuvres critiques» et que d’énormes quantités de données sont utilisées.

D’autres sociétés telles qu’OpenAI, Microsoft et Google ont adopté une position similaire en veillant à ce qu’une quantité de données soit utilisée de manière à ce qu’il n’y ait aucune possibilité de les utiliser. moyen viable de les payer tous (via des licences). TechNet, un groupe représentant ces entreprises, a également déclaré que ce système entraverait le développement de l’intelligence artificielle.

Son chien manquait beaucoup à ce garçon. Il a donc fini par le recréer d'une manière étonnante dans Unreal Engine.

De Google, ils affirment que leurs modèles d’IA ont utilisé une base connue sous le nom de « collecte de connaissances », quelque chose qui est soutenu par les lois sur le droit d’auteur actuellement en vigueur. Un changement dans ce sens, selon le géant de la recherche, « imposerait une responsabilité écrasante aux développeurs d’IA.