Elon Musk dit que l'IA a déjà consommé toutes les connaissances humaines (mais il a un plan B)

Elon Musk dit que l’IA a déjà consommé toutes les connaissances humaines (mais il a un plan B)

L’IA est sur le point d’épuiser toutes les données disponibles sur Internet pour sa formation, selon quelqu’un qui connaît bien cette industrie : Elon Musk, propriétaire de X et PDG de xAI, entre autres sociétés.

Leur solution est de franchir le Rubicon de la formation de modèles : utiliser des données synthétiques. Autrement dit, l’IA génère elle-même les données avec lesquelles elle apprendra.

Pourquoi est-ce important. La rareté des données pour entraîner les modèles marquera un tournant dans le développement de l’IA. Et cela pourrait ralentir le rythme des progrès technologiques tel que nous le connaissons ces dernières années.

Le contexte. Les grands modèles de langage nécessitent d’énormes quantités de données et d’informations pour améliorer leurs performances. L’épuisement de ces données réelles disponibles, générées par les humains par des moyens traditionnels, oblige l’industrie à rechercher des alternatives valables pour continuer à améliorer des produits tels que les chatbots ou les générateurs d’images.

  • L’idée n’est pas nouvelle, elle a déjà été appliquée à d’autres projets d’IA. Gartner estime que 60 % des données utilisées dans les projets d’IA en 2024 seront générées de manière synthétique. Microsoft, OpenAI, Anthropic, Meta… s’y tournent.
  • Palmyra X 004, un modèle conçu pour alimenter les applications d’IA existantes, a été formé de cette manière. Cela a coûté 700 000 $.
  • Le coût estimé pour un modèle de taille comparable d’OpenAI est de 4,6 millions de dollars.

Quelle est la différence avec ce que propose Musk ? Que l’utilisation de données synthétiques a jusqu’à présent été un complément aux données réelles, et non un remplacement total. Et selon lui, ils seront bientôt la seule source possible de formation.

Entre les lignes. Ce n’est pas le premier signal similaire envoyé par un poids lourd de l’industrie. Ilya Sutskever, ancien scientifique en chef d’OpenAI, avait déjà lancé un avertissement très similaire en décembre : « Nous avons atteint le pic des données et il n’y en aura plus. »

  • Le problème est que les données synthétiques peuvent créer une boucle fermée dans laquelle les biais et les limites sont amplifiés.
  • Cela conduirait à l’effondrement du modèle en raison d’une perte progressive de créativité et de précision.

Malgré ces risques, l’industrie les accepte.

À Simseo | L’IA comprend déjà la physique du monde réel : NVIDIA Cosmos est le premier pas vers des robots intelligents

Image en vedette | Simseo avec Midjourney