Voilà à quoi la robotique doit ressembler dans les films

Voilà à quoi la robotique doit ressembler dans les films

Imaginez une IA qui non seulement répond aux questions, mais qui peut également imaginer des scénarios, prédire les conséquences ou planifier des actions avant de les exécuter. C’est précisément ce que promettent les modèles mondiaux, une technologie qui attire l’attention des principaux laboratoires d’intelligence artificielle et qui pourrait changer radicalement la manière dont les machines comprennent et interagissent avec leur environnement.

Que sont-ils exactement ? Les modèles du monde sont des systèmes d’IA qui construisent une représentation interne de l’environnement, comme s’ils contenaient une simulation du monde réel. Contrairement à l’apprentissage supervisé traditionnel, qui mappe simplement les entrées aux sorties à l’aide de données étiquetées, ces modèles apprennent comment fonctionne un environnement et peuvent prédire ce qui va se passer ensuite. Cela ressemble à la façon dont les humains utilisent des simulations mentales pour anticiper les résultats sans avoir besoin de vivre physiquement chaque situation.

L'exemple du frappeur. Les chercheurs David Ha et Jürgen Schmidhuber l'expliquent par une analogie sportive : un frappeur de baseball n'a que quelques millisecondes pour décider comment frapper la balle, moins de temps qu'il n'en faut au signal visuel pour atteindre le cerveau. Ce qui lui permet de frapper une balle rapide à 100 milles à l’heure, c’est sa capacité à prédire instinctivement où ira la balle. Vos muscles réagissent par réflexe en fonction des prédictions de votre modèle mental interne, sans qu’il soit nécessaire de planifier consciemment tous les scénarios possibles.

Pourquoi ils sont importants maintenant. Des personnalités telles que Yann LeCun (Meta), Demis Hassabis (Google DeepMind) et Yoshua Bengio (Institut québécois d'IA) considèrent ces modèles comme essentiels à la construction de systèmes véritablement intelligents. La startup World Labs de Fei-Fei Li, l'une des personnalités les plus influentes de l'IA, a levé l'année dernière 230 millions de dollars pour les développer.

En revanche, General Intuition, un nouveau laboratoire d'IA appartenant à Medal (connu pour son application d'enregistrement et de partage de clips de jeux), vient d'obtenir une levée de fonds de 133,7 millions. L'investissement provient principalement du fondateur de Khosla Ventures, Vinod Khosla (l'un des premiers investisseurs d'OpenAI), qui affirme que « plusieurs sociétés valant des centaines de milliards, voire des milliards de dollars, seront construites » dans ce domaine.

Comment ils fonctionnent. Ces systèmes ont trois capacités fondamentales. D’une part, ils compressent des données sensorielles complexes (images, vidéos, textes) en représentations plus simples. Deuxièmement, ils prédisent les états futurs de l’environnement sur la base d’informations passées et présentes. Troisièmement, ils utilisent ce modèle appris pour simuler différentes actions et choisir la meilleure option. C’est comme si l’IA pouvait « rêver » différents scénarios avant d’agir.

Le cas des jeux vidéo. Ha et Schmidhuber ont également un exemple éclairant à ce propos : imaginez une IA apprenant à jouer à un jeu de course. Au lieu de mémoriser des séquences de mouvements, vous construisez d'abord un modèle interne du comportement du monde du jeu : comment la voiture se déplace, comment la route se courbe, où apparaissent les obstacles. Vous pouvez ensuite imaginer des scénarios futurs, en testant différentes stratégies de conduite dans votre monde simulé avant de les appliquer dans le jeu réel.

Des applications prometteuses. Les modèles mondiaux transforment déjà plusieurs domaines. En conduite autonome, ils permettent aux véhicules de simuler la dynamique du trafic et le comportement des piétons pour prendre des décisions plus sûres. En robotique, les robots peuvent imaginer différentes manières d’accomplir une tâche avant de l’exécuter, ce qui est particulièrement utile lorsque la formation dans le monde réel est coûteuse ou dangereuse. Et dans la génération vidéo, ils contribuent à créer un contenu plus réaliste : un modèle qui comprend pourquoi une balle rebondit la représentera mieux qu’un modèle qui a simplement mémorisé des modèles.

Si vous avez cherché un emploi, il est fort probable que vous ayez parlé à une IA sans le savoir... et qu'elle vous ait laissé sans emploi

Au-delà de la vidéo. Un meilleur modèle de génération vidéo ne serait qu’un début. LeCun décrit comment un modèle mondial pourrait aider à atteindre des objectifs grâce au raisonnement : à partir d'une vidéo d'une pièce en désordre et de l'objectif de la nettoyer, vous pourriez concevoir une séquence d'actions (passer l'aspirateur, nettoyer la vaisselle, vider les poubelles) non pas parce que vous avez observé ce schéma, mais parce que vous comprenez à un niveau plus profond comment passer du sale au propre. « Nous avons besoin de machines qui comprennent le monde, qui peuvent se souvenir des choses, qui ont de l'intuition et du bon sens », dit-il.

Les obstacles à venir. La formation et l’exécution de modèles mondiaux nécessitent une puissance de calcul massive, même par rapport aux modèles génératifs actuels. Bien que des milliers et des milliers de GPU enfermés dans de gigantesques centres de données consommant une tonne d’énergie soient déjà nécessaires pour exécuter les modèles actuels, la formation des modèles mondiaux est un autre niveau. De plus, comme tous les modèles d’IA, ils courent également le risque d’halluciner et d’intérioriser les biais de leurs données d’entraînement.

Le pari de l'industrie. Malgré les défis techniques, différentes stratégies sont en place. Google DeepMind et OpenAI parient qu'avec suffisamment de données d'entraînement multimodales (vidéo, simulations 3D et au-delà du texte), un modèle du monde émergera spontanément au sein d'un réseau neuronal. LeCun, pour sa part, estime qu’une toute nouvelle architecture d’IA non générative sera nécessaire.

ChatGPT vous permettra d'avoir des conversations érotiques. Bienvenue dans l'intimité émotionnelle avec une IA

Ce qui vient ensuite. Plusieurs experts prédisent également que les modèles mondiaux permettront la création de mondes 3D interactifs à la demande pour les jeux vidéo, la photographie virtuelle et d'autres applications. Selon Justin Johnson, co-fondateur de World Labs, « nous avons déjà la capacité de créer des mondes virtuels et interactifs, mais cela coûte des centaines de millions de dollars et beaucoup de temps de développement ». Ils pourraient aussi révolutionner la robotique en donnant aux robots une réelle conscience de leur environnement et de leur propre corps. Comme le résume Mashrabov, « avec un modèle mondial avancé, une IA pourrait développer une compréhension personnelle de tout scénario dans lequel elle se trouve et commencer à réfléchir à des solutions possibles ».

Bien que LeCun estime que nous sommes encore à au moins une décennie des modèles mondiaux qu'il imagine, la grande attente de l'industrie de voir des évolutions dans le domaine de l'IA et l'investissement monstrueux que ce phénomène reçoit, indiquent que cette technologie pourrait être le prochain grand pas vers des machines qui non seulement réagissent au monde, mais le comprennent et le modélisent.

Image de couverture | Michel Marais

À Simseo | « La sécurité de nos enfants n'est pas à vendre » : la première loi qui réglemente les « amis de l'IA » est là