Le scientifique qui a rendu possible l’IA que nous connaissons aujourd’hui vient de récolter 1 milliard. Son nouvel objectif est de lui apprendre à voir l'espace

Fei-Fei Li, connue comme la marraine de l'IA, vient de clôturer un tour de table d'un milliard de dollars pour World Labs, sa startup dédiée à l'enseignement aux machines pour comprendre le monde en trois dimensions. Derrière ce pari se trouvent de grandes entreprises comme NVIDIA, AMD, Autodesk ou le fonds Andreessen Horowitz, entre autres. Li, comme d’autres personnalités majeures du domaine de l’IA, estime que les modèles mondiaux sont la voie à suivre, plutôt que l’AGI.

Qui vous êtes et pourquoi ce que vous faites est important. Li est l’une des personnes qui ont rendu possible l’IA générative telle que nous la connaissons aujourd’hui. Il faisait partie de l'équipe qui a développé ImageNet, une base de données de millions d'images permettant aux ordinateurs d'apprendre à reconnaître les objets sur les photos. Ce travail académique a été le déclencheur du saut vers l’apprentissage profond qui a donné naissance à tout ce qui a suivi : des assistants vocaux aux modèles génératifs de texte et d’images.

Désormais diplômé de l'Université de Stanford, où il dirige l'Institut pour l'intelligence artificielle centrée sur l'humain, et de World Labs, la startup qu'il a fondée en 2024, Li souligne ce qu'il considère comme le prochain grand problème non résolu de l'IA : les machines comprennent le monde physique, et pas seulement le texte ou les images plates.

Le problème que vous souhaitez résoudre. Les grands modèles de langage comme GPT ou Claude sont extraordinairement efficaces pour traiter le texte. Mais le monde réel n’est pas du texte, ou du moins ce n’est pas seulement du texte : il est tridimensionnel, il a de la physique, il a de la géométrie, il a des objets qui bougent et sont liés les uns aux autres. « Si l'IA veut être vraiment utile, elle doit comprendre les mondes, pas seulement les mots », a déclaré Li dans sa déclaration.

C’est ce que poursuit ce qu’on appelle l’intelligence spatiale, l’objectif central des World Labs. Contrairement au travail avec des données bidimensionnelles, les modèles sur lesquels travaille la startup sont conçus pour percevoir, générer et interagir avec des environnements tridimensionnels. L’idée est qu’une IA dotée d’une intelligence spatiale peut raisonner sur la façon dont les choses fonctionnent dans l’espace, où se trouve un objet, comment il se déplace, ce qui se passera s’il est poussé, comment il s’intègre dans un environnement plus vaste, etc.

Ce qui existe déjà et ce qui vient. En novembre de l'année dernière, elle a lancé Marble, son premier produit commercial. C'est un modèle qui génère des environnements 3D modifiables et téléchargeables à partir de textes, d'images, de vidéos ou de panoramas. L'utilisateur peut créer un monde virtuel, le modifier, l'agrandir et l'exporter dans différents formats. La startup la positionne principalement pour les jeux vidéo, les effets visuels et la réalité virtuelle, ou des secteurs à forte demande de contenus 3D dans lesquels il existe peu d'outils pour les mettre en œuvre.

Avec cette nouvelle ronde de financement, l'accent s'étend également à la robotique. Et dans ce domaine, l’intelligence spatiale est particulièrement critique, puisqu’un robot qui comprend l’espace qui l’entoure peut planifier des actions avant de les exécuter, traiter différentes manières d’accomplir une tâche ou s’adapter à des environnements changeants sans avoir besoin d’être reprogrammé pour chaque situation.

Autodesk a mis 200 millions sur sa table. C’est vraiment tout à fait logique. C'est l'entreprise qui fabrique les logiciels de conception utilisés par les architectes, les ingénieurs, les studios d'animation et les fabricants du monde entier. Votre entreprise pense, par définition, en trois dimensions. Et si les modèles de Li peuvent générer et raisonner sur des environnements 3D, les outils Autodesk peuvent également bénéficier de ce que la startup souhaite offrir.

Toutes les grandes technologies parient l’argent qu’elles ont et l’argent qu’elles n’ont pas sur l’avenir de l’IA. Tous sauf un : Apple

Daron Green, scientifique en chef chez Autodesk, a expliqué à TechCrunch que la collaboration entre les deux sociétés se concentrera dans un premier temps sur le divertissement et la production audiovisuelle. L’idée est que les workflows de conception peuvent être combinés avec des mondes générés par l’IA. De cette manière, un utilisateur conçoit un objet dans Autodesk et le place dans un environnement créé par World Labs, ou inversement. « On pourrait s'attendre à ce que nous consommant leurs modèles ou qu'ils consomment les nôtres dans différents contextes », a déclaré Green.

Vous n'êtes pas seul dans cette course. World Labs n’est pas le seul engagement envers les modèles mondiaux. Google DeepMind travaille sur sa famille de modèles Genie, capables de générer et de simuler des environnements 3D. Yann LeCun, ancien scientifique en chef de l'IA chez Meta, vient de fonder AMI Labs avec la même approche. Des startups comme Decart et Odyssey évoluent également dans ce domaine, bien qu'avec des produits encore en phase de démonstration ou de recherche.

Il existe cependant des différences dans leurs approches respectives. LeCun, par exemple, affirme que la construction de véritables modèles mondiaux nécessitera une toute nouvelle architecture d’IA non générative. Li, de World Labs, s'engage à progresser avec les modèles génératifs actuels et à s'améliorer à partir de là.

Image de couverture | World Labs et Andria Lo

À Simseo | Nous serions ravis de vous dire que « Elle » n’est pas devenue réalité et que personne ne sort avec une IA, mais nous ne pouvons pas.