Les voitures autonomes manquent encore de bon sens. La technologie des chatbots IA pourrait être la solution

Les voitures autonomes manquent encore de bon sens. La technologie des chatbots IA pourrait être la solution

Une recherche rapide sur Internet permet de découvrir de nombreuses vidéos montrant les mésaventures de voitures autonomes, qui nous font souvent sourire ou rire. Mais pourquoi trouvons-nous ces comportements amusants ? C'est peut-être parce qu'ils contrastent fortement avec la façon dont un conducteur humain gérerait des situations similaires.

Des situations du quotidien qui nous semblent anodines peuvent néanmoins poser des défis considérables aux voitures autonomes. En effet, elles sont conçues à l’aide de méthodes d’ingénierie qui diffèrent fondamentalement de la façon dont fonctionne l’esprit humain. Cependant, les progrès récents de l’IA ont ouvert de nouvelles possibilités.

De nouveaux systèmes d’IA dotés de capacités linguistiques, comme la technologie derrière les chatbots comme ChatGPT, pourraient être essentiels pour permettre aux voitures autonomes de raisonner et de se comporter davantage comme des conducteurs humains.

La recherche sur la conduite autonome a pris un essor considérable à la fin des années 2010 avec l'avènement des réseaux neuronaux profonds (DNN), une forme d'intelligence artificielle (IA) qui consiste à traiter des données d'une manière inspirée du cerveau humain. Cela permet de traiter des images et des vidéos de scénarios de circulation pour identifier des « éléments critiques », tels que des obstacles.

La détection de ces obstacles nécessite souvent de calculer une boîte 3D pour déterminer les tailles, les orientations et les positions des obstacles. Ce processus, appliqué aux véhicules, aux piétons et aux cyclistes par exemple, crée une représentation du monde basée sur des classes et des propriétés spatiales, notamment la distance et la vitesse par rapport à la voiture autonome.

C'est le fondement de l'approche d'ingénierie la plus largement adoptée en matière de conduite autonome, connue sous le nom de « sense-think-act ». Dans cette approche, les données des capteurs sont d'abord traitées par le DNN. Les données des capteurs sont ensuite utilisées pour prédire les trajectoires des obstacles. Enfin, les systèmes planifient les prochaines actions de la voiture.

Bien que cette approche offre des avantages tels qu’un débogage facile, le cadre « sens-pensée-action » présente une limitation critique : il est fondamentalement différent des mécanismes cérébraux à l’origine de la conduite humaine.

Leçons du cerveau

Le fonctionnement du cerveau reste encore largement méconnu, ce qui rend difficile l’application de l’intuition issue du cerveau humain aux véhicules autonomes. Néanmoins, divers efforts de recherche visent à s’inspirer des neurosciences, des sciences cognitives et de la psychologie pour améliorer la conduite autonome.

Une théorie établie de longue date suggère que « sentir » et « agir » ne sont pas des processus séquentiels mais étroitement liés. Les humains perçoivent leur environnement en fonction de leur capacité à agir sur lui.

Par exemple, lorsqu’il se prépare à tourner à gauche à une intersection, le conducteur se concentre sur des éléments spécifiques de l’environnement et des obstacles liés au virage. En revanche, l’approche sens-pensée-action traite l’ensemble du scénario indépendamment des intentions d’action actuelles.

Une autre différence essentielle avec les humains est que les DNN s’appuient principalement sur les données sur lesquelles ils ont été formés. Lorsqu’ils sont exposés à une légère variation inhabituelle d’un scénario, ils peuvent échouer ou manquer des informations importantes.

Ces scénarios rares et sous-représentés, appelés « cas à longue traîne », représentent un défi majeur. Les solutions de contournement actuelles impliquent la création d'ensembles de données d'entraînement de plus en plus volumineux, mais la complexité et la variabilité des situations réelles rendent impossible la couverture de toutes les possibilités.

En conséquence, les approches basées sur les données, comme la méthode « Sense-think-act », ont du mal à généraliser à des situations inédites. Les humains, en revanche, excellent dans la gestion de situations inédites.

Grâce à une connaissance générale du monde, nous sommes capables d’évaluer de nouveaux scénarios en utilisant le « bon sens » : un mélange de connaissances pratiques, de raisonnement et d’une compréhension intuitive de la façon dont les gens se comportent généralement, construite à partir d’une vie d’expériences.

En fait, conduire est pour les humains une autre forme d’interaction sociale, et le bon sens est essentiel pour interpréter les comportements des usagers de la route (autres conducteurs, piétons, cyclistes). Cette capacité nous permet de porter des jugements et de prendre des décisions éclairées dans des situations inattendues.

Copier le bon sens

La réplication du bon sens dans les réseaux de neurones profonds a constitué un défi de taille au cours de la dernière décennie, ce qui a incité les chercheurs à appeler à un changement radical d’approche. Les récentes avancées de l’IA offrent enfin une solution.

Les modèles de langage à grande échelle (LLM) sont la technologie sur laquelle reposent les chatbots tels que ChatGPT et ont démontré une compétence remarquable dans la compréhension et la génération du langage humain. Leurs capacités impressionnantes découlent de leur formation sur de vastes quantités d'informations dans divers domaines, ce qui leur a permis de développer une forme de bon sens proche du nôtre.

Plus récemment, les LLM multimodaux (qui peuvent répondre aux demandes des utilisateurs sous forme de texte, de vision et de vidéo) comme GPT-4o et GPT-4o-mini ont combiné le langage et la vision, intégrant une connaissance approfondie du monde avec la capacité de raisonner sur des entrées visuelles.

Ces modèles peuvent comprendre des scénarios complexes et invisibles, fournir des explications en langage naturel et recommander des actions appropriées, offrant ainsi une solution prometteuse au problème de la longue traîne.

En robotique, des modèles vision-langage-action (VLAM) émergent, combinant le traitement linguistique et visuel avec les actions du robot. Les VLAM montrent des résultats préliminaires impressionnants dans le contrôle des bras robotisés par le biais d'instructions linguistiques.

Dans le domaine de la conduite autonome, les premières recherches se concentrent sur l'utilisation de modèles multimodaux pour fournir des commentaires sur la conduite et des explications sur les décisions de planification motrice. Par exemple, un modèle peut indiquer « Il y a un cycliste devant moi, qui commence à ralentir », ce qui fournit des informations sur le processus de prise de décision et améliore la transparence. La société Wayve a montré des résultats initiaux prometteurs dans l'application de voitures autonomes pilotées par le langage à un niveau commercial.

L'avenir de la conduite

Si les LLM peuvent résoudre des cas à longue traîne, ils présentent de nouveaux défis. L’évaluation de leur fiabilité et de leur sécurité est plus complexe que pour les approches modulaires telles que sense-think-act. Chaque composant d’un véhicule autonome, y compris les LLM intégrés, doit être vérifié, ce qui nécessite de nouvelles méthodologies de test adaptées à ces systèmes.

De plus, les LLM multimodaux sont volumineux et exigeants en ressources informatiques, ce qui entraîne une latence élevée (un retard dans l'action ou la communication de l'ordinateur). Les voitures sans conducteur doivent fonctionner en temps réel et les modèles actuels ne peuvent pas générer de réponses assez rapidement. L'exécution des LLM nécessite également une puissance de traitement et une mémoire importantes, ce qui entre en conflit avec les contraintes matérielles limitées des véhicules.

De nombreux efforts de recherche sont actuellement consacrés à l’optimisation des LLM pour une utilisation dans les véhicules. Il faudra attendre quelques années avant de voir des véhicules commerciaux autonomes dotés d’un raisonnement de bon sens circuler dans les rues.

L’avenir de la conduite autonome s’annonce toutefois prometteur. Les modèles d’IA dotés de capacités linguistiques constituent une alternative solide au paradigme « sens-pensée-action », qui approche de ses limites.

Les LLM sont largement considérés comme la clé pour obtenir des véhicules capables de raisonner et de se comporter davantage comme des humains. Cette avancée est cruciale, sachant qu'environ 1,19 million de personnes meurent chaque année à cause d'accidents de la route.

Les accidents de la route sont la principale cause de décès chez les enfants et les jeunes adultes âgés de 5 à 29 ans. Le développement de véhicules autonomes dotés d’un raisonnement proche de celui des humains pourrait réduire considérablement ces chiffres, sauvant ainsi d’innombrables vies.