Les véhicules autonomes pourraient mieux comprendre leurs passagers grâce à ChatGPT, selon une étude
Imaginez que vous dites simplement à votre véhicule : « Je suis pressé » et il vous emmène automatiquement sur l'itinéraire le plus efficace vers l'endroit où vous devez être.
Des ingénieurs de l'Université Purdue ont découvert qu'un véhicule autonome (VA) peut le faire avec l'aide de ChatGPT ou d'autres chatbots rendus possibles par des algorithmes d'intelligence artificielle appelés grands modèles de langage.
L'étude, qui apparaît sur le serveur de pré-impression arXivdoit être présenté le 25 septembre à la 27e Conférence internationale de l'IEEE sur les systèmes de transport intelligents. Il pourrait s'agir de l'une des premières expériences testant la capacité d'un véritable véhicule autonome à utiliser de grands modèles de langage pour interpréter les commandes d'un passager et conduire en conséquence.
Ziran Wang, professeur adjoint à la Lyles School of Civil and Construction Engineering de l'université Purdue qui a dirigé l'étude, estime que pour que les véhicules soient un jour totalement autonomes, ils devront comprendre tout ce que leurs passagers leur ordonnent, même lorsque cette commande est implicite. Un chauffeur de taxi, par exemple, saurait ce dont vous avez besoin lorsque vous dites que vous êtes pressé sans que vous ayez à lui préciser l'itinéraire à suivre pour éviter le trafic.
Bien que les AV actuels soient dotés de fonctionnalités qui vous permettent de communiquer avec eux, ils nécessitent que vous soyez plus clair que si vous parliez à un humain. En revanche, les grands modèles linguistiques peuvent interpréter et donner des réponses d'une manière plus humaine, car ils sont formés pour établir des relations à partir d'énormes quantités de données textuelles et continuent d'apprendre au fil du temps.
« Les systèmes classiques de nos véhicules sont dotés d'une interface utilisateur dans laquelle il faut appuyer sur des boutons pour transmettre ce que l'on veut, ou d'un système de reconnaissance audio qui exige que l'on parle de manière très explicite pour que le véhicule puisse nous comprendre », a déclaré Wang. « Mais la puissance des grands modèles linguistiques réside dans le fait qu'ils peuvent comprendre plus naturellement toutes sortes de choses que vous dites. Je ne pense pas qu'aucun autre système existant puisse faire cela. »
Mener un nouveau type d’étude
Dans cette étude, les grands modèles de langage n'ont pas piloté un véhicule autonome. Au lieu de cela, ils ont assisté la conduite du véhicule autonome en utilisant ses fonctionnalités existantes. Wang et ses étudiants ont découvert qu'en intégrant ces modèles, un véhicule autonome pouvait non seulement mieux comprendre son passager, mais aussi personnaliser sa conduite pour sa satisfaction.
Avant de commencer leurs expériences, les chercheurs ont entraîné ChatGPT avec des commandes allant de commandes plus directes (par exemple, « Conduisez plus vite ») à des commandes plus indirectes (par exemple, « J'ai un peu le mal des transports en ce moment »). Au fur et à mesure que ChatGPT apprenait à répondre à ces commandes, les chercheurs ont donné à ses grands modèles de langage des paramètres à suivre, lui demandant de prendre en compte les règles de circulation, les conditions routières, la météo et d'autres informations détectées par les capteurs du véhicule, comme les caméras et la détection et la télémétrie par la lumière.
Les chercheurs ont ensuite rendu ces grands modèles de langage accessibles via le cloud à un véhicule expérimental doté d'une autonomie de niveau 4 telle que définie par SAE International. Le niveau 4 est un niveau éloigné de ce que l'industrie considère comme un véhicule entièrement autonome.
Lorsque le système de reconnaissance vocale du véhicule détectait une commande d'un passager au cours des expériences, les grands modèles linguistiques du cloud raisonnaient sur la commande à l'aide des paramètres définis par les chercheurs. Ces modèles généraient ensuite des instructions pour le système de commande électrique du véhicule (qui est connecté à l'accélérateur, aux freins, aux vitesses et à la direction) concernant la conduite en fonction de cette commande.
Pour certaines expériences, l'équipe de Wang a également testé un module de mémoire qu'ils avaient installé dans le système et qui permettait aux grands modèles linguistiques de stocker des données sur les préférences historiques du passager et d'apprendre à les prendre en compte dans une réponse à une commande.
Les chercheurs ont mené la plupart des expériences sur un terrain d'essai à Columbus, dans l'Indiana, qui était auparavant une piste d'atterrissage d'aéroport. Cet environnement leur a permis de tester en toute sécurité les réponses du véhicule aux commandes d'un passager tout en roulant à vitesse d'autoroute sur la piste et en franchissant des intersections à double sens. Ils ont également testé la capacité du véhicule à se garer conformément aux commandes d'un passager sur le parking du stade Ross-Ade de Purdue.
Les participants à l’étude ont utilisé à la fois les commandes que les grands modèles de langage avaient apprises et celles qui étaient nouvelles pendant le trajet dans le véhicule. D’après leurs réponses à l’enquête après leurs trajets, les participants ont exprimé un taux d’inconfort inférieur avec les décisions prises par le véhicule autonome par rapport aux données sur la façon dont les gens ont tendance à se sentir lorsqu’ils voyagent dans un véhicule autonome de niveau quatre sans l’aide des grands modèles de langage.
L'équipe a également comparé les performances du véhicule autonome à des valeurs de référence créées à partir de données sur ce que les gens considèrent en moyenne comme une conduite sûre et confortable, comme le temps accordé au véhicule pour réagir afin d'éviter une collision arrière et la rapidité avec laquelle le véhicule accélère et décélère. Les chercheurs ont constaté que le véhicule autonome de cette étude surpassait toutes les valeurs de référence lors de l'utilisation des grands modèles de langage pour conduire, même lorsqu'il répondait à des commandes que les modèles n'avaient pas encore apprises.
Orientations futures
Les grands modèles linguistiques de cette étude ont mis en moyenne 1,6 seconde pour traiter la commande d'un passager, ce qui est considéré comme acceptable dans les scénarios non critiques en termes de temps, mais devrait être amélioré dans les situations où un véhicule autonome doit réagir plus rapidement, a déclaré Wang. Il s'agit d'un problème qui affecte les grands modèles linguistiques en général et auquel s'attaquent l'industrie ainsi que les chercheurs universitaires.
Bien que ce ne soit pas le sujet de cette étude, on sait que les grands modèles de langage comme ChatGPT ont tendance à « halluciner », ce qui signifie qu'ils peuvent mal interpréter quelque chose qu'ils ont appris et réagir de manière incorrecte. L'étude de Wang a été menée dans une configuration avec un mécanisme de sécurité qui permettait aux participants de rouler en toute sécurité lorsque les grands modèles de langage comprenaient mal les commandes. Les modèles ont amélioré leur compréhension tout au long du trajet du participant, mais les hallucinations restent un problème qui doit être résolu avant que les fabricants de véhicules n'envisagent d'intégrer de grands modèles de langage dans les véhicules autonomes.
Les constructeurs automobiles devraient également effectuer davantage de tests avec des modèles de langage de grande taille, en plus des études menées par les chercheurs universitaires. Une approbation réglementaire serait également nécessaire pour intégrer ces modèles aux commandes du véhicule autonome afin qu'ils puissent réellement conduire le véhicule, a déclaré Wang.
Dans l’intervalle, Wang et ses étudiants continuent de mener des expériences qui pourraient aider l’industrie à explorer l’ajout de grands modèles linguistiques aux AV.
Depuis leur étude sur ChatGPT, les chercheurs ont évalué d'autres chatbots publics et privés basés sur de grands modèles linguistiques, tels que Gemini de Google et la série d'assistants Llama AI de Meta. Jusqu'à présent, ils ont constaté que ChatGPT obtenait les meilleurs résultats sur les indicateurs d'un trajet sûr et efficace en véhicule autonome. Les résultats seront publiés prochainement.
L’étape suivante consiste à déterminer s’il serait possible pour les grands modèles de langage de chaque véhicule autonome de communiquer entre eux, par exemple pour aider les véhicules autonomes à déterminer lequel doit passer en premier à un arrêt à quatre voies. Le laboratoire de Wang lance également un projet visant à étudier l’utilisation de grands modèles de vision pour aider les véhicules autonomes à conduire dans des conditions hivernales extrêmes, courantes dans tout le Midwest. Ces modèles ressemblent à de grands modèles de langage, mais formés sur des images plutôt que sur du texte.