Un cadre en deux étapes pour améliorer la détection des anomalies et la planification réactive basées sur LLM

Un cadre en deux étapes pour améliorer la détection des anomalies et la planification réactive basées sur LLM

Les grands modèles de langage (LLM), tels que ChatGPT d'OpenAI, sont connus pour être très efficaces pour répondre à un large éventail de requêtes des utilisateurs, et se généralisent bien à de nombreuses tâches de traitement du langage naturel (NLP). Récemment, certaines études ont également exploré le potentiel de ces modèles pour détecter et atténuer les défaillances des systèmes robotiques.

Des chercheurs de l’Université de Stanford et de NVIDIA ont récemment présenté un nouveau cadre en deux étapes qui pourrait faciliter l’utilisation des LLM pour détecter les anomalies du système et planifier des actions robotiques en temps réel.

Cette approche, présentée dans un article qui a remporté le prix du meilleur article lors de la conférence Robotics: Science and Systems (RSS 2024), pourrait améliorer considérablement la fiabilité de divers systèmes robotiques, y compris les véhicules autonomes. Les travaux sont disponibles sur le site arXiv serveur de préimpression.

« Cette ligne de travail a commencé lorsque nous sommes tombés sur des exemples de modes de défaillance réels de véhicules autonomes, comme le cas d'une voiture autonome qui est confondue par un ensemble de feux de circulation transportés par un camion ou un cas où une voiture autonome s'est arrêtée sur l'autoroute parce qu'elle est passée devant un panneau d'affichage avec l'image d'un panneau d'arrêt dessus », a déclaré Rohan Sinha, co-auteur de l'article, à Tech Xplore.

« De tels exemples sont souvent appelés entrées hors distribution (OOD), des cas particuliers rares qui diffèrent considérablement des données sur lesquelles les AV sont formés. »

Dans le cadre de leurs études précédentes, Sinha et ses collaborateurs ont identifié des défaillances OOD qui entravent encore les performances des véhicules autonomes. Ils ont ensuite cherché à déterminer dans quelle mesure les méthodes de détection OOD existantes pourraient détecter ces défaillances.

« Par exemple, les méthodes existantes qui suivent la nouveauté visuelle ont eu du mal à détecter ces cas particuliers, car voir des panneaux d'arrêt, des panneaux d'affichage ou des objets similaires n'est pas visuellement nouveau par rapport aux données de formation, ce n'est qu'une fois que de tels objets apparaissent sur des panneaux d'affichage qu'ils deviennent anormaux », a déclaré Sinha.

« De plus, nous avons constaté que ces types de modes de défaillance ne sont pas faciles à attribuer à une défaillance d'un composant spécifique (par exemple, un système de perception), mais reflètent plutôt des déficiences au niveau du système dans le raisonnement contextuel. Cela les rend difficiles à détecter avec les techniques de surveillance au niveau des composants existantes. »

Dans un article publié en 2023, les chercheurs ont démontré le potentiel des LLM pour détecter et comprendre ces « anomalies sémantiques ». Mais pour utiliser efficacement ces modèles afin d'éviter les pannes OOD affectant les robots autonomes, ils ont d'abord dû surmonter deux défis de recherche majeurs.

« Tout d’abord, nous avons dû atténuer les coûts de calcul des LLM pour permettre une réactivité en temps réel : les meilleurs LLM sont très grands, ce qui les rend très lents, ce qui n’est pas très pratique pour un robot à déplacement rapide », a déclaré Sinha.

« Deuxièmement, nous devons intégrer des raisonneurs basés sur LLM dans le contrôle de robots dynamiques et agiles. L'objectif de notre article récent était de relever ces deux défis clés et de démontrer ainsi que les LLM peuvent augmenter considérablement la sécurité des robots autonomes. »

Comparés à d'autres modèles informatiques, les LLM peuvent être lents à traiter l'information. La principale raison en est que pour créer un nouveau texte, ils génèrent des jetons de manière autorégressive et individuelle. Pour générer un texte de type chaîne de pensée qui raisonne sur ce qu'un robot devrait faire (c'est-à-dire planifier les actions d'un robot), les modèles de transformateurs qui sous-tendent le LLM doivent donc prédire des centaines, voire des milliers de jetons un par un.

Un cadre en deux étapes pour améliorer la détection des anomalies et la planification réactive basées sur LLM

« Pour surmonter cette limitation, nous proposons un pipeline de raisonnement en deux étapes, où la première étape (rapide) exploite les sorties intermédiaires, une seule intégration résultant d'un seul passage direct à travers un modèle de transformateur, pour permettre une réactivité à faible latence », a expliqué Sinha.

« Dans la deuxième étape (lente), nous nous appuyons toujours sur l'ensemble des capacités de la chaîne de pensée génératrice des plus grands modèles pour prendre des décisions sans précédent sur des scénarios OOD qui n'ont jamais été enregistrés dans les données auparavant. »

Sinha et ses collègues ont d'abord créé une base de données de vecteurs d'intégration sémantique en utilisant un modèle LLM de base hors ligne et un ensemble de données existant d'expériences nominales. Au moment de l'exécution, le cadre de l'équipe intègre ce qu'un robot observe actuellement et calcule la similarité de l'intégration de l'observation à celles incluses dans l'ensemble de données d'intégration. Il s'agit de la première étape de leur modèle (c'est-à-dire l'étape rapide).

« Si l'observation est similaire aux observations précédentes, nous poursuivons avec les décisions prises par la pile d'autonomie de base », a déclaré Sinha. « Si l'observation est anormale, nous interrogeons un grand modèle pour déterminer quelle intervention de préservation de la sécurité prendre (étape 2 : lente). Nous avons associé ce cadre de raisonnement en deux étapes à un cadre de contrôle prédictif du modèle (MPC) qui planifie plusieurs replis et prend en compte la latence du raisonneur lent. »

Grâce à ces deux étapes, le framework permet à un robot de détecter rapidement une anomalie et de ralentir ses actions, afin qu'un modèle LLM puisse raisonner sur ce qui peut être fait pour atténuer les défaillances. Le plan adaptatif proposé par le LLM est ensuite exécuté par le robot.

Sinha et ses collègues ont évalué leur cadre proposé dans le cadre d'une série de tests et ont découvert qu'il pouvait améliorer la détection des anomalies et la planification réactive dans les systèmes robotiques autonomes. Il est à noter que leur approche s'est avérée plus performante que d'autres méthodes qui reposent uniquement sur le raisonnement génératif des LLM.

« Il est intéressant de constater que nous avons constaté que les modèles plus petits (par exemple, MPNet avec 110 millions de paramètres) peuvent tout aussi bien détecter les anomalies que les modèles plus grands (par exemple, Mistral 7B), » a déclaré Sinha. « Les détecteurs d'anomalies basés sur l'intégration sont vraiment efficaces pour détecter lorsque les observations diffèrent des expériences précédentes, alors que le raisonnement par chaîne de pensée à coup zéro avec de grands modèles est vraiment nécessaire pour déterminer la criticité de sécurité d'un scénario OOD et la solution de secours appropriée. »

Dans l’ensemble, les travaux récents de cette équipe de chercheurs suggèrent que le déploiement d’un raisonnement rapide et lent peut améliorer les performances et la praticité de l’utilisation des LLM pour les tâches de détection d’anomalies et de planification robotique. À l’avenir, leur cadre pourrait faciliter l’utilisation des LLM pour améliorer la robustesse des robots, contribuant potentiellement à l’amélioration de divers systèmes robotiques autonomes.

« Nos raisonneurs rapides fonctionnent en temps réel, environ 360 fois plus vite que l'interrogation de GPT-4, tandis que le raisonnement lent avec GPT-4 a atteint la plus grande précision pour déterminer les risques de sécurité des anomalies nuancées dans nos évaluations », a ajouté Sinha.

« Nous prévoyons désormais de continuer à développer ce cadre. Par exemple, nous prévoyons d'utiliser l'apprentissage continu basé sur l'évaluation des anomalies retardées du raisonneur génératif pour éviter de déclencher une deuxième fois le raisonneur lent sur des anomalies non critiques pour la sécurité. »