Le co-apprentissage pour améliorer la conduite autonome

Les voitures autonomes sont à la fois fascinantes et effrayantes, car elles doivent évaluer avec précision et naviguer dans un environnement en évolution rapide. La vision par ordinateur, qui utilise le calcul pour extraire des informations à partir d’images, est un aspect important de la conduite autonome, avec des tâches allant du niveau bas, comme déterminer la distance entre un emplacement donné et le véhicule, au niveau supérieur, comme déterminer s’il y a un endroit donné. est un piéton sur la route.

Nathan Jacobs, professeur d’informatique et d’ingénierie à la McKelvey School of Engineering de l’Université Washington de St. Louis, et une équipe d’étudiants diplômés ont développé un cadre d’apprentissage commun pour optimiser deux tâches de bas niveau : la correspondance stéréo et le flux optique. La correspondance stéréo génère des cartes de disparités entre deux images et constitue une étape critique dans l’estimation de la profondeur pour éviter les obstacles. Le flux optique vise à estimer le mouvement par pixel entre les images vidéo et est utile pour estimer la façon dont les objets se déplacent ainsi que la façon dont la caméra se déplace par rapport à eux.

Les travaux de l’équipe sont publiés sur le arXiv serveur de préimpression.

En fin de compte, la correspondance stéréo et le flux optique visent tous deux à comprendre le déplacement des images au niveau des pixels et à utiliser ces informations pour capturer la profondeur et le mouvement d’une scène. L’approche de co-formation de l’équipe de Jacobs aborde simultanément les deux tâches, en tirant parti de leurs similitudes inhérentes. Le cadre, présenté par Jacobs le 23 novembre lors de la British Machine Vision Conference à Aberdeen, au Royaume-Uni, surpasse les méthodes comparables pour accomplir les tâches de correspondance stéréo et d’estimation du flux optique de manière isolée.

L’un des grands défis des modèles de formation pour ces tâches est l’acquisition de données de formation de haute qualité, ce qui peut être à la fois difficile et coûteux, a déclaré Jacobs. La méthode de l’équipe capitalise sur des méthodes efficaces de traduction d’image à image entre des images synthétiques générées par ordinateur et des domaines d’images réels. Cette approche permet à leur modèle d’exceller dans des scénarios du monde réel tout en s’entraînant uniquement sur des informations de vérité sur le terrain provenant d’images synthétiques.

« Notre approche surmonte l’un des défis importants en matière de flux optique et de stéréo, en obtenant une vérité terrain précise », a déclaré Jacobs. « Comme nous pouvons obtenir de nombreuses données d’entraînement simulées, nous obtenons des modèles plus précis que l’entraînement uniquement sur les ensembles de données d’images réelles étiquetées disponibles. Des estimations de flux stéréo et optiques plus précises réduisent les erreurs qui, autrement, se propageraient dans le reste du pipeline de conduite autonome. système, comme l’évitement d’obstacles.