Mettre la vision de l'IA dans une meilleure mise au point avec la méthode qui imite le traitement humain

La vision de l'IA d'aujourd'hui est efficace pour reconnaître les images simples isolément, comme les bâtiments, les voitures et les personnes. Mais quand il est appelé à identifier un terrain plus complexe, sa précision devient discutable. C'est l'un des défis auxquels la technologie des voitures est confrontée. Les systèmes visuels de l'IA doivent repérer correctement les bâtiments, les voitures et les personnes – tout en même temps et dans un environnement fluide, comme une intersection animée.

« Pouvons-nous développer un algorithme d'apprentissage qui peut gérer directement les données provenant de ce que nous expérimentons – opposée à la simple reconnaissance des images simples sur un écran d'ordinateur? » demande à Mengye Ren, professeur adjoint au NYU's Courant Institute of Mathematical Sciences et au Center for Data Science.

Ren et ses collègues construisent un algorithme qui ferait exactement cela, permettant aux systèmes d'IA d'apprendre de leur environnement – une rue, un océan ou même une autre planète – afin d'identifier efficacement son environnement.

Leur méthode, Poodle, s'inspire de la façon dont les humains et les animaux traitent les scènes encombrées. Il capture à la fois les images de premier plan (par exemple, les piétons traversant la rue) et les images d'arrière-plan (rues croisées distantes) en utilisant le « flux optique » – l'information sur la façon dont les pixels se déplacent entre les cadres vidéo. Ce processus permet d'identifier les régions appariées contenant le même objet à travers le temps, comme un piéton passant du trottoir vers un passage pour piétons et en continuant dans une rue bondée.

« Poodle combine le meilleur des outils de vision de l'IA existants en reconnaissant à la fois les grands et les petits objets », explique Mengye Ren, professeur adjoint au NYU's Courant Institute of Mathematical Sciences et Center for Data Science. « Notre objectif est de continuer à améliorer cet outil afin qu'il puisse percevoir divers objets dans une scène – des cordes, des routes, des feux de circulation, des cyclistes, etc.