Pourquoi les humains excellent à reconnaître les objets des fragments pendant que l'IA lutte

Une étude de l'EPFL révèle pourquoi les humains excellent dans la reconnaissance des objets des fragments tandis que l'IA lutte, mettant en évidence le rôle critique de l'intégration des contour dans la vision humaine.

Chaque jour, nous reconnaissons sans effort des amis dans une foule ou identifions des formes familières même si elles sont en partie cachées. Nos cerveaux rassemblent des fragments dans des objets entiers, remplissant les blancs pour donner un sens à un monde souvent chaotique.

Cette capacité est appelée «intégration de contour» et est quelque chose que même les systèmes d'IA les plus intelligents trouvent encore du mal à faire. Malgré les réalisations remarquables de l'intelligence artificielle dans la reconnaissance d'image, les AIS ont toujours du mal à généraliser à partir d'informations visuelles incomplètes ou brisées.

Lorsque les objets sont partiellement cachés, effacés ou divisés en fragments, la plupart des modèles d'IA faiblir, se classent mal ou abandonnent. Cela peut être un problème grave dans la vie réelle, étant donné notre dépendance croissante à l'égard de l'IA pour les applications du monde réel telles que les voitures autonomes, les prothèses et la robotique.

L'EPFL Neuroai Lab, dirigé par Martin Schrimpf, a décidé de comparer systématiquement comment les gens et l'IA gèrent les puzzles visuels. Ben Lönnqvist, étudiant diplômé d'Edne et auteur principal de l'étude, a collaboré avec le laboratoire de psychophysique de Michael Herzog pour développer une série de tests de reconnaissance où les humains et plus de 1 000 réseaux de neurones artificiels devaient identifier des objets avec des contours manquants ou fragmentés. Leurs résultats montrent que lorsqu'il s'agit de l'intégration des contour, les humains surpassent constamment l'IA de pointe et pourquoi.

La recherche a été présentée à la Conférence internationale sur l'apprentissage automatique (ICML 2025) tenue à Vancouver, du 13 au 19 juillet. Il est disponible sur le arxiv serveur de préimprimée.

L'équipe a mis en place un test de reconnaissance d'objets basé sur le laboratoire avec 50 bénévoles. Les participants ont vu des images d'articles de tous les jours tels que des tasses, des chapeaux, des casseroles, etc., dont les contours ont été systématiquement effacés ou divisés en segments. Parfois, seulement 35% des contours d'un objet sont restés visibles. En parallèle, l'équipe a donné la même tâche à plus de 1 000 modèles d'IA, y compris certains des systèmes les plus puissants disponibles.

L'expérience couvrait 20 conditions différentes, variant le type et la quantité d'informations visuelles. L'équipe a comparé les performances à travers ces conditions, mesurant la précision et analysant comment les humains et les machines ont réagi à des puzzles visuels de plus en plus difficiles.

Les humains se sont avérés remarquablement robustes, obligeant souvent une précision de 50% même lorsque la plupart des grandes lignes d'un objet manquaient. Les modèles d'IA, en revanche, avaient tendance à s'effondrer à une devinettes aléatoires dans les mêmes circonstances. Seuls les modèles formés sur des milliards d'images se sont rapprochés des performances de type humain – et même alors, ils devaient être spécifiquement adaptés aux images de l'étude.

En creusant plus profondément, les chercheurs ont constaté que les humains montrent une préférence naturelle pour reconnaître les objets lorsque des parties fragmentées pointent dans la même direction, que l'équipe a qualifiée de «biais d'intégration». Les modèles d'IA qui ont été formés pour développer un biais similaire ont mieux effectué lorsqu'ils sont mis au défi avec les distorsions d'image. Les systèmes d'IA de formation spécialement conçus pour l'intégration des contours ont augmenté leur précision et les ont également fait se concentrer davantage sur la forme d'un objet, plutôt que sur la texture de surface.

Ces résultats suggèrent que l'intégration des contour n'est pas un trait câblé mais peut plutôt être tiré de l'expérience. Pour les industries qui reposent sur la vision par ordinateur, comme les voitures autonomes ou l'imagerie médicale, construire une IA qui voit le monde plus comme nous pourrions signifier une technologie plus sûre et plus fiable.

Le travail montre également que la meilleure façon de combler l'écart n'est pas de bricoler l'architecture de l'IA, mais en donnant aux machines un régime visuel plus « de type humain », y compris plusieurs images du monde réel où les objets sont souvent en partie cachés.