Les chercheurs enseignent à l'IA pour voir plus comme des humains

À l'Université Brown, un nouveau projet innovant révèle que l'enseignement de l'intelligence artificielle pour percevoir les choses plus comme les gens peut commencer par quelque chose d'aussi simple qu'un jeu. Le projet invite les participants à jouer à un jeu en ligne appelé Click Me, ce qui aide les modèles d'IA à apprendre comment les gens voient et interprétent les images. Bien que le jeu soit amusant et accessible, son objectif est plus ambitieux: comprendre les causes profondes des erreurs d'IA et améliorer systématiquement la façon dont les systèmes d'IA représentent le monde visuel.

Au cours de la dernière décennie, les systèmes d'IA sont devenus plus puissants et largement utilisés, en particulier dans les tâches comme la reconnaissance des images. Par exemple, ces systèmes peuvent identifier les animaux, les objets ou diagnostiquer les conditions médicales des images. Cependant, ils font parfois des erreurs que les humains font rarement.

Par exemple, un algorithme d'IA pourrait étiqueter en toute confiance une photo d'un chien portant des lunettes de soleil comme un animal complètement différent ou ne pas reconnaître un panneau d'arrêt s'il est partiellement couvert par des graffitis. À mesure que ces modèles deviennent plus grands et plus complexes, ces types d'erreurs deviennent plus fréquents, révélant un écart croissant entre la façon dont l'IA et les humains perçoivent le monde.

Reconnaissant ce défi, les chercheurs proposent de combiner des idées de la psychologie et des neurosciences avec l'apprentissage automatique pour créer la prochaine génération d'IA alignée sur l'homme. Leur objectif est de comprendre comment les gens traitent les informations visuelles et de traduire ces modèles en algorithmes qui guident les systèmes d'IA pour agir de manière similaire.

Le jeu Click Me joue un rôle central dans cette vision. Dans le jeu, les participants cliquent sur des parties d'une image qui, selon eux, seront les plus informatives pour l'IA de reconnaître. L'IA ne voit que les parties de l'image qui ont été cliquées. Par conséquent, les joueurs sont encouragés à réfléchir stratégiquement aux parties les plus informatives de l'image plutôt que de cliquer au hasard pour maximiser l'apprentissage de l'IA.

L'alignement de l'IA-humain se produit à un stade ultérieur, au cours duquel l'IA est formé pour classer les images. Dans cette procédure « harmonisation neurale », les chercheurs forcent l'IA à se concentrer sur les mêmes caractéristiques d'image que les humains avaient identifiées – celles qui ont cliqué pendant le jeu – pour s'assurer que sa stratégie de reconnaissance visuelle s'aligne sur celle des humains.

Ce qui rend ce projet particulièrement remarquable, c'est à quel point il a réussi à engager le public. L'équipe a attiré des milliers de personnes pour participer à Click Me, l'aider à attirer l'attention sur des plateformes comme Reddit et Instagram, et générer des dizaines de millions d'interactions avec le site Web pour aider à former le modèle d'IA. Ce type de participation publique à grande échelle permet à l'équipe de recherche de collecter rapidement des données sur la façon dont les gens perçoivent et évaluent les informations visuelles.

Dans le même temps, l'équipe a également développé un nouveau cadre informatique pour former des modèles d'IA en utilisant ce type de données comportementales. En alignant les temps de réponse de l'IA et les choix avec ceux des humains, les chercheurs peuvent construire des systèmes qui ne correspondent pas seulement à ce que les humains décident, mais aussi combien de temps ils prennent pour décider. Cela conduit à un processus décisionnel plus naturel et interprétable.

Les applications pratiques de ce travail sont variées. En médecine, par exemple, les médecins doivent comprendre et faire confiance aux outils d'IA qui aident aux diagnostics. Si les systèmes d'IA peuvent expliquer leurs conclusions d'une manière qui correspond à un raisonnement humain, ils deviennent plus fiables et plus faciles à intégrer aux soins.

De même, dans les voitures autonomes, l'IA qui comprend mieux comment les humains prennent des décisions visuelles peuvent aider à prédire le comportement du conducteur et à prévenir les accidents. Au-delà de ces exemples, l'IA alignée sur l'homme pourrait améliorer les outils d'accessibilité, les logiciels éducatifs et l'aide à la décision dans de nombreuses industries. Surtout, ce travail met également en lumière le fonctionnement du cerveau humain.

En émulant la vision humaine dans les systèmes d'IA, les chercheurs ont pu développer des modèles plus précis de perception visuelle humaine que précédemment.

Cette initiative souligne pourquoi le soutien fédéral à la recherche fondamentale est important. Grâce à l'investissement de NSF, les chercheurs font progresser la science de l'IA et sa pertinence pour la société. La recherche repousse non seulement les limites des connaissances, mais offre également des outils pratiques qui peuvent améliorer la sécurité et la fiabilité des technologies que nous utilisons quotidiennement.