Des chercheurs testent la capacité des systèmes d'IA à résoudre l'énigme des connexions du New York Times

L’intelligence artificielle (IA) peut-elle rivaliser avec les compétences humaines pour trouver des liens obscurs entre les mots ? Des chercheurs de la NYU Tandon School of Engineering se sont tournés vers le casse-tête quotidien Connections du New York Times pour le découvrir.

Connections propose aux joueurs cinq tentatives pour regrouper 16 mots en quatre ensembles de quatre liés thématiquement, passant de groupes « simples » généralement connectés par des définitions simples à des groupes « délicats » reflétant des associations de mots abstraits nécessitant une réflexion non conventionnelle.

Dans une étude qui sera présentée à la conférence IEEE 2024 sur les jeux, qui se tiendra à Milan, en Italie, du 5 au 8 août, les chercheurs ont étudié si les systèmes modernes de traitement du langage naturel (NLP) pouvaient résoudre ces énigmes basées sur le langage. Les résultats sont également publiés sur le arXiv serveur de préimpression.

Avec Julian Togelius, professeur agrégé d'informatique et d'ingénierie (CSE) à NYU Tandon et directeur du Game Innovation Lab, en tant qu'auteur principal de l'étude, l'équipe a exploré deux approches d'IA. Le premier a exploité GPT-3.5 et GPT-4, récemment publiés, de puissants grands modèles de langage (LLM) d'OpenAI, capables de comprendre et de générer un langage de type humain.

La deuxième approche utilisait des modèles d'incorporation de phrases, à savoir BERT, RoBERTa, MPNet et MiniLM, qui codent les informations sémantiques sous forme de représentations vectorielles mais ne disposent pas de la compréhension complète du langage et des capacités de génération des LLM.

Les résultats ont montré que même si tous les systèmes d’IA pouvaient résoudre certaines énigmes de Connections, la tâche restait globalement difficile. GPT-4 a résolu environ 29 % des énigmes, ce qui est nettement meilleur que les méthodes d'intégration et GPT-3.5, mais loin de maîtriser le jeu. Notamment, les modèles reflétaient la performance humaine en trouvant les niveaux de difficulté alignés avec la catégorisation du puzzle de « simple » à « délicat ».

« Les LLM sont de plus en plus répandus et rechercher leurs échecs dans le contexte du casse-tête des connexions peut révéler des limites dans la manière dont ils traitent les informations sémantiques », a déclaré Graham Todd, Ph.D. étudiant au Game Innovation Lab qui est l’auteur principal de l’étude.

Les chercheurs ont découvert que le fait d’inciter explicitement GPT-4 à raisonner les énigmes étape par étape augmentait considérablement ses performances, pour atteindre un peu plus de 39 % des énigmes résolues.

« Nos recherches confirment des travaux antérieurs montrant que ce type de « chaîne de pensée » peut amener les modèles de langage à penser de manière plus structurée », a déclaré Timothy Merino, Ph.D. étudiant au Game Innovation Lab qui est l’auteur de l’étude. « Demander aux modèles de langage de raisonner sur les tâches qu'ils accomplissent les aide à mieux performer. »

Au-delà de l’analyse comparative des capacités de l’IA, les chercheurs étudient si des modèles tels que GPT-4 pourraient aider les humains à générer de nouveaux puzzles de mots à partir de zéro. Cette tâche créative pourrait repousser les limites de la manière dont les systèmes d’apprentissage automatique représentent les concepts et font des inférences contextuelles.

Les chercheurs ont mené leurs expériences avec un ensemble de données de 250 puzzles provenant d’une archive en ligne représentant des puzzles quotidiens du 12 juin 2023 au 16 février 2024.

Avec Togelius, Todd et Merino, Sam Earle, titulaire d'un doctorat. étudiant au Game Innovation Lab, faisait également partie de l’équipe de recherche. L'étude contribue au corpus de travaux de Togelius qui utilise l'IA pour améliorer les jeux et vice versa. Togelius est l'auteur du livre 2019 Playing Smart: On Games, Intelligence, and Artificial Intelligence.