Les chercheurs testent la fiabilité de l'IA en lui enseignant à jouer Sudoku

Des outils d'intelligence artificielle appelés modèles de grande langue (LLM), tels que le chatppt d'Openai ou les Gémeaux de Google, peuvent faire beaucoup ces jours-ci – dispenser des conseils relationnels, l'élaboration de textes pour vous retirer des obligations sociales et même écrire des articles scientifiques.

Mais peuvent-ils également résoudre votre Sudoku du matin?

Dans une nouvelle étude, une équipe d'informaticiens de l'Université du Colorado Boulder a décidé de le découvrir. Le groupe a créé près de 2 300 puzzles de Sudoku originaux, qui obligent les joueurs à saisir des numéros en grille en suivant certaines règles, puis ont demandé à plusieurs outils d'IA pour les remplir.

Les résultats étaient un sac mixte. Alors que certains des modèles d'IA pourraient résoudre des Sudokus faciles, même les meilleurs ont eu du mal à expliquer comment ils les ont résolus – donnant des descriptions brouillées, inexactes ou même surréalistes de la façon dont ils sont arrivés à leurs réponses. Les résultats soulèvent des questions sur la fiabilité des informations générées par l'IA, a déclaré la co-auteur de l'étude Maria Pacheco.

« Pour certains types de puzzles de Sudoku, la plupart des LLM sont encore en deçà, en particulier dans la production d'explications qui sont de quelque manière que ce soit utilisables pour les humains », a déclaré Pacheco, professeur adjoint au Département d'informatique. « Pourquoi a-t-il trouvé cette solution? Quelles sont les étapes que vous devez prendre pour y arriver? »

Elle et ses collègues ont publié leurs résultats Résultats de l'Association for Computational Linguistics.

Les chercheurs n'essaient pas de tricher dans des énigmes. Au lieu de cela, ils utilisent ces exercices logiques pour explorer comment les plateformes d'IA pensent. Les résultats pourraient un jour conduire à des programmes informatiques plus fiables et dignes de confiance, a déclaré le co-auteur de l'étude Fabio Somenzi, professeur au Département de génie électrique, informatique et énergétique.

« Les puzzles sont amusants, mais ils sont également un microcosme pour étudier le processus décisionnel dans l'apprentissage automatique », a-t-il déclaré. « Si vous avez une IA prépare vos impôts, vous voulez être en mesure d'expliquer à l'IRS pourquoi l'IA a écrit ce qu'il a écrit. »

Puzzle quotidien

Somenzi, qui est un fan autoproclamé de Sudoku, a noté que les puzzles puisent dans une façon de penser très humaine. Le remplissage d'une grille Sudoku nécessite des puzzlers à apprendre et à suivre un ensemble de règles logiques. Par exemple, vous ne pouvez pas entrer un deux dans un carré vide s'il y a déjà un deux dans la même ligne ou la même colonne.

Aujourd'hui, la plupart des LLM ont du mal à ce genre de réflexion, en grande partie à cause de la façon dont ils sont formés.

Pour construire Chatgpt, par exemple, les programmeurs ont d'abord nourri l'IA presque tout ce qui avait jamais été écrit sur Internet. Lorsque ChatGpt répond à une question, il prédit la réponse la plus probable en fonction de toutes ces données, presque comme une version informatique de la mémoire par cœur.

« Ce qu'ils font, c'est essentiellement prédire le mot suivant », a déclaré Pacheco. « Si vous avez le début d'une phrase, quel mot vient ensuite? Ils font cela en faisant référence à chaque phrase de la langue anglaise sur laquelle ils peuvent mettre la main. »

Pacheco, Somenzi et leurs collègues ont rejoint un effort croissant en informatique pour fusionner ces deux façons de penser – en combinant la mémoire d'un LLM avec la capacité de logique d'un cerveau humain, une poursuite connue sous le nom d'IA « neurosymbolique ».

Anirudh Maiya et Razan Alghamdi, tous deux anciens étudiants diplômés de Cu Boulder, étaient également co-auteurs du nouveau journal.

Quel temps fait-il?

Pour commencer, les chercheurs ont créé des puzzles Sudoku de difficultés variables en utilisant une grille de six par six (une version plus simple des puzzles neuf par neuf habitués en ligne).

Ils ont ensuite donné les puzzles à une série de modèles d'IA, y compris l'aperçu du modèle O1 d'Openai – qui, en 2023, a représenté l'état de l'art pour son genre de LLM.

Le modèle O1 a mené le pack, résolvant correctement environ 65% des puzzles de Sudoku. L'équipe a ensuite demandé aux plateformes de l'IA d'expliquer comment ils ont obtenu leurs réponses. C'est là que les résultats sont devenus vraiment sauvages.

« Parfois, les explications de l'IA ont inventé des faits », a déclaré Ashutosh Trivedi, co-auteur de l'étude et professeur agrégé d'informatique à Cu Boulder. « Il pourrait donc dire: » Il ne peut pas y en avoir deux ici parce qu'il y en a déjà deux dans la même rangée « , mais ce n'était pas le cas. »

Dans un exemple révélateur, les chercheurs parlaient à l'un des outils de l'IA sur la résolution de Sudoku lorsque, pour des raisons inconnues, il a répondu par des prévisions météorologiques.

« À ce moment-là, l'IA était devenue Berserk et était complètement confuse », a déclaré Somenzi.

Les chercheurs espèrent concevoir leur propre système d'IA qui peut tout faire – résoudre des puzzles compliqués et expliquer comment. Ils commencent par un autre type de puzzle appelé Hitori, qui – comme Sudoku – implique une grille de nombres.

« Les gens parlent des capacités émergentes de l'IA où ils finissent par pouvoir résoudre des choses que vous ne vous attendez pas à ce qu'elles résolvent », a déclaré Pacheco. « En même temps, il n'est pas surprenant qu'ils soient toujours mauvais dans beaucoup de tâches. »