Un chercheur en IA discute des avancées de la nouvelle version de ChatGPT en matière de mathématiques et de raisonnement
Le 12 septembre, OpenAI a annoncé un nouveau modèle ChatGPT qui, selon l'entreprise, est nettement meilleur en mathématiques et en sciences que les versions précédentes, qui peinaient à raisonner. Un modèle précédent n'avait obtenu qu'un score de 13 % à l'examen de qualification pour l'Olympiade internationale de mathématiques (la plus grande compétition de mathématiques au lycée). Le nouveau modèle, appelé « o1 », a porté ce score à 83 %.
Niloofar Mireshghallah, chercheur postdoctoral à l'Université de Washington à la Paul G. Allen School of Computer Science & Engineering, étudie les implications en matière de confidentialité et de société des grands modèles linguistiques, tels que ChatGPT.
UW News s'est entretenu avec elle sur les raisons pour lesquelles les mathématiques et le raisonnement ont tant mis au défi ces modèles d'intelligence artificielle et sur ce que le public devrait savoir sur la nouvelle version d'OpenAI.
ChatGPT et d'autres LLM fonctionnent en prédisant avec une grande fluidité quel mot vient ensuite. Pourquoi les mathématiques et le raisonnement sont-ils si difficiles pour les LLM ?
Il y a deux raisons principales à cela. La première est qu'il est difficile de « comprendre » les règles et les principes lorsque le modèle fait des prédictions sur le mot suivant. Il faut faire des allers-retours et déduire pour faire des mathématiques. En ce qui concerne le raisonnement plus logique ou de bon sens, une autre raison de la difficulté est que, comme le dit mon conseiller Yejin Choi, le bon sens est comme la matière noire. Elle est là, mais nous ne la voyons pas et ne la disons pas.
Nous savons que la porte du réfrigérateur ne doit pas rester ouverte, mais il existe peu de textes qui le précisent. S'il n'y a pas de texte pour quelque chose, les modèles ne le remarqueront pas. Il en va de même pour les normes sociales ou d'autres formes de raisonnement !
Jakub Pachocki, scientifique en chef d'OpenAI, a déclaré à la Le New York Times« Ce modèle peut prendre son temps. Il peut réfléchir au problème – en anglais – et essayer de le décomposer et de chercher des angles pour tenter de fournir la meilleure réponse. » Est-ce un grand changement ? Ce nouveau modèle se rapproche-t-il davantage de la « réflexion » ?
Cette approche consistant à « prendre son temps » est une simplification de ce qui se passe, que nous appelons « calcul au moment du test ». Jusqu’à présent, les grandes entreprises faisaient évoluer les modèles en évaluant à la fois les modèles et les données d’entraînement. Mais les entreprises ont peut-être atteint un point de saturation à ce niveau, c’est-à-dire qu’il n’y a plus de données de pré-entraînement et que l’évaluation des modèles ne nous aide pas beaucoup plus.
Cet investissement en temps de test aide le modèle à faire du raisonnement interne, afin qu'il puisse essayer de décomposer les problèmes et de faire plusieurs itérations. C'est ce qu'on appelle le raisonnement par chaîne de pensée, qui revient à montrer votre travail dans un problème de mathématiques, mais pour des tâches de langage et de réflexion. Au lieu de simplement donner une réponse finale, l'IA travaille étape par étape, en écrivant chaque étape de son processus de raisonnement.
Imaginez qu'on vous demande de résoudre un problème écrit : « Si Sally a 3 pommes et en donne 2 à son amie, combien lui en reste-t-il ? » Une réponse normale de l'IA pourrait simplement dire : « 1 pomme ».
Mais avec un raisonnement par chaîne de pensée, cela ressemblerait davantage à ceci :
- Sally commence avec 3 pommes
- Elle donne 2 pommes
- Pour savoir combien il en reste, on soustrait : 3–2 = 1
- Il reste donc 1 pomme à Sally.
Ce processus étape par étape est utile de plusieurs manières : il rend le raisonnement de l'IA plus transparent, ce qui nous permet de voir comment elle est arrivée à sa réponse et, en cas d'erreur, de potentiellement repérer où les choses ont mal tourné.
Le raisonnement par chaîne de pensée est particulièrement utile pour les tâches plus complexes, telles que répondre à des questions en plusieurs étapes, résoudre des problèmes mathématiques ou analyser des situations qui nécessitent plusieurs étapes logiques.
En un sens, le modèle peut tester sa propre réponse, au lieu de simplement prédire le mot suivant. Auparavant, un problème était que si un modèle prédisait un mot de manière erronée, il devait en quelque sorte s'engager, et il était déraillé car toutes ses prédictions suivantes étaient basées en partie sur cette prédiction erronée.
Cette forme de raisonnement par chaîne de pensée et de génération de réponses est la procédure la plus proche de la pensée humaine dont nous disposons jusqu'à présent. Nous ne savons pas exactement comment fonctionne ce raisonnement interne, mais le modèle peut désormais prendre le temps de tester sa propre réponse.
Les chercheurs ont montré que les modèles détectent leurs propres erreurs et classent leurs propres réponses lorsqu'on leur propose plusieurs choix. Par exemple, dans un article récent [posted to the arXiv preprint server]nous avons montré que les LLM gâcheraient les surprises d'anniversaire en générant une réponse, mais lorsqu'on leur demandait si leur réponse était appropriée, ils se rendaient compte de l'erreur. Cet auto-test peut donc aider le modèle à trouver une réponse plus logique.
Que devraient savoir les gens et à quoi devraient-ils prêter attention lorsque les entreprises annoncent de nouveaux modèles d’IA comme celui-ci ?
Je pense qu'il faut faire attention à vérifier les résultats du modèle et à ne pas se laisser tromper par le fait que le modèle « réfléchit » et prend son temps. Oui, nous obtenons de meilleures réponses, mais il existe encore des modes d'échec.