Les alternatives "ouvertes" à ChatGPT sont en augmentation, mais à quel point l'IA est-elle vraiment ouverte ?

Pourquoi OpenAI développe une intelligence artificielle bonne en mathématiques est si important

Avec le récent limogeage et la réembauche rapide de Sam Altman par OpenAI, les débats autour du développement et de l’utilisation de l’intelligence artificielle (IA) sont à nouveau sous le feu des projecteurs. Ce qui est plus inhabituel, c’est qu’un thème important dans les reportages médiatiques a été la capacité des systèmes d’IA à faire des mathématiques.

Apparemment, une partie du drame chez OpenAI était liée au développement par la société d’un nouvel algorithme d’IA appelé Q*. Le système a été considéré comme une avancée significative et l’une de ses caractéristiques principales était sa capacité à raisonner mathématiquement.

Mais les mathématiques ne sont-elles pas le fondement de l’IA ? Comment un système d’IA pourrait-il avoir des difficultés avec le raisonnement mathématique, étant donné que les ordinateurs et les calculatrices peuvent effectuer des tâches mathématiques ?

L’IA n’est pas une entité unique. Il s’agit d’un ensemble de stratégies permettant d’effectuer des calculs sans instruction directe de la part des humains. Comme nous le verrons, certains systèmes d’IA sont compétents en mathématiques.

Cependant, l’une des technologies actuelles les plus importantes, les grands modèles de langage (LLM) derrière les chatbots IA tels que ChatGPT, a eu du mal jusqu’à présent à imiter le raisonnement mathématique. C’est parce qu’ils ont été conçus pour se concentrer sur la langue.

Si le nouvel algorithme Q* de la société peut résoudre des problèmes mathématiques inédits, cela pourrait bien constituer une avancée majeure. Les mathématiques sont une forme ancienne de raisonnement humain que les grands modèles linguistiques (LLM) ont jusqu’à présent eu du mal à imiter. Les LLM sont la technologie qui sous-tend des systèmes tels que ChatGPT d’OpenAI.

Au moment de la rédaction de cet article, les détails de l’algorithme Q* et de ses capacités sont limités, mais très intrigants. Il y a donc diverses subtilités à considérer avant de considérer Q* comme un succès.

Par exemple, les mathématiques sont une matière dans laquelle tout le monde s’engage à des degrés divers, et le niveau de mathématiques pour lequel Q* est compétent reste flou. Cependant, des travaux universitaires publiés utilisent des formes alternatives d’IA pour faire progresser les mathématiques au niveau de la recherche (y compris certains écrits par moi-même et un rédigé par une équipe de mathématiciens en collaboration avec des chercheurs de Google DeepMind).

Ces systèmes d’IA pourraient être décrits comme compétents en mathématiques. Cependant, il est probable que Q* ne soit pas utilisé pour aider les universitaires dans leur travail, mais plutôt dans un autre but.

Néanmoins, même si Q* est incapable de repousser les limites de la recherche de pointe, il est très probable que la manière dont il a été construit présente une signification qui pourrait ouvrir des opportunités alléchantes pour un développement futur.

De plus en plus confortable

En tant que société, nous sommes de plus en plus à l’aise avec l’utilisation de l’IA spécialisée pour résoudre des types de problèmes prédéterminés. Par exemple, les assistants numériques, la reconnaissance faciale et les systèmes de recommandation en ligne seront familiers à la plupart des gens. Ce qui reste insaisissable est ce que l’on appelle « l’intelligence générale artificielle » (IAG) qui possède de larges capacités de raisonnement comparables à celles d’un humain.

Les mathématiques sont une compétence de base que nous aspirons à enseigner à chaque écolier et constitueraient sûrement une étape fondamentale dans la recherche de l’AGI. Alors, comment des systèmes d’IA mathématiquement compétents pourraient-ils aider la société ?

La mentalité mathématique est pertinente pour une multitude d’applications, par exemple le codage et l’ingénierie, et le raisonnement mathématique est donc une compétence transférable vitale pour l’intelligence humaine et artificielle. L’ironie est que l’IA est, à un niveau fondamental, basée sur les mathématiques.

Par exemple, de nombreuses techniques mises en œuvre par les algorithmes d’IA se résument en fin de compte à un domaine mathématique connu sous le nom d’algèbre matricielle. Une matrice est simplement une grille de nombres, dont une image numérique est un exemple familier. Chaque pixel n’est rien de plus qu’une donnée numérique.

Les grands modèles de langage sont également intrinsèquement mathématiques. Sur la base d’un énorme échantillon de texte, une machine peut apprendre les probabilités des mots les plus susceptibles de suivre une invite (ou une question) de l’utilisateur au chatbot. Si vous souhaitez qu’un LLM pré-formé se spécialise dans un sujet particulier, il peut alors être affiné sur la littérature mathématique ou sur tout autre domaine d’apprentissage. Un LLM peut générer un texte qui se lit comme s’il comprenait les mathématiques.

Malheureusement, cela produit un LLM qui est bon en bluff, mais mauvais en détail. Le problème est qu’un énoncé mathématique est, par définition, un énoncé auquel on peut attribuer une valeur booléenne sans ambiguïté (c’est-à-dire vrai ou faux). Le raisonnement mathématique revient à la déduction logique de nouveaux énoncés mathématiques à partir de ceux précédemment établis.

l’avocat du diable

Naturellement, toute approche du raisonnement mathématique qui s’appuie sur des probabilités linguistiques va sortir de sa voie. Une façon de contourner ce problème pourrait être d’incorporer un système de vérification formelle dans l’architecture (exactement la façon dont le LLM est construit), qui vérifie en permanence la logique derrière les sauts réalisés par le grand modèle de langage.

Un indice que cela a été fait pourrait être dans le nom Q*, qui pourrait vraisemblablement faire référence à un algorithme développé dans les années 1970 pour faciliter le raisonnement déductif. Alternativement, Q* pourrait faire référence au Q-learning, dans lequel un modèle peut s’améliorer au fil du temps en testant et en récompensant les conclusions correctes.

Mais il existe plusieurs défis à relever pour construire des IA mathématiquement capables. Par exemple, certaines des mathématiques les plus intéressantes concernent des événements hautement improbables. Il existe de nombreuses situations dans lesquelles on peut penser qu’il existe une tendance basée sur de petits nombres, mais elle s’effondre de manière inattendue lorsque l’on vérifie suffisamment de cas. Cette capacité est difficile à intégrer dans une machine.

Un autre défi peut surprendre : la recherche mathématique peut être extrêmement créative. Il le faut, car les praticiens doivent inventer de nouveaux concepts tout en s’en tenant aux règles formelles d’un sujet ancien.

Toute méthodologie d’IA entraînée uniquement à trouver des modèles dans des mathématiques préexistantes ne pourrait probablement jamais créer de véritables mathématiques nouvelles. Étant donné le lien entre les mathématiques et la technologie, cela semble exclure la conception de nouvelles révolutions technologiques.

Mais jouons un instant l’avocat du diable et imaginons si l’IA pourrait effectivement créer de nouvelles mathématiques. L’argument précédent contre cela présente un défaut, dans la mesure où on pourrait également dire que les meilleurs mathématiciens humains ont également été formés exclusivement sur des mathématiques préexistantes. Les grands modèles de langage nous ont déjà surpris et le feront encore.