Le problème n°1196 d’Erdös n’était pas résolu depuis 60 ans. Un jeune homme y est parvenu en 80 minutes avec GPT-5.4
Il a 23 ans, il s’appelle Liam Price et il n’a aucune formation avancée en mathématiques. Malgré tout, il y a quelques jours, il a ouvert le site Web des problèmes d’Erdös, en a choisi un au hasard et l’a collé dans ChatGPT. Je ne connaissais pas l’historique du problème ni qui l’avait déjà essayé. Ce qu’il a reçu en retour semblait être une bonne solution, et après avoir consulté un ami qui étudiait les mathématiques, les deux hommes ont réalisé qu’ils étaient peut-être sur la bonne voie.
La résolution. Quelques heures plus tard, Terence Tao, l’un des mathématiciens les plus renommés au monde, confirmait que le problème n°1196 d’Erdös, une conjecture sur les ensembles primitifs d’entiers qui n’avait pas été résolue depuis 1966, avait une solution. J’avais trouvé GPT-5.4 Pro en seulement 80 minutes.
Pas comme ça. Ce problème analysait une question sur le comportement d’une somme mathématique particulière sur des ensembles primitifs, c’est-à-dire des ensembles d’entiers où aucun ne divise l’autre, lorsque ces nombres deviennent très grands. Jared Lichtman, un mathématicien de Stanford, avait passé des années sur le problème et avait fait des progrès partiels, mais lui et ceux qui avaient essayé auparavant partaient du même point de départ, ce qui semblait être la bonne voie.
Une idée originale. GPT-5.4 a utilisé un autre point de départ. Il est resté dans le domaine de l’airmétique et a utilisé une fonction spéciale appelée fonction de von Mangoldt, un outil classique de la théorie des nombres connu pour ses liens avec les nombres premiers et la fonction zêta de Riemann. Personne n’avait pensé à cette approche du problème, et comme Lichtman l’a expliqué en parlant de la solution du modèle OpenAI, « Le LLM a emprunté une voie complètement différente ».
La réussite est réelle, mais avec des nuances. Litchman a fait l’éloge de la solution proposée par GPT-5.4, mais il y a un détail qui a été omis dans de nombreux commentaires sur cet événement : le résultat brut de ChatGPT était, selon les mots du mathématicien, « assez médiocre ». Cette solution a nécessité que plusieurs experts l’interprètent, la détaillent et en extraient l’idée sous-jacente qui a permis de résoudre la conjecture. Price ne savait pas qu’il avait la solution jusqu’à ce que son ami la lise, et il n’en était pas sûr jusqu’à ce que Tao la confirme. Le référentiel officiel des contributions de l’IA aux problèmes d’Erdös, maintenu par Tao lui-même sur GitHub, classe le résultat comme une solution générée dans le cadre d’une collaboration homme-IA, et non comme une solution développée uniquement par l’IA. La distinction est importante.
Un précédent scandale. Il y a quelques semaines, Sébastien Bubeck, chercheur chez OpenAI, a posté sur X que GPT-5 avait « résolu » plusieurs problèmes d’Erdös. Cette publication a dépassé les 100 000 vues, mais la communauté mathématique ainsi que celle entourant l’industrie de l’IA ont critiqué cette déclaration. Demis Hassabis, PDG de DeepMind, a qualifié cette déclaration de « honteuse ». En réalité, le modèle a trouvé des solutions à des problèmes déjà résolus sur le Web. Bubeck a fini par supprimer le tweet original et a tenté de revenir en arrière, mais tout cela a soulevé des doutes sur la validité de l’application de l’IA pour résoudre des problèmes mathématiques.
L’IA et le taux de réussite mathématique. Terence Tao et Nat Sothanaphan maintiennent le registre susmentionné de toutes les contributions de l’IA aux problèmes d’Erdös sur GitHub. Chacune des entrées de cette liste ou de ce tableau est classée par un feu de signalisation : vert pour une solution complète, jaune pour une progression partielle et rouge pour un échec. Dans la catégorie des solutions entièrement générées par l’IA et sans littérature antérieure connue, il y a trois feux de signalisation verts, quatorze jaunes et huit rouges. Cependant, le référentiel lui-même ajoute un commentaire unique : ceux qui tentent d’utiliser l’IA pour résoudre ces problèmes et échouent ne le signalent généralement pas, il est donc probable que l’IA ait été appliquée « silencieusement » à un grand nombre de ces problèmes sans succès, et ces tentatives n’apparaissent dans aucun tableau. Il y a ici un biais évident, car seuls les succès font la une des journaux.
Essayer de mesurer ce qui compte. En février 2026, onze mathématiciens créent l’initiative « First Proof ». Ils ont inclus dix problèmes mathématiques apparus naturellement dans leurs projets de recherche. Pour chacun, ils ont inclus des réponses cryptées téléchargées sur un site de vérification et ont donné aux systèmes d’IA une semaine pour tenter de résoudre les problèmes qui n’étaient jamais apparus dans aucun ensemble de données de formation. Les résultats préliminaires indiquent qu’aujourd’hui les modèles d’IA ne peuvent pas surmonter cet obstacle de manière autonome, et ce qui se passe, c’est qu’il existe encore des limites à ce que l’IA peut réellement apporter en mathématiques.
Mais alors, y a-t-il une révolution ou pas ? Terence Tao a expliqué clairement pourquoi GPT-5.4 avait réussi là où d’autres avaient échoué pendant 60 ans. Ce qui s’est passé, c’est ce qu’il a décrit comme un blocage collectif de la communauté mathématique, car tout le monde partait de la même origine parce que c’était « la naturelle », celle marquée par la tradition. L’IA ne savait pas que c’était la « bonne » façon de commencer, et cette ignorance s’est avérée être un avantage. Ce n’est pas que l’IA était plus intelligente, c’est qu’elle n’avait aucun préjugé sur la manière d’aborder le problème. Il reste maintenant à voir si cette nouvelle manière de tenter de résoudre les problèmes de manière peu orthodoxe fonctionne. Cela confirmera si ce qui s’est passé avec le problème numéro 1196 d’Erdös était un cas isolé ou si un garçon de 23 ans a réussi à changer notre vision de la façon d’aborder les problèmes mathématiques.
Images | Images universelles
À Simseo | Il existe une façon mathématiquement parfaite de couper un sandwich au jambon et au fromage et elle fait l’objet de discussions depuis 1938.
