Google dispose déjà d’une IA qui « raisonne ». Et il y a un père, un fils, un singe et de la nourriture pour le prouver

Chez Google, ils prennent une position très sérieuse contre OpenAI. Le lancement de la famille de modèles Gemini 2.0 AI s'est distingué par son agent IA, Project Mariner, mais il s'accompagne désormais d'une nouveauté tout aussi frappante. Chez nous, nous disposons déjà d'une version préliminaire de Gemini 2.0 Flash Thinking, un modèle d'IA qui « raisonne » -comme toujours, entre guillemets- tout comme o1 d'OpenAI. Nous l'avons testé, et son comportement est remarquable.

Ce modèle peut maintenant être testé dans AI Studio, où il suffit de le sélectionner sur le côté droit où nous pouvons choisir avec quel modèle nous voulons travailler à un moment donné. Ce faisant, nous pouvons introduire toutes sortes de questions, mais celles qui ont vraiment du sens à poser ici sont des questions mathématiques ou logiques dans lesquelles il est noté que le modèle a la capacité d'essayer de résoudre un problème en revenant en arrière et en révisant ses réponses.

Faisons une petite expérience : nous vous suggérons d'essayer de résoudre deux problèmes que Gemini 2.0 Flash Thinking a résolus. Le premier, avec une image:

Capture d'écran 2024 12 20 À 7 49 19

Étant donné ces boules de billard avec ces chiffres, êtes-vous capable de trouver une combinaison dans laquelle trois d'entre elles totalisent 30 ? Pensez-y un instant.

L'avez-vous ? Il n’y a apparemment pas de solution : aucune combinaison avec ces nombres ne permet d’obtenir le résultat souhaité. Mais bien sûr, il existe une astuce. La boule de billard avec le chiffre 9 peut « faire demi-tour », le nombre résultant est donc 6. Et grâce à ce chiffre, nous pouvons obtenir une combinaison (6+11+13) qui résout le problème.

Capture d'écran 2024 12 20 À 7 52 45

Logan Kilpatrick, responsable d'AI Studio, s'est chargé de présenter le nouveau modèle et de démontrer ses capacités avec ce même exemple (d'où la mauvaise qualité de l'image des boules de billard, désolé). Si vous cliquez sur la vidéo et observez le processus de raisonnement, vous verrez comment Gemini 2.0 est réellement capable de détecter cette « astuce » pour résoudre le problème. Incroyable.

Le deuxième exemple est tout aussi frappant.. Il existe de nombreux problèmes logiques que nous pouvons utiliser pour tester ces modèles, et l'un d'eux a été trouvé sur Reddit, où un utilisateur l'a énoncé (en anglais) d'une manière facilement compréhensible par un chatbot.

Le problème nous place dans un scénario avec un père, un fils, un singe et de la nourriture. Ils doivent traverser une rivière et il y a plusieurs conditions pour le faire correctement :

Ils doivent traverser la rivière dans un petit bateau
Le bateau ne peut transporter que deux choses, mais il ne peut aussi en transporter qu'une.
Le bateau ne peut pas traverser la rivière tout seul
Seul le père ou le fils peuvent piloter le bateau, et tous deux peuvent y aller ensemble si nécessaire
Vous ne pouvez pas laisser la nourriture seul avec votre enfant car il la mangera.
Vous ne pouvez pas laisser la nourriture seul avec le singe car il la mange
Comment le père parvient-il à faire passer tout et tout le monde sur l'autre rive ?

La solution proposée avec Gemini, avec cette étape 4 que le chatbot qualifie de « contre-intuitive » car elle peut en réalité paraître ainsi.

Une fois le problème introduit, Gemini analyse d’abord les instructions pour les décomposer, puis commence à « expérimenter ». En moins d'une minute, il trouve la solution, qui comporte une étape particulièrement frappante :

Le père porte la nourriture de l'autre côté de la rivière
Le père revient seul
Le père emmène le fils de l'autre côté
Le père revient, mais avec la nourriture pour empêcher le fils de la manger.
Le père laisse la nourriture et emmène le singe de l'autre côté
Le père revient seul
Le père apporte la nourriture de l'autre côté
Résolu !

Claude 3.5 Sonnet n'y parvenait pas.

Le problème, qui n'est pas particulièrement difficile pour nous, est très complexe pour des modèles de ce type. En fait, nous l'avons testé dans Claude 3.5 Sonnet et ce chatbot, après y avoir réfléchi plusieurs fois, a répondu en demandant si le problème était impossible à résoudre.

La vérité est que des tests comme celui-ci montrent que ces types de modèles qui « raisonnent » ils vont encore plus loin et ils sont particulièrement utiles dans ce type de situations. Jeff Dean, scientifique en chef chez DeepMind, a indiqué dans think « la réalité est que cela va au-delà d'un modèle stochastique qui génère du texte à partir de son ensemble de formation.

Ce type de modèles mettent certes plus de temps à réagir, mais il est curieux de « les regarder fonctionner » et de voir comment ils analysent ces problèmes pour tenter de les résoudre.

Nous avons effectivement fait un troisième test. Le fameux truc sur le comptage des R. Dans ce cas, nous lui avons demandé de compter les R dans la phrase « le chien de San Roque n'a pas de queue parce que Ramón Ramírez l'a volé ». Ce n'est pas un problème strictement logique, mais ici Gémeaux il a fait une erreur et a compté 10 R alors qu'en réalité il y en a neuf.

Même lorsque j’insistais pour qu’il vérifie sa réponse, il donnait toujours la mauvaise réponse. Donc, étonnant dans certaines choses, et étonnamment terrible dans d’autres qui nous semblent insignifiantes.

Images | Simseo avec Freepik

À Simseo | J'ai utilisé ChatGPT Search comme moteur de recherche par défaut grâce à l'extension Chrome. Et je pense que Google a un problème