Bard n'était pas très bon en maths et en programmation. Jusqu'à ce que Google écoute un prix Nobel

L’une des critiques faites à ChatGPT et Google Bard est à quel point ils se trompent et à quel point ils inventent ou hallucinent. Cela se produit lorsque nous demandons des données que nous pouvons corroborer – historiques, par exemple -, mais aussi lorsque nous leur demandons de programmer quelque chose ou de répondre à un problème mathématique. Le chatbot de Google, Bard, vient de franchir une étape intéressante pour tenter d’améliorer ce type de tâche.

Ils ne calculent pas, ils prédisent. Comme ils l’expliquent dans cette annonce Google, les grands modèles linguistiques (LLM) sont essentiellement des moteurs prédictifs. Lorsque vous leur donnez une entrée, ils génèrent une sortie qui essaie de prédire quels mots devraient suivre. C’est bien dans le domaine créatif et dans la génération de textes, mais les choses changent quand on veut des réponses précises dans des domaines comme les mathématiques ou la programmation.

Google Bard n’était pas très bon… Cela signifiait que lorsqu’il posait des questions à Bard sur les mathématiques ou la programmation, ce chatbot pouvait fréquemment donner la mauvaise réponse ou même indiquer immédiatement qu’il n’était pas prêt à répondre à de telles questions.

… mais ça change maintenant. Dans Google, ils ont apporté une série de modifications qui permettent désormais à Bard de mieux se comporter dans ces domaines. Comme l’expliquent les développeurs, « il ne suffisait pas de s’appuyer uniquement sur les LLM ».

pense vite, pense lentement. La méthode s’inspire « d’une dichotomie bien étudiée de l’intelligence humaine, notamment abordée dans le livre de Daniel Kanheman -prix Nobel d’économie- ‘Think fast, think slow’ et parle du « Système 1 » et du « Système 2 » de la pensée. Le premier est plus intuitif et donne des réponses rapides, le second est plus lent, délibéré et avec effort.

Bard veut être un peu plus « System 2 ». Dans cette analogie, les LLM pourraient donc être inclus dans le système 1, produisant du texte rapidement mais sans trop réfléchir. Cependant, l’informatique traditionnelle est alignée sur le système 2 : « elle est basée sur des formules et inflexible, mais la séquence correcte d’étapes peut réduire les résultats fantastiques, tels que les solutions aux opérations de division longues », indiquent-ils dans Google.

Si vous pouvez le résoudre avec un programme, faites-le.. La méthode que Bard utilise pour le faire « penser lentement » est dans l’exécution de code explicite : lorsqu’il identifie des invites qui peuvent bénéficier d’un code logique, il utilise ce code en arrière-plan et utilise ce code pour produire des résultats plus précis.

dis ça à l’envers. Un exemple typique serait d’inverser les lettres d’un mot : Bard ne l’a pas bien fait dans de nombreux cas, mais maintenant il est capable d’identifier que par exemple il y a une fonction en Python qui le fait, il l’utilise, applique cela fonction au mot et qui permet d’obtenir le résultat correct.

Ce problème de raisonnement logique est assez simple, mais aucun moteur ne l’a bien résolu. Google Bard n’a montré que 4 possibilités, ChatGPT (GPT-3.5) a montré 6 possibilités et ChatGPT Plus (GPT-4) a montré 8 possibilités. Ce dernier manquait le reste : un résultat de 3-2 (qu’il considérait comme GPT-3.5).

30% mieux, mais pas parfait. Selon les tests de Google, cette méthode permet pour un ensemble de problèmes qu’ils utilisent en interne, les réponses s’améliorent d’environ 30%. Les gens de Bard avertissent : ce n’est toujours pas tout à fait exact, et en fait, dans les problèmes mathématiques que nous avons essayés séparément – voici quelques exemples – les réponses n’étaient pas toujours correctes. Bard, oui, avance, et c’est une bonne nouvelle.