Google DeepMind : être humain avec LLM vous rend plus performant

Les chercheurs de Google DeepMind ont développé une méthode qui augmente considérablement les capacités mathématiques des modèles de langage en utilisant des indices similaires à ceux de l’interaction humaine, selon un article récemment publié. « Grands modèles de langage comme optimiseurs ».

Les scientifiques de DeepMind ont proposé une méthode appelée Optimisation par PROmpting (OPRO) pour améliorer les performances de grands modèles de langage comme ChatGPT d’OpenAI. L’approche utilise le discours humain quotidien pour guider ces modèles dans la résolution de problèmes.

Esprit profond OPRO, comment ça marche

Généralement, en apprentissage automatique, des méthodes spécifiques utilisant des procédures étape par étape permettent d’améliorer le fonctionnement d’un modèle d’IA. Au lieu d’utiliser des définitions mathématiques formelles pour accomplir cette tâche, OPRO utilise un langage simple pour lancer le processus d’amélioration. Le grand modèle de langage crée des solutions possibles basées sur la description du problème et les réponses précédentes.

« Les LLM sont formés au contenu généré par l’homme et la façon dont cela fonctionne, d’une manière générale, consiste à terminer des phrases comme le ferait un bon couple », a-t-il déclaré dans une interview. Tinglong Dai, professeur de gestion des opérations et d’analyse commerciale à l’Université Johns Hopkins, qui n’a pas participé à la recherche. « Il n’est donc pas surprenant que les suggestions humaines conduisent à de bons résultats. »

DeepMind et LLM : le libellé peut influencer le résultat de l’IA

L’étude de DeepMind a également révélé que certaines phrases influencent les résultats de l’intelligence artificielle. Des invites telles que « réfléchissons étape par étape » ont conduit les modèles d’IA à produire des résultats plus précis lorsqu’ils sont évalués par rapport à des ensembles de problèmes mathématiques.

Les chercheurs ont constaté que la requête « Respirez profondément et travaillez sur ce problème étape par étape » était plus efficace avec le modèle de langage. PaLM2 par Google. Cette phrase a obtenu le score de précision le plus élevé de 80,2 % lorsqu’elle a été testée avec GSM8K, un ensemble de données de problèmes mathématiques à l’école primaire. En comparaison, PaLM 2, sans aucune invite particulière, n’a atteint qu’une précision de 34 % sur GSM8K, tandis que l’invite classique « Pensons étape par étape » a atteint un score de précision de 71,8 %.

Les LLM répondent bien aux demandes de type humain car ils ont été formés sur des données de conversation en langage humain, telles que les discussions Reddit et les scripts de films, Michael Kearns, professeur d’informatique et de sciences de l’information à l’Université de Pennsylvanie, qui n’en faisait pas partie. de l’équipe DeepMind.

« En ce sens, les diplômés de maîtrise sont doués pour modifier leur production en réponse aux demandes et aux encouragements, comme demander une production dans un style ou un genre particulier », a-t-il ajouté. « En termes de compétences mathématiques, encourager un LLM à décomposer un problème mathématique ou logique en étapes est généralement considéré comme très efficace, tout comme la formation sur des données comprenant des preuves mathématiques, des programmes informatiques et d’autres exemples de raisonnement formel. »

DeepMind et LLM : mieux vaut utiliser des phrases verbeuses

La plupart des LLM ont été formés et réglés sur un énorme volume de données, ils possèdent donc d’excellentes compétences en langage naturel, telles que la paraphrase ou l’enrichissement de phrases, a-t-il déclaré dans une interview. Chengrun Yangl’un des auteurs de l’article DeepMind.

« De plus, nous avons travaillé sur l’alignement des modèles, qui améliore la capacité des modèles à comprendre et à répondre aux demandes humaines, tout comme un humain, puisque, dans chaque cas, nous définissons si un modèle répond « bien » du point de vue d’un être humain », a-t-il ajouté.

Les suggestions de type humain sont souvent modélisées comme des demandes qui incitent le modèle d’IA à s’engager dans une interaction dialogique, où le modèle est chargé de fournir une réponse précise basée sur des signaux familiers, a-t-il déclaré. Olga Beregovaïavice-président de l’IA et de la traduction automatique chez la société de traduction de logiciels Smartling.

« Les LLM fonctionnent mieux lorsqu’ils sont donnés dans un contexte plus large », a ajouté l’auteur. « Les requêtes plus verbeuses et de type humain ont tendance à fournir plus de contexte, de descriptions et d’exemples, ce qui facilite l’exécution de la tâche par le modèle en alignant sa sortie sur le contexte de la requête. »

Les mots d’encouragement peuvent être utiles

Parfois, de simples mots d’encouragement peuvent pousser l’IA à faire mieux. Le professeur Dai déclare que les LLM peuvent produire des résultats supérieurs lorsque les utilisateurs répondent à leurs résultats par « Allez, vous pouvez faire mieux que ça ! ». Il a noté qu’il existe des cas où les utilisateurs demandent aux LLM de prétendre être un lauréat du prix Nobel d’économie et de commenter l’inflation, avec de meilleurs résultats que les autres.

« Dans le cas du diagnostic médical, demander à des diplômés en littérature de se faire passer pour des experts médicaux de classe mondiale peut parfois produire des résultats plus précis et plus ciblés », a-t-il ajouté. « Mais je ne connais aucune preuve concrète qu’un tel encouragement humain conduit à des améliorations universelles dans différents types de tâches. »

Dai a déclaré qu’il était important de noter que les LLM peuvent bien répondre aux demandes non humaines, en fonction de la tâche. « J’ai vu LLM répondre très efficacement à des requêtes structurées sous forme de code informatique, par exemple avec des instructions Si-Alors-Sinon« , il ajouta.

Conclusions

La nouvelle méthode pourrait faciliter la conception de suggestions d’IAdit Yang.

« Les utilisateurs peuvent optimiser les suggestions grâce à leurs métriques : précision de résolution de problèmes dans le raisonnement mathématique, vitesse d’activation dans l’utilisation des outils, vivacité et longueur du texte dans l’écriture créative, etc. « De plus, nous espérons que notre méthode pourra inspirer de nouvelles façons d’utiliser les LLM pour optimiser d’autres types de tâches. »