MMLU, ce qui est, car la référence principale fonctionne pour LLM
MMLU – Acronyme pour Langue multitâche massive sous-tend – est un ensemble de données publié dans 2021 depuis Dan Hendrycks et de son centre pour le centre pour la sécurité de l’IA à UC Berkeleyen collaboration avec d’autres chercheurs universitaires. Né pour répondre à la nécessité de tester systématiquement les connaissances et le raisonnement d’un LLM sur un large éventail de sujets disciplinairesMMLU est conçu comme une référence pour l’évaluation généraliste. Comprend 57 sujets académiquesdivisé sur Quatre niveaux de difficulté de croissance:
- école primaire,
- lycée,
- niveau universitaire,
- professionnel.
Parmi les zones couvertes, il y a Mathématiques, histoire, économie, droit, médecine, biologie, psychologie, informatique, ingénierie, éthique et autres domaines spécialisés. Chaque question est un choix multiple et simule des conditions de test réelles, tirées des examens officiels, des compétitions publiques, des cours académiques et du matériel éducatif reconnu.
MMLU, les objectifs
L’objectif est de tester non seulement la mémoire statistique du modèle, mais sa capacité à généraliser, comprendre les concepts Et Pensez à des domaines distinctssans dépendre de la formation ciblée sur ces contenus. MMLU est aujourd’hui l’un des ensembles de données les plus cités dans les articles d’évaluation des modèles linguistiques et représente souvent l’un des principaux indicateurs vers les modèles de dernière génération.
Composé de au-delà 16 mille questions avec un choix multipleMMLU comprend du contenu de Mathématiques, histoire, médecine, droit, économie, ingénierie, psychologie et de nombreuses autres disciplines.
Le test est effectué dans Mode zéro ou à quelques coupsc’est-à-dire sans fournir des exemples ou avec peu d’exemples de réponse.
Cela vous permet de simuler une situation réaliste dans laquelle un LLM traite d’une nouvelle question, sans formation spécifique. Son amplitude thématique et l’approche interdisciplinaire le font L’une des références les plus utilisées dans les rapports techniques et les études comparatives.
Mmlu, comment ça marche
L’opération de MMLU est basée sur un principe simple mais rigoureux: évaluer les compétences d’un modèle linguistique en le plaçant Questions de réponse multiplesdans un format très similaire à celui d’un examen scolaire ou universitaire. Chaque question se présente Quatre options pour choisir et juste une bonne réponse. Cependant, il ne s’agit pas d’un quiz aléatoire: les questions ont été sélectionnées par des sources fiables et académiques, telles que des tests standardisés, des examens de qualification professionnelle, des compétitions publiques et des manuels éducatifs.
L’ensemble de données est conçu pour être utilisé dans Mode zéro (sans exemples précédents) ou à quelques coups (avec un nombre très limité d’exemples), précisément pour tester la capacité du modèle à faire face à un nouveau contenu sans formation spécifique.
Ceci est un point crucial: MMLU n’est pas conçu pour mesurer la façon dont un contenu stocké par LLM répété, mais combien il sait Généraliser les connaissances à de nouvelles questions.
Ce qui différencie MMLU des autres référence
Un autre élément distinctif est que MMLU favorise le Connaissances structurées et formellesplutôt que le langage naturel libre. Cela le différencie des autres références plus axées sur le dialogue, le récit ou l’achèvement du texte et en fait un indicateur utile pour comprendre la capacité de l’IA à se déplacer dans des contextes disciplinaire et académique Avec une certaine précision terminologique. Il est important de souligner que les réponses sont évaluées uniquement en termes de précision: il n’est pas analysé comme Le modèle est arrivé à cette réponse, mais seulement si elle a sélectionné la bonne. Cela renforce l’idée que MMLU est un test de sortie, pas un processus cognitif. Pour cette raison, il est souvent utilisé En combinaison avec d’autres référencepour offrir une image plus complète des compétences d’un modèle.
MMLU, les scores
Enfin, les scores sont exprimés en pourcentage et comparés aux repères humains, par exemple les étudiants universitaires ou les diplômés. Cela vous permet de dire, par exemple, que « GPT-4 a obtenu le score moyen d’un diplômé dans des disciplines scientifiques« , En donnant une référence immédiate à l’impact de ses performances. En résumé, le MMLU fonctionne comme une grande simulation d’examen multidisciplinaire: simple dans le format, mais sophistiqué dans les objectifs. Chaque question de MMLU a 4 options et une bonne réponse. Les modèles doivent répondre en choisissant la réponse la plus appropriée, comme dans un test académique. généralisation: Autrement dit, à quel point le modèle parvient à répondre correctement aux questions similaires à celles réelles, malgré les ne jamais les avoir vues.
Le MMLU est l’un des références les plus courantes: est-il également efficace?
MMLU est parmi les repères les plus populaires et les plus utilisés dans la communauté de recherche sur l’intelligence artificielle, en particulier vers des modèles publics tels que GPT, Claude, Gemini, Llama, Mistral ou Palm. Il est souvent inclus dans les rapports officiels de publication et dans les articles évalués par les pairs. Ce n’est pas le seul outil d’évaluation adopté. Il est généralement utilisé avec d’autres référence, chacun avec différents objectifs et structures:
- Arc (défi de raisonnement AI2): Conçu par l’équipe de l’Allen Institute for IA, vise à tester la compréhension scientifique de base (niveau scolaire K-12), avec des questions prises à partir d’examens réels. Il est particulièrement utile pour évaluer la capacité d’un modèle à penser logiquement et à déduire les réponses à partir d’informations implicites. L’ARC est connu pour être difficile même pour le LLM avancé, en particulier en mode zéro.

- Hellaswag: Développé par Strada, Hellaswag évalue la capacité du modèle à compléter des phrases cohérentes et plausibles dans des contextes narratifs et descriptifs. Il est utile pour tester le bon sens et la capacité de raisonnement à partir de contextes sémantiques ambigus. Il est particulièrement difficile en mode zéro et à quelques coups.


- Véridique: Conçu par OpenAI et publié en 2021, cette référence évalue la tendance des modèles pour générer des réponses précises en ce qui concerne les réponses plausibles mais incorrectes ou trompeuses. Il est conçu pour identifier les biais, les hallucinations d’information et le risque d’amplification de désinformation par LLM.


- Grande surface: Acronyme pour Beyond the Imitation Game, est une collection de plus de 200 tâches conçues par un consortium de chercheurs dirigée par Google Research. Il vise à évaluer les compétences émergentes des modèles, tels que le raisonnement abstrait, la compréhension métaphorique, l’arithmétique, l’éthique et la cohérence narrative. La variété des exercices fait l’un des banc de référence les plus flexibles et les plus complets.
- Mathématiques: Benchmark spécialisé pour évaluer les compétences mathématiques du LLM, comprend des problèmes liés aux cours mathématiques de niveau avancé et aux Jeux olympiques. Il est divisé en catégories telles que l’algèbre, la théorie des nombres, la géométrie et le calcul, et nécessite à la fois une compétence symbolique et un raisonnement logique articulé.


Popularité Il n’est pas synonyme d’exhaustivité. Comme cela se produit dans chaque système de mesure, il est important de se demander ce qui est réellement mesuré.
Limites et risques du test académique pour les machines
Le MMLU est une référence sophistiquée, mais comme tout outil de mesure, il a des limites intrinsèques. Tout d’abord, il en reflète un Vision fortement académique et culturellement marquée: je Le contenu provient principalement du contexte éducatif américainavec le risque de négliger le Diversité épistémologique des autres systèmes scolaires ou approches culturelles. Cela peut conduire à une évaluation partielle ou trompeuse lorsque vous essayez d’universaliser les résultats. Deuxièmement, le test se limite à l’évaluation de l’exactitude des réponses, ignorant complètement le processus cognitif qui a conduit à cette réponse. Ça ne nous dit pas comme Un modèle arrive à une conclusion, mais seulement si Il y arrive. En ce sens, MMLU mesure les performances finales mais pas la qualité du raisonnement ou de la transparence du processus.
Il y a aussi le risque que les modèles formés sur de grandes quantités de données généralistes Ils finissent par se familiariser indirectement avec le contenu très similaire à ceux présents dans la référence. Même si les questions ne sont pas dans l’ensemble de formation, des structures similaires ou des modèles fréquents peuvent avoir été assimilés. Cela rend la distinction entre les connaissances efficaces et la mémoire statistique moins claire. En outre, L’obtention d’un score élevé sur MMLU n’assise pas pour démontrer la compréhension du sens humain du terme.
Il est possible qu’un modèle réponde correctement pour la reconnaissance des modèles, sans conscience réelle du contenu. En ce sens, il y a un risque de confusion compétence apparente avec une forme de intelligence authentique. Enfin, le problème de l’auto-référentialité doit être pris en compte: les modèles sont souvent évalués sur la référence produite par la même communauté qui développe des algorithmes. Ce cercle fermé peut générer des incitations déformées, dans lesquelles il est optimisé pour «gagner des tests» plutôt que pour développer des modèles vraiment plus utiles, transparents ou fiables.
En résumé, MMLU est un outil utile, Mais comme tout test standardisé, le risque de devenir une fin au lieu d’un moyen fonctionne. Il sert une conscience critique en lisant ses résultats et en interprétant sa portée.
Que dit vraiment MMLU
MMLU est un miroir, pas une vérité. Il en dit long sur Capacités caronistes et sur robustesse formelle D’un modèle, mais peu sur sa créativité, son empathie, sa capacité à apprendre de nouvelles expériences ou à gérer des contextes ouverts et ambigus.
Connaissez-vous les camarades de classe qui ont toujours pris 10 ou 30 ans et louer, mais qui n’ont pas brillé dans une inventivité, une capacité imaginative ou une intelligence émotionnelle? Les risques MMLU récompensent exactement ce type d’approche: impeccable en forme, mais limité dans la substance la plus humaine de la pensée.
Conclusions
Dans un contexte dans lequel les modèles linguistiques entrent progressivement tous Ce que nous mesurons réellement Lorsque nous les évaluons. MMLU représente une référence utile, solide, transparente mais partielle. Il peut en dire beaucoup sur combien un modèle sait comment « bien répondre » selon les règles de la connaissance de l’école, mais peu sur la façon dont cette intelligence artificielle se comporte dans des contextes réels, dynamiques, ambigus et ouverts. La capacité de résoudre un test à choix multiple ne correspond pas nécessairement à une compréhension approfondie ou à une sensibilité contextuelle.
Il sera toujours nécessaire d’intégrer des tests quantitatifs tels que le MMLU aux évaluations qualitatives, en observant comment les modèles interagissent, s’adaptent, apprennent, font des erreurs et corrigent. ET Ils serviront la référence moins dépendante du contexte académique américainplus inclusif d’un point de vue culturel et plus attentif aux compétences émergentes: la gestion de l’ambiguïté, la pensée éthique, la créativité appliquée, le raisonnement non linéaire. Il est peut-être temps de repenser non seulement les critères avec lesquels nous évaluons les modèles, mais aussi le concept même de «l’intelligence» que nous leur attribuons.
Bibliographie
Stanford Center for Research on Foundation Models. (Nd). Langue multitâche massive sous-tend (MMLU) sur Helm. Stanford CRFM + 1stanford CRFM + 1
HandRycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., et Steinhardt, J. (2020). Mesurer un langage multi-tâches massif sous-tend. ARXIV PRÉALLAGE ARXIV: 2009.03300. ArXiv + 2GitHub + 2Mark III Systems + 2
HandRycks, D., Burns, C., Basart, S., Zou, A., Mazeika, M., Song, D., et Steinhardt, J. (2020). Mesurer un langage multi-tâches massif sous-tend. OpenReview. OpenReview
Papiers avec code. (Nd). Ensemble de données MMLU. Moyen + 2Papers avec code + 2Papers avec code + 2
Ai confiant. (2023). LLM Benchmarks a expliqué: Tout sur MMLU, Hellaswag, BBH …. Confiant Ai + 1vellum Ai + 1
De toute évidence, ai. (2023). 20 LLM d’évaluation des références et comment elles fonctionnent. Github + 2evidentely Ai + 2medium + 2
Beeson, L. (ND). Une collection de repères et de données pour évaluer LLM. Référentiel GitHub. Github
Hendrycks, D., et al. (Nd). Mesurer un langage multi-tâches massif sous-tend. Référentiel GitHub. OpenReview + 2Mark III Systems + 2GitHub + 2