Une nouvelle méthode rend les évaluations du modèle de langue AI plus rapidement, plus équitables et moins coûteuses

L'évaluation de la progression de nouveaux modèles de langue IA peut être aussi difficile que les former. Les chercheurs de Stanford offrent une nouvelle approche.

Alors que les nouvelles versions des modèles de langage de l'intelligence artificielle déploient une fréquence croissante, beaucoup le font avec des revendications de performances améliorées. Démontrant qu'un nouveau modèle est en fait meilleur que le précédent, cependant, reste un défi insaisissable et coûteux pour le domaine.

En règle générale, pour prouver leur courage et améliorer la confiance que les nouveaux modèles sont en effet meilleurs, les développeurs soumettent de nouveaux modèles à une batterie de questions de référence. Potentiellement des centaines de milliers de ces questions de référence sont stockées dans les banques de questions, et les réponses doivent être examinées par les humains, ajoutant du temps et du coût au processus.

Les contraintes pratiques rendent impossible de poser tous les modèles chaque question de référence, afin que les développeurs choisissent un sous-ensemble, introduisant le risque de surestimer des améliorations en fonction des questions plus douces. Les chercheurs de Stanford ont maintenant introduit un moyen rentable de faire ces évaluations dans un nouvel article présenté à la Conférence internationale sur l'apprentissage automatique (ICML 2025). L'étude est disponible sur le arxiv serveur de préimprimée.

« L'observation clé que nous faisons est que vous devez également tenir compte de la difficulté des questions », a déclaré Sanmi Koyejo, professeur adjoint d'informatique à l'école d'ingénierie qui a dirigé la recherche. « Certains modèles peuvent faire mieux ou pire juste par la chance du tirage. Nous essayons d'anticiper cela et de l'ajuster pour faire des comparaisons plus équitables. »

« Ce processus d'évaluation peut souvent coûter autant ou plus que la formation elle-même », a ajouté le co-auteur Sang Truong, un doctorant au Stanford Artificial Intelligence Lab (SAIL). « Nous avons construit une infrastructure qui nous permet de sélectionner de manière adaptative des sous-ensembles de questions en fonction de la difficulté. Il nivelle les règles du jeu. »

Pommes et oranges

Pour atteindre leur objectif, Koyejo, Truong et ses collègues ont emprunté un concept vieux de plusieurs décennies à l'éducation, connu sous le nom de théorie de la réponse aux articles, qui prend en compte la difficulté de question lors de la notation des candidats. Koyejo le compare à la façon dont les tests standardisés comme le SAT et d'autres types de tests adaptatifs fonctionnent. Chaque bonne ou mauvaise réponse modifie la question qui suit.

Les chercheurs utilisent des modèles linguistiques pour analyser les questions et les marquer en difficulté, réduisant les coûts de moitié et dans certains cas de plus de 80%. Ce score de difficulté permet aux chercheurs de comparer les performances relatives de deux modèles.

Pour construire une banque de questions importante, diversifiée et bien calibrée de manière rentable, les chercheurs utilisent les pouvoirs génératifs de l'IA pour créer un générateur de questions qui peut être affiné à tout niveau de difficulté souhaité. Cela aide à automatiser la réapprovisionnement des banques de questions et l'abattage des questions « contaminées » de la base de données.

Rapide et juste

Avec des questions mieux conçues, les auteurs disent que d'autres dans le domaine peuvent faire de meilleures évaluations des performances avec un sous-ensemble de requêtes beaucoup plus petit. Cette approche est plus rapide, plus équitable et moins chère.

La nouvelle approche fonctionne également dans les domaines de la connaissance – de la médecine et des mathématiques au droit. Koyejo a testé le système avec 22 ensembles de données et 172 modèles de langue et a constaté qu'il pouvait s'adapter facilement aux nouveaux modèles et questions.

Leur approche a pu tracer des changements subtils dans la sécurité de GPT 3.5 au fil du temps, à tout d'abord s'améliorer, puis se retirer dans plusieurs variations testées en 2023. La sécurité du modèle de langue est une métrique de la robustesse d'un modèle à la manipulation des données, aux attaques contradictoires, à l'exploitation et à d'autres risques.

Lorsque l'évaluation d'une fois des modèles de langage était une perspective coûteuse et incohérente, la nouvelle approche de la théorie de la réponse des éléments met une évaluation rigoureuse, évolutive et adaptative à portée de main. Pour les développeurs, cela signifie de meilleurs diagnostics et des évaluations de performances plus précises. Pour les utilisateurs, cela signifie des évaluations de modèles plus équitables et plus transparentes.

« Et, pour tout le monde », a déclaré Koyejo. « Cela signifiera des progrès plus rapides et une plus grande confiance dans les outils en évolution rapide de l'intelligence artificielle. »