Pourquoi les membres de l'IA sont inexacts et comment les réparer

Les mécanismes de classement défectueux utilisés dans les classements de l'IA peuvent être surmontés grâce à des approches évaluées à l'Université du Michigan.

Dans leur étude, les chercheurs de l'UM ont évalué les performances de quatre méthodes de classement utilisées dans les classements populaires en ligne d'IA, tels que Chatbot Arena, ainsi que d'autres classements sportifs et de jeux. Ils ont constaté que le type et la mise en œuvre d'une méthode de classement peuvent donner des résultats différents, même avec le même ensemble de données de crowdsourced des performances du modèle. D'après leurs résultats, les chercheurs ont développé des lignes directrices pour les classements pour représenter la véritable performance des modèles d'IA.

« Les grandes entreprises continuent d'annoncer les modèles Gen AI plus récents et plus grands, mais comment savez-vous quel modèle est vraiment le meilleur si vos méthodes d'évaluation ne sont pas exactes ou bien étudiées? » a déclaré Lingjia Tang, professeur agrégé d'informatique et d'ingénierie et un auteur de co-correspondant de l'étude.

« La société est de plus en plus intéressée à adopter cette technologie. Pour ce faire efficacement, nous avons besoin de méthodes robustes pour évaluer l'IA pour une variété de cas d'utilisation. Notre étude identifie ce qui fait un système de classement IA efficace et fournit des lignes directrices sur le moment et comment les utiliser. »

Les modèles GEN IA sont difficiles à évaluer car les jugements sur le contenu généré par l'IA peuvent être subjectifs. Certains classements évaluent comment les modèles d'IA avec précision effectuent des tâches spécifiques, telles que la réponse aux questions à choix multiples, mais ces classements n'évaluent pas dans quelle mesure une IA crée un contenu diversifié sans une seule bonne réponse.

Pour évaluer une production plus ouverte, d'autres classements, tels que la populaire arène de chatbot, demandent aux gens d'évaluer le contenu généré dans les comparaisons en tête-à-tête, dans ce que les chercheurs appellent un « LLM Smackdown. » Les contributeurs humains soumettent aveuglément une invite à deux modèles d'IA aléatoires puis enregistrent leur réponse préférée dans la base de données du classement, qui est ensuite introduite dans le système de classement.

Mais le classement peut dépendre de la mise en œuvre des systèmes. Chatbot Arena a utilisé autrefois un système de classement appelé ELO, qui est également couramment utilisé pour classer les joueurs d'échecs et les athlètes. Il a des paramètres qui permettent aux utilisateurs de définir à quel point une victoire ou une perte change radicalement le classement du classement, et comment cela a un impact sur la base de l'âge du joueur ou du modèle. En théorie, ces caractéristiques permettent à un système de classement d'être plus flexible, mais les paramètres appropriés pour évaluer l'IA ne sont pas toujours évidents.

Pourquoi les membres de l'IA sont inexacts et comment les réparer

« Dans les matchs d'échecs et de sport, il y a un ordre logique de jeux qui se déroulent à mesure que les compétences des joueurs changent de carrière. Mais les modèles d'IA ne changent pas entre les versions, et ils peuvent jouer instantanément et simultanément » a déclaré Roland Daynauth, UM doctoral en informatique et en génie et le premier auteur de l'étude.

Pour aider à prévenir une mauvaise utilisation accidentelle, les chercheurs ont évalué chaque système de notation en leur nourrissant une partie de deux ensembles de données de crowdsourcés de performances du modèle d'IA – une de Chatbot Arena et une autre précédemment collectée par les chercheurs. Ils ont ensuite vérifié pour voir à quel point leur classement a égalé le taux de victoire dans une partie retenue des ensembles de données.

Ils ont également vérifié à quel point le classement de chaque système était sensible aux paramètres définis par l'utilisateur, et si le classement a suivi la logique de toutes les comparaisons par paires: si A bat B et B bat C, alors a doit être classé plus haut que C.

Ils ont constaté que Glicko, un système de classement utilisé dans les sports électroniques, a tendance à produire les résultats les plus cohérents, en particulier lorsque le nombre de comparaisons est inégal. D'autres systèmes de classement – comme le système Bradley-Terry que Chatbot Arena a mis en œuvre en décembre 2023 – pourrait également être précis, mais uniquement lorsque chaque modèle avait un nombre uniforme de comparaisons. Un tel système pourrait permettre à un nouveau modèle d'apparaître plus fort que ce qui est justifié.

« Ce n'est pas parce qu'un modèle arrive sur la scène et bat un grand maître que c'est le meilleur modèle. Vous avez besoin de très nombreux jeux pour savoir quelle est la vérité, » a déclaré Jason Mars, professeur agrégé d'ingénierie et d'ingénierie UM et un auteur de co-correspondant de l'étude.

En revanche, les classements effectués par le système ELO, ainsi que les chaînes Markov utilisées par Google pour classer les pages dans une recherche Web, dépendaient fortement de la façon dont les utilisateurs ont configuré le système. Le système Bradley-Terry n'a pas de paramètres définis par l'utilisateur, il pourrait donc être la meilleure option pour les grands ensembles de données avec un nombre uniforme de comparaisons pour chaque IA.

« Il n'y a pas de bonne réponse, alors j'espère que notre analyse aidera à guider la façon dont nous évaluons l'industrie de l'IA à l'avenir, » Dit Tang.