Une nouvelle métrique pour quantifier les capacités des systèmes d'IA en termes de capacités humaines

Une nouvelle métrique pour quantifier les capacités des systèmes d’IA en termes de capacités humaines

Une équipe de chercheurs de l’IA de Startup METR propose une nouvelle mesure pour quantifier les capacités des systèmes d’IA en termes de capacités humaines. Ils ont publié un article sur le arxiv Préprint Server décrivant la nouvelle métrique, qu’ils appellent « Horizon de temps de complétion des tâches » (TCTH).

Les LLM tels que GPT-2 s’améliorent pour produire des résultats fiables à chaque nouvelle itération. Dans cette nouvelle étude, l’équipe de Californie a noté que de tels modèles sont toujours décrits d’une manière qui n’est pas à la hauteur de la tâche de décrire pleinement les capacités d’un système. Pour cette raison, ils ont trouvé une métrique pour quantifier les capacités de manière à être utilisée sur plusieurs champs, tels que la rédaction de programmes informatiques ou la génération des étapes nécessaires pour effectuer une tâche.

Avec TCTH, les tâches peuvent être quantifiées en les testant contre les humains. À titre d’exemple, les chercheurs ont constaté que les premières versions de LLMS n’ont réussi à effectuer aucun groupe de tâches données aux experts humains, qui pourraient les faire en une minute. En revanche, la dernière version de Claude 3.7 Sonnet peut effectuer 50% de certaines tâches qui ont pris les humains en moyenne 59 minutes à réaliser.

Une nouvelle métrique pour quantifier les capacités des systèmes d'IA en termes de capacités humaines

En créant une liste de tâches et en voyant combien de temps il faut un humain pour les réaliser, la nouvelle métrique pourrait être utilisée pour développer une référence pour mesurer la façon dont les modèles d’IA s’accumulent. Et de tels repères, suggèrent-ils, devraient être basés sur un taux de réussite de 50%, car il a jusqu’à présent été démontré qu’il est le plus robuste lorsqu’il est utilisé dans l’analyse de la distribution des données.

Dans le cadre de leur travail avec la nouvelle métrique, l’équipe de recherche a constaté que les modèles d’IA s’améliorent considérablement lors de la réalisation de longues tâches, telles que la programmation, la réalisation des affectations de cybersécurité, des affectations de raisonnement général et de l’apprentissage automatique. De tels progrès suggèrent qu’ils pourraient bientôt être utilisés pour effectuer des affectations majeures comme la découverte chimique ou même les projets d’ingénierie entiers.