OpenAI dévoile un outil d'analyse comparative pour mesurer les performances d'ingénierie d'apprentissage automatique des agents d'IA
Une équipe de chercheurs en IA d’Open AI a développé un outil destiné aux développeurs d’IA pour mesurer les capacités d’ingénierie d’apprentissage automatique de l’IA. L'équipe a rédigé un article décrivant son outil de référence, qu'elle a nommé MLE-bench, et l'a publié sur le arXiv serveur de préimpression. L'équipe a également publié une page Web sur le site de l'entreprise présentant le nouvel outil, qui est open source.
Alors que l’apprentissage automatique par ordinateur et les applications artificielles associées ont prospéré au cours des dernières années, de nouveaux types d’applications ont été testés. L’une de ces applications est l’ingénierie d’apprentissage automatique, où l’IA est utilisée pour résoudre des problèmes de réflexion technique, mener des expériences et générer du nouveau code.
L'idée est d'accélérer le développement de nouvelles découvertes ou de trouver de nouvelles solutions à d'anciens problèmes tout en réduisant les coûts d'ingénierie, permettant ainsi la production de nouveaux produits à un rythme plus rapide.
Certains acteurs du domaine ont même suggéré que certains types d’ingénierie de l’IA pourraient conduire au développement de systèmes d’IA qui surpassent les humains dans la conduite des travaux d’ingénierie, rendant ainsi obsolète leur rôle dans le processus. D’autres acteurs du domaine ont exprimé leurs inquiétudes quant à la sécurité des futures versions des outils d’IA, s’interrogeant sur la possibilité que les systèmes d’ingénierie de l’IA découvrent que les humains ne sont plus du tout nécessaires.
Le nouvel outil d’analyse comparative d’OpenAI ne répond pas spécifiquement à ces préoccupations, mais ouvre la porte à la possibilité de développer des outils destinés à empêcher l’un ou les deux résultats.
Le nouvel outil est essentiellement une série de tests, dont 75 en tout provenant de la plateforme Kaggle. Les tests consistent à demander à une nouvelle IA d’en résoudre autant que possible. Tous sont basés sur le monde réel, comme demander à un système de déchiffrer un ancien parchemin ou de développer un nouveau type de vaccin à ARNm.
Les résultats sont ensuite examinés par le système pour voir dans quelle mesure la tâche a été résolue et si son résultat pourrait être utilisé dans le monde réel, après quoi un score est attribué. Les résultats de ces tests seront sans aucun doute également utilisés par l’équipe d’OpenAI comme critère pour mesurer les progrès de la recherche sur l’IA.
Notamment, MLE-bench teste les systèmes d’IA sur leur capacité à effectuer des travaux d’ingénierie de manière autonome, ce qui inclut l’innovation. Pour améliorer leurs scores à ces tests sur banc, il est probable que les systèmes d’IA testés devront également apprendre de leur propre travail, y compris peut-être de leurs résultats sur banc MLE.