L'IA s'apprend d'elle-même et surpasse les algorithmes conçus par l'homme

L'IA s'apprend d'elle-même et surpasse les algorithmes conçus par l'homme

Comme les humains, l’intelligence artificielle apprend par essais et erreurs, mais traditionnellement, elle exige que les humains lancent le bal en concevant les algorithmes et les règles qui régissent le processus d’apprentissage. Cependant, à mesure que la technologie de l’IA progresse, les machines font de plus en plus les choses elles-mêmes. Un exemple est un nouveau système d’IA développé par des chercheurs qui ont inventé leur propre façon d’apprendre, aboutissant à un algorithme qui a surpassé les algorithmes conçus par l’homme sur une série de tâches complexes.

Pendant des décennies, les ingénieurs humains ont conçu les algorithmes que les agents utilisent pour apprendre, en particulier l’apprentissage par renforcement (RL), dans lequel une IA apprend en recevant des récompenses pour ses actions réussies. Même si l’apprentissage vient naturellement aux humains et aux animaux, grâce à des millions d’années d’évolution, il doit être explicitement enseigné à l’IA. Ce processus est souvent lent et laborieux et est finalement limité par l’intuition humaine.

En s’inspirant de l’évolution, qui est un processus aléatoire d’essais et d’erreurs, les chercheurs ont créé une vaste population numérique d’agents d’IA. Ces agents ont essayé de résoudre de nombreuses tâches dans de nombreux environnements différents et complexes en utilisant une règle d'apprentissage particulière.

Les superviser était un « méta-réseau », une IA mère qui analysait les performances des agents, puis modifiait la règle d'apprentissage afin que la prochaine génération d'agents puisse apprendre plus rapidement et être plus performante. Cela a permis au système de découvrir une nouvelle règle d'apprentissage, DiscoRL, que les chercheurs ont appelée Disco57 (évaluée sur 57 jeux Atari), supérieure à toutes celles conçues auparavant par les humains.

L’équipe a ensuite utilisé Disco57 pour former un nouvel agent IA et a comparé ses performances à celles de certains des meilleurs algorithmes conçus par l’homme, tels que PPO et MuZero. Tout d’abord, il a été formé sur des jeux Atari bien connus, puis sur des défis inédits, notamment des jeux comme ProcGen, Crafter et NetHack.

Les résultats ont été exceptionnels. Sur l'Atari Benchmark (un ensemble de jeux vidéo Atari classiques utilisés pour évaluer les performances de l'IA), les utilisateurs formés par DiscoRL ont obtenu de meilleurs résultats que tous les algorithmes conçus par l'homme. Face à des défis inédits, il a fonctionné à un niveau de pointe, prouvant que le système avait découvert sa propre règle d'apprentissage.

« Nos résultats suggèrent que les algorithmes RL requis pour l'intelligence artificielle avancée pourraient bientôt être automatiquement découverts à partir des expériences des agents, plutôt que conçus manuellement », ont écrit les chercheurs dans leur article publié dans la revue Nature. « Ce travail a fait un pas en avant vers des algorithmes d'apprentissage par renforcement conçus par machine qui peuvent rivaliser et même surpasser certains des meilleurs algorithmes conçus manuellement dans des environnements difficiles. »

Écrit pour vous par notre auteur Paul Arnold, édité par Gaby Clark, et vérifié et révisé par Robert Egan, cet article est le résultat d'un travail humain minutieux. Nous comptons sur des lecteurs comme vous pour maintenir en vie le journalisme scientifique indépendant. Si ce reporting vous intéresse, pensez à faire un don (surtout mensuel). Vous obtiendrez un sans publicité compte en guise de remerciement.