Les pionniers de l’IA qui ont canalisé les machines «hédonistes» remportent le premier prix de l’informatique
L’enseignement des machines dans la façon dont les entraîneurs animaux façonnent le comportement des chiens ou des chevaux ont été une méthode importante pour développer l’intelligence artificielle et qui a été reconnue mercredi avec le prix de l’informatique supérieur.
Deux pionniers dans le domaine de l’apprentissage du renforcement, Andrew Barto et Richard Sutton, sont les gagnants du prix Am Turing de cette année, l’équivalent du monde technologique du prix Nobel.
Des recherches selon lesquelles Barto, 76 ans, et Sutton, 67 ans, ont commencé à la fin des années 1970 ont ouvert la voie à certaines des dernières percées de l’IA de la dernière décennie. Au cœur de leur travail, il allait canaliser des machines dites « hédonistes » qui pouvaient en permanence leur comportement en réponse à des signaux positifs.
L’apprentissage par renforcement est ce qui a conduit un programme informatique Google à battre les meilleurs joueurs humains du monde de l’ancien jeu de société chinois en 2016 et 2017. Il a également été une technique clé pour améliorer les outils d’IA populaires comme Chatgpt, l’optimisation du trading financier et aidant une main robotique à résoudre un cube de Rubik.
Mais Barto a déclaré que le terrain n’était « pas à la mode » lorsque lui et son doctorant, Sutton, ont commencé à fabriquer leurs théories et algorithmes à l’Université du Massachusetts, Amherst.
« Nous étions en quelque sorte dans le désert », a déclaré Barto dans une interview avec l’Associated Press. « C’est pourquoi il est si gratifiant de recevoir ce prix, de voir cela devenir plus reconnu comme quelque chose de pertinent et d’intéressant. Au début, ce n’était pas le cas. »

Google parraine le prix annuel de 1 million de dollars, qui a été annoncé mercredi par l’Association for Computing Machinery.
Barto, maintenant pris sa retraite de l’Université du Massachusetts, et Sutton, professeur de longue date à l’Université du Canada de l’Alberta, ne sont pas les premiers pionniers de l’IA à remporter le prix du nom du mathématicien britannique, du code-briseur et du premier penseur d’IA Alan Turing. Mais leurs recherches ont directement cherché à répondre à l’appel de Turing en 1947 à une machine qui « peut apprendre de l’expérience » – ce que Sutton décrit comme « sans doute l’idée essentielle de l’apprentissage du renforcement ».
En particulier, ils ont emprunté à des idées en psychologie et en neurosciences sur la façon dont les neurones de recherche de plaisir répondent aux récompenses ou aux punitions. Dans un article historique publié au début des années 1980, Barto et Sutton ont établi leur nouvelle approche sur une tâche spécifique dans un monde simulé: équilibrez un poteau sur un chariot en mouvement pour l’empêcher de tomber. Les deux informaticiens ont ensuite co-écrit un manuel largement utilisé sur l’apprentissage par renforcement.
« Les outils qu’ils ont développés restent un pilier central du boom de l’IA et ont rendu des avancées majeures, attiré des légions de jeunes chercheurs et conduit des milliards de dollars d’investissements », a déclaré le scientifique en chef de Google, Jeff Dean, dans une déclaration écrite.
Dans une interview conjointe avec l’AP, Barto et Sutton ne sont pas toujours d’accord sur la façon d’évaluer les risques des agents de l’IA qui cherchent constamment à s’améliorer. Ils ont également distingué leur travail de la branche de la technologie génératrice de l’IA qui est actuellement à la mode – les modèles de grande langue derrière les chatbots fabriqués par Openai, Google et d’autres géants de la technologie qui imitent l’écriture humaine et d’autres médias.

« Le grand choix est, essayez-vous d’apprendre des données des gens, ou essayez-vous d’apprendre de la propre vie d’un agent (IA) et de sa propre expérience? » Dit Sutton.
Sutton a rejeté ce qu’il décrit comme des préoccupations excessives concernant la menace de l’IA pour l’humanité, tandis que Barto était en désaccord et a dit « vous devez être conscient de conséquences potentielles inattendues ».
Barto, à la retraite pendant 14 ans, se décrit comme un luddite, tandis que Sutton adopte un avenir qu’il attend d’avoir des êtres d’une plus grande intelligence que les humains actuels – une idée parfois connue sous le nom de posthumanisme.
« Les gens sont des machines. Ce sont des machines incroyables et merveilleuses », mais ce ne sont pas non plus le « produit final » et pourraient mieux fonctionner, a déclaré Sutton.
« Cela fait intrinsèquement une partie de l’entreprise d’IA », a déclaré Sutton. « Nous essayons de nous comprendre et, bien sûr, de faire des choses qui peuvent fonctionner encore mieux. Peut-être devenir de telles choses. »
