Les gagnants du prix Turing 2025 mettent en garde contre les risques des modèles non testés

Construisez un pont et testez-le en nous faisant passer sur les gens. Comme Andrew Barto et Richard Suttonrespectivement professeur émérite à l’Université du Massachusetts et professeur à l’Université de l’Alberta, vient de décerner le prestigieux Prix Turing pour le développement de‘Apprendre pour le renforcementDécrivez les risques du lancement de nouvelles technologies d’intelligence artificielle sans tests adéquats.

Barto souligne l’importance d’atténuer les conséquences négatives de la technologie à travers Pratiques d’ingénierie sûresune précaution qui croit n’est pas suivie par les entreprises qui développent l’IA.

Les critiques de Barto et Sutton au secteur de l’IA

Les deux scientifiques critiquent la vitesse à laquelle les entreprises technologiques développent des modèles de puissants mais enclins aux erreurs, collectant des fonds sans précédent et investissant des milliards dans les infrastructures pour la formation et l’exécution. Barto critique le secteur à être motivé par des incitations commerciales plutôt que par la recherche.

Sutton, en revanche, rejette comme «battage médiatique» le récit des entreprises technologiques sur l’intelligence générale artificielle (AGI), affirmant que les systèmes plus intelligents de personnes émergeront avec une meilleure compréhension de l’esprit humain.

Optimistes, malgré les critiques

Malgré les critiques, Barto et Sutton sont optimistes sur le potentiel de l’apprentissage du renforcement et de l’IA pour apporter des avantages au monde. Sutton estime que l’intelligence excessive n’est pas un problème, mais plutôt une occasion de devenir moins gourmand et plus consciente des situations des autres. Les deux scientifiques critiquent également les coupes proposées par l’administration Trump aux dépenses fédérales pour la recherche scientifiqueavertissant que cela pourrait compromettre le domaine scientifique des États-Unis et limiter les opportunités de recherche innovantes.

Les raisons du prix Turing

Inspirés par la psychologie, Barto et Sutton ont créé une méthode qui récompense les systèmes d’IA pour les comportements souhaités, facilitant le succès de groupes d’IA de premier plan tels que Openi et Google. Cette reconnaissance souligne l’importance des outils informatiques pour résoudre des problèmes scientifiques complexes dans les temps réduits
L’attribution du prix est survenue à un moment où les découvertes en IA ont également été reconnues dans les prix Nobel pour la chimie et la physique, mettant en évidence le rôle crucial de l’informatique.

Dans une série d’articles commencés dans les années 80, Barto et Sutton ont présenté les idées principales, construit les bases mathématiques et développé d’importants algorithmes pour l’apprentissage par le renforcement, l’une des approches les plus importantes pour la création de systèmes intelligents.

Le prix ACM AMURING, souvent défini comme le «prix Nobel de l’informatique», assure un prix de 1 million de dollars avec le soutien financier de Google, Inc. Le prix tire son nom d’Alan M. Turing, le mathématicien britannique qui a articulé les bases mathématiques de l’informatique.

Qu’est-ce que l’apprentissage pour le renforcement

Le domaine de l’intelligence artificielle traite généralement de la construction agents, c’est-à-dire des entités qui perçoivent et agissent. Les agents les plus intelligents sont ceux qui choisissent de meilleurs cours d’action. Par conséquent, l’idée que certains cours d’action sont meilleurs que d’autres sont fondamentaux pour l’IA. Là récompense – Un terme emprunté à la psychologie et aux neurosciences – indique un signal fourni à un agent par rapport à la qualité de son comportement. L’apprentissage pour le renforcement (RL) est le processus d’apprentissage d’un meilleur comportement en fonction de ce signal.

L’idée d’apprendre de la récompense est connue des entraîneurs animaux pendant des milliers d’années. Par la suite, l’article d’Alan Turing de 1950, « Machinerie informatique et intelligence »a fait face à la question « Les machines peuvent-elles penser?« Et a proposé une approche de l’apprentissage des machines basées sur des récompenses et des punitions.

Bien que Turing a déclaré avoir mené certaines expériences initiales avec cette approche e Arthur Samuel À la fin des années 1950, il a développé un programme pour jouer à Lady qui a appris à jouer seul, dans les décennies suivantes, il y a eu peu d’autres progrès dans cette veine de l’IA.

Au début des années 80, motivé par les observations de la psychologie, Barto et son doctorant Sutton ont commencé à formuler l’apprentissage par le renforcement en tant que problème général.

Ils se réfèrent aux bases mathématiques fournies par Processus de prise de décision de Markov (MDP)dans lequel un agent prend des décisions dans un environnement stochastique (déterminé au hasard), recevant un signal de signal après chaque transition et visant à maximiser sa récompense cumulative à long terme. Bien que la théorie du MDP standard suppose que tout ce qui concerne le MDP est connu de l’agent, la structure RL permet à l’environnement et aux récompenses d’être inconnus. Les exigences d’informations minimales de RL, combinées à la généralité du cadre MDP, vous permettent d’appliquer les algorithmes de RL à un large éventail de problèmes, comme expliqué plus loin.

Barto et Sutton, ensemble et avec d’autres, ont développé de nombreuses approches algorithmiques de base pour la RL. Parmi ceux-ci, leur principale contribution, Apprentissage pour la différence temporellequi représentait un pas en avant important dans la résolution de la récompense des problèmes de prévision, ainsi que les méthodes de troisième cycle et l’utilisation des réseaux de neurones comme outil pour représenter les fonctions apprises.

Les deux ont également proposé des projets par Agents qui combinent l’apprentissage et la planification, Démontrer la valeur de l’acquisition de la connaissance de l’environnement comme base de planification.

Peut-être que leur manuel était tout aussi influent, Apprentissage du renforcement: une introduction (1998), qui est toujours la référence standard dans le secteur et a été mentionné plus de 75 mille fois. Il a permis aux milliers de chercheurs de comprendre et de contribuer à ce domaine émergent et continue d’inspirer de nombreuses activités de recherche importantes dans l’informatique d’aujourd’hui.

Bien que les algorithmes de Barto et de Sutton se soient développés il y a des décennies, les plus grands progrès dans les applications pratiques de la RL se sont produits au cours des quinze dernières années grâce à la fusion de la RL avec les algorithmes d’apprentissage en profondeur (expérimentés par les gagnants de la Turing 2018 Bengio, Hinton et Leund Winners). Cela a conduit à la technique d’apprentissage en renforcement profond.

L’exemple le plus évident de RL a été la victoire du programme informatique Alphago sur les meilleurs joueurs humains de Go en 2016 et 2017. Un autre résultat récent important a été le développement du chatbot Chatgpt. Chatgpt est un grand modèle linguistique (LLM) formé à deux phases, dont la seconde utilise une technique appelée apprentissage du renforcement de la rétroaction humaine (RLHF), pour saisir les attentes humaines.