Il y a 80 ans, nous avions des pigeons picorant de la nourriture pour "guider" des missiles. Grâce à eux, nous avons aujourd'hui une intelligence artificielle

Imaginez un missile guidé par une colombe. Cela semble absurde, mais cela s'est produit en pleine guerre: quelqu'un a proposé de les former à picorer l'objectif d'un écran et à rediriger le projectile. Le système n'a jamais été utilisé, mais a laissé quelque chose de plus puissant que l'anecdote: une façon d'apprendre basée sur la preuve, l'erreur et la récompense.

La comparaison aide à comprendre la logique, mais elle n'est pas littérale: aujourd'hui, il n'y a pas d'oiseaux dans les algorithmes; Ce qui est maintenu, c'est l'idée de renforcer les comportements à travers les signaux. Cette logique, simple et directe, est celle que de nombreux modèles d'intelligence artificielle suivent. Ce qui était auparavant une réponse conditionnée par la nourriture, c'est maintenant un score, une préférence ou une indication humaine que le modèle apprend à poursuivre.

Le mécanisme de test et de renforcement n'a pas été perdu au fil du temps. Dans les années 40 et 1950, le psychologue américain Burrhus Frederic Skinner a formalisé cette idée avec sa théorie du «conditionnement opérant»: un comportement augmente sa probabilité de se répéter si ses conséquences sont positives.

Bien que le comportementalisme ait été déplacé par des approches axées sur les processus mentaux, sa logique a trouvé un nouveau domaine en informatique. Depuis la fin des années 70 et, surtout, dans les années 80 et quatre-vingt-dix ans, Richard Sutton et Andrew Barto l'ont appliqué à la conception d'agents artificiels capables d'agir, de recevoir un signal et d'ajuster sa politique, car il recueille «l'apprentissage du renforcement: une introduction».

Pigeons comme précurseurs

Comme le souligne le MIT Technology Review, l'idée de mouler les comportements sans recourir à des règles fixes est devenue un outil utile pour enseigner les machines. À partir des années 1980, l'apprentissage par renforcement a commencé à être mis en œuvre dans des algorithmes qui explorent les environnements simulés, échouent, reçoivent des commentaires et réessayent.

Ils ne suivent pas les instructions humaines étape par étape: ils apprennent en fonction du résultat. Cette approche s'est avérée particulièrement efficace dans les tâches avec des objectifs clairs, tels que les jeux. Et c'est là qu'il a donné l'un de ses sauts les plus visibles.

L'histoire d'Alphago a marqué un avant et après dans l'intelligence artificielle. En mars 2016, il a battu le sud de Lee Sedol 4-1 dans une série de matchs GO. Il a réussi en combinant l'apprentissage supervisé des jeux humains et en apprenant le renforcement. Un an plus tard, Deepmind était un peu plus loin avec Alphago Zero. Au lieu de s'entraîner avec des données humaines, il est parti de zéro et a appris à jouer contre lui-même: chaque victoire a renforcé sa stratégie, chaque défaite de la corregía.

En 40 jours, il a dépassé non seulement le champion humain, mais aussi toutes les versions précédentes d'Alphago lui-même.

Aujourd'hui, l'apprentissage du renforcement n'est pas seulement utilisé dans les jeux; Il est également utilisé pour affiner les modèles derrière des services tels que Chatgpt. Le système OpenAI intègre une technique connue sous le nom de (RLHF): les gens comparent les réponses du modèle et ces préférences deviennent un signal qui guide leur évolution. Selon OpenAI, cette phase vise à aligner le comportement du modèle avec l'intention de l'utilisateur. Il n'apprend pas les règles explicites, mais les modèles qui maximisent la récompense, c'est-à-dire ce qui reçoit de meilleures évaluations.

Le GPT-5 a été plutôt décevant pour les utilisateurs au niveau de la rue. Mais il balaie dans un secteur clé: les entreprises

Le renforcement fonctionne, mais cela ne fonctionne pas pour tout. Son efficacité dépend du signal bien défini et représente bien l'objectif. S'il est déroutant ou mal conçu, le système peut adopter des stratégies inefficaces ou même problématiques. Cela a nourri un débat scientifique. Certains biologistes ont indiqué le paradoxe: l'apprentissage de l'association est considéré comme limité aux animaux, mais est célébré dans l'IA lorsqu'il produit des résultats avancés.

Ce n'est pas un accident que la grande technologie a adopté cette approche. Plus de 80 ans après cette expérience avec les pigeons, leurs picotements sont toujours présents dans la technologie que nous utilisons chaque jour.

Images | Musée NIST | Google | Simseo avec Gemini 2.5 Pro

Dans Simseo | Le cas étrange de la diminutive AI: comment les modèles minuscules apportent les couleurs aux mastodons de l'IA