Comment un sous-domaine de la physique a conduit à des percées dans l'IA, et de là au prix Nobel de cette année
John J. Hopfield et Geoffrey E. Hinton ont reçu le prix Nobel de physique le 8 octobre 2024 pour leurs recherches sur les algorithmes d'apprentissage automatique et les réseaux de neurones qui aident les ordinateurs à apprendre. Leurs travaux ont joué un rôle fondamental dans le développement des théories des réseaux neuronaux qui sous-tendent l’intelligence artificielle générative.
Un réseau de neurones est un modèle informatique constitué de couches de neurones interconnectés. Comme les neurones de votre cerveau, ces neurones traitent et envoient une information. Chaque couche neuronale reçoit une donnée, la traite et transmet le résultat à la couche suivante. À la fin de la séquence, le réseau a traité et affiné les données pour en faire quelque chose de plus utile.
Bien qu'il puisse paraître surprenant que Hopfield et Hinton aient reçu le prix de physique pour leurs contributions aux réseaux de neurones utilisés en informatique, leurs travaux sont profondément enracinés dans les principes de la physique, en particulier dans un sous-domaine appelé mécanique statistique.
En tant que scientifique des matériaux informatiques, j'étais ravi de voir ce domaine de recherche reconnu par ce prix. Les travaux de Hopfield et Hinton nous ont permis, à moi et à mes collègues, d'étudier un processus appelé apprentissage génératif pour les sciences des matériaux, une méthode qui est à l'origine de nombreuses technologies populaires comme ChatGPT.
Qu’est-ce que la mécanique statistique ?
La mécanique statistique est une branche de la physique qui utilise des méthodes statistiques pour expliquer le comportement de systèmes constitués d'un grand nombre de particules.
Au lieu de se concentrer sur des particules individuelles, les chercheurs utilisant la mécanique statistique examinent le comportement collectif de nombreuses particules. Voir comment ils agissent tous ensemble aide les chercheurs à comprendre les propriétés macroscopiques à grande échelle du système, telles que la température, la pression et la magnétisation.
Par exemple, le physicien Ernst Ising a développé un modèle de mécanique statistique pour le magnétisme dans les années 1920. Ising a imaginé le magnétisme comme le comportement collectif de spins atomiques interagissant avec leurs voisins.
Dans le modèle d'Ising, il existe des états d'énergie supérieurs et inférieurs pour le système, et le matériau est plus susceptible d'exister dans l'état d'énergie le plus bas.
Une idée clé de la mécanique statistique est la distribution de Boltzmann, qui quantifie la probabilité d’un état donné. Cette distribution décrit la probabilité qu'un système se trouve dans un état particulier, comme solide, liquide ou gazeux, en fonction de son énergie et de sa température.
Ising a prédit avec précision la transition de phase d'un aimant en utilisant la distribution de Boltzmann. Il a déterminé la température à laquelle le matériau passait de magnétique à non magnétique.
Les changements de phase se produisent à des températures prévisibles. La glace fond en eau à une température spécifique, car la distribution de Boltzmann prédit que lorsqu'elle se réchauffe, les molécules d'eau sont plus susceptibles de prendre un état désordonné ou liquide.
Dans les matériaux, les atomes s’organisent en structures cristallines spécifiques qui utilisent le moins d’énergie. Lorsqu’il fait froid, les molécules d’eau gèlent en cristaux de glace aux états énergétiques faibles.
De même, en biologie, les protéines se replient sous des formes à faible énergie, ce qui leur permet de fonctionner comme des anticorps spécifiques, comme une serrure et une clé, ciblant un virus.
Réseaux de neurones et mécanique statistique
Fondamentalement, tous les réseaux de neurones fonctionnent selon un principe similaire : minimiser l'énergie. Les réseaux de neurones utilisent ce principe pour résoudre des problèmes informatiques.
Par exemple, imaginez une image composée de pixels dont vous ne pouvez voir qu’une partie de l’image. Certains pixels sont visibles, tandis que les autres sont masqués. Pour déterminer ce qu'est l'image, vous envisagez toutes les manières possibles pour les pixels cachés de s'assembler avec les éléments visibles. À partir de là, vous choisirez parmi les états les plus probables parmi toutes les options possibles, selon la mécanique statistique.
Hopfield et Hinton ont développé une théorie des réseaux de neurones basée sur l'idée de la mécanique statistique. Tout comme Ising avant eux, qui a modélisé l’interaction collective des spins atomiques pour résoudre le problème de la photo avec un réseau neuronal, Hopfield et Hinton ont imaginé des interactions collectives de pixels. Ils ont représenté ces pixels comme des neurones.
Tout comme en physique statistique, l’énergie d’une image fait référence à la probabilité d’une configuration particulière de pixels. Un réseau Hopfield résoudrait ce problème en trouvant les arrangements de pixels cachés les plus faibles en énergie.
Cependant, contrairement à la mécanique statistique, où l'énergie est déterminée par des interactions atomiques connues, les réseaux neuronaux apprennent ces énergies à partir des données.
Hinton a popularisé le développement d'une technique appelée rétropropagation. Cette technique aide le modèle à comprendre les énergies d’interaction entre ces neurones, et cet algorithme sous-tend une grande partie de l’apprentissage moderne de l’IA.
La machine Boltzmann
S'appuyant sur les travaux de Hopfield, Hinton a imaginé un autre réseau neuronal, appelé machine Boltzmann. Il se compose de neurones visibles, que nous pouvons observer, et de neurones cachés, qui aident le réseau à apprendre des modèles complexes.
Dans une machine Boltzmann, vous pouvez déterminer la probabilité que l’image ait une certaine apparence. Pour déterminer cette probabilité, vous pouvez résumer tous les états possibles dans lesquels les pixels cachés pourraient se trouver. Cela vous donne la probabilité totale que les pixels visibles soient dans une disposition spécifique.
Mon groupe a travaillé sur la mise en œuvre de machines Boltzmann dans des ordinateurs quantiques pour l'apprentissage génératif.
Dans l'apprentissage génératif, le réseau apprend à générer de nouveaux échantillons de données qui ressemblent aux données que les chercheurs ont alimentées au réseau pour l'entraîner. Par exemple, il peut générer de nouvelles images de nombres manuscrits après avoir été entraîné sur des images similaires. Le réseau peut les générer en échantillonnant à partir de la distribution de probabilité apprise.
L'apprentissage génératif est à la base de l'IA moderne : c'est ce qui permet de générer des œuvres d'art, des vidéos et des textes IA.
Hopfield et Hinton ont considérablement influencé la recherche sur l’IA en tirant parti des outils de la physique statistique. Leurs travaux établissent des parallèles entre la manière dont la nature détermine les états physiques d’un matériau et la manière dont les réseaux neuronaux prédisent la probabilité de solutions à des problèmes informatiques complexes.