La "boîte noire" de l'IA scientifique ne fait pas le poids face à une méthode vieille de 200 ans

La « boîte noire » de l’IA scientifique ne fait pas le poids face à une méthode vieille de 200 ans

Les chercheurs de l’Université Rice ont formé une forme d’intelligence artificielle appelée réseau neuronal d’apprentissage en profondeur pour reconnaître les flux complexes d’air ou d’eau et prédire comment les flux changeront au fil du temps. Ce visuel illustre les différences substantielles dans l’échelle des caractéristiques que le modèle affiche pendant la formation (en haut) et les caractéristiques qu’il apprend à reconnaître (en bas) pour faire ses prédictions. Crédit : de P. Hassanzadeh/Rice University

L’un des outils les plus anciens de la physique computationnelle – une technique mathématique vieille de 200 ans connue sous le nom d’analyse de Fourier – peut révéler des informations cruciales sur la façon dont une forme d’intelligence artificielle appelée réseau neuronal profond apprend à effectuer des tâches impliquant une physique complexe comme la modélisation du climat et de la turbulence. , selon une nouvelle étude.

La découverte par des chercheurs en génie mécanique de l’Université Rice est décrite dans une étude en libre accès publiée dans Nexus PNAS.

« Il s’agit du premier cadre rigoureux pour expliquer et guider l’utilisation des réseaux de neurones profonds pour des systèmes dynamiques complexes tels que le climat », a déclaré l’auteur correspondant de l’étude, Pedram Hassanzadeh. « Cela pourrait considérablement accélérer l’utilisation de l’apprentissage scientifique en profondeur dans la science du climat et conduire à des projections de changement climatique beaucoup plus fiables. »

Dans l’article, Hassanzadeh, Adam Subel et Ashesh Chattopadhyay, tous deux anciens étudiants, et Yifei Guan, un associé de recherche postdoctoral, ont détaillé leur utilisation de l’analyse de Fourier pour étudier un réseau neuronal d’apprentissage en profondeur qui a été formé pour reconnaître les flux complexes d’air dans l’atmosphère. ou de l’eau dans l’océan et de prédire comment ces flux évolueraient avec le temps.

Leur analyse a révélé « non seulement ce que le réseau de neurones avait appris, cela nous a également permis de connecter directement ce que le réseau avait appris à la physique du système complexe qu’il modélisait », a déclaré Hassanzadeh.

« Les réseaux de neurones profonds sont tristement difficiles à comprendre et sont souvent considérés comme des » boîtes noires «  », a-t-il déclaré. « C’est l’une des principales préoccupations de l’utilisation des réseaux de neurones profonds dans les applications scientifiques. L’autre est la généralisabilité : ces réseaux ne peuvent pas fonctionner pour un système différent de celui pour lequel ils ont été formés. »

Hassanzadeh a déclaré que le cadre analytique que son équipe présente dans l’article « ouvre la boîte noire, nous permet de regarder à l’intérieur pour comprendre ce que les réseaux ont appris et pourquoi, et nous permet également de relier cela à la physique du système qui a été appris ».

Subel, l’auteur principal de l’étude, a commencé la recherche en tant que premier cycle de Rice et est maintenant étudiant diplômé à l’Université de New York. Il a déclaré que le cadre pourrait être utilisé en combinaison avec des techniques d’apprentissage par transfert pour « permettre la généralisation et, en fin de compte, accroître la fiabilité de l’apprentissage scientifique en profondeur ».

Alors que de nombreuses études antérieures avaient tenté de révéler comment les réseaux d’apprentissage en profondeur apprennent à faire des prédictions, Hassanzadeh a déclaré que lui, Subel, Guan et Chattopadhyay avaient choisi d’aborder le problème sous un angle différent.

« Les outils d’apprentissage automatique courants pour comprendre les réseaux de neurones n’ont pas montré beaucoup de succès pour les applications de systèmes naturels et d’ingénierie, du moins pour que les résultats puissent être connectés à la physique », a déclaré Hassanzadeh. « Notre pensée était: » Faisons quelque chose de différent. Utilisons un outil commun pour étudier la physique et appliquons-le à l’étude d’un réseau de neurones qui a appris à faire de la physique « . »

Il a déclaré que l’analyse de Fourier, qui a été proposée pour la première fois dans les années 1820, est une technique préférée des physiciens et des mathématiciens pour identifier les modèles de fréquence dans l’espace et le temps.

La

La formation de réseaux de neurones profonds de pointe nécessite une grande quantité de données, et le fardeau du recyclage, avec les méthodes actuelles, est toujours important. Après avoir formé et recyclé un réseau d’apprentissage en profondeur pour effectuer différentes tâches impliquant une physique complexe, les chercheurs de l’Université Rice ont utilisé l’analyse de Fourier pour comparer les 40 000 noyaux des deux itérations et ont découvert que plus de 99 % étaient similaires. Cette illustration montre les spectres de Fourier des quatre noyaux qui différaient le plus avant (à gauche) et après (à droite) le réentraînement. Les résultats démontrent le potentiel de la méthode pour identifier des voies de recyclage plus efficaces qui nécessitent beaucoup moins de données. Crédit : P. Hassanzadeh/Université Rice

« Les gens qui font de la physique regardent presque toujours les données dans l’espace de Fourier », a-t-il déclaré. « Cela facilite la physique et les mathématiques. »

Par exemple, si quelqu’un avait un enregistrement minute par minute des relevés de température extérieure pendant une période d’un an, l’information serait une chaîne de 525 600 chiffres, un type d’ensemble de données que les physiciens appellent une série chronologique. Pour analyser la série chronologique dans l’espace de Fourier, un chercheur utiliserait la trigonométrie pour transformer chaque nombre de la série, créant un autre ensemble de 525 600 nombres qui contiendraient des informations de l’ensemble d’origine mais seraient assez différents.

« Au lieu de voir la température à chaque minute, vous ne verriez que quelques pics », a déclaré Subel. « L’un serait le cosinus de 24 heures, qui serait le cycle jour et nuit des hauts et des bas. Ce signal était là tout au long de la série chronologique, mais l’analyse de Fourier vous permet de voir facilement ces types de signaux à la fois dans le temps et espace. »

Sur la base de cette méthode, les scientifiques ont développé d’autres outils d’analyse temps-fréquence. Par exemple, les transformations passe-bas filtrent le bruit de fond et les filtres passe-haut font l’inverse, permettant de se concentrer sur le fond.

L’équipe d’Hassanzadeh a d’abord effectué la transformation de Fourier sur l’équation de son modèle d’apprentissage en profondeur entièrement formé. Chacun des quelque 1 million de paramètres du modèle agit comme des multiplicateurs, appliquant plus ou moins de poids à des opérations spécifiques dans l’équation lors des calculs du modèle. Dans un modèle non entraîné, les paramètres ont des valeurs aléatoires.

Ceux-ci sont ajustés et affinés pendant la formation à mesure que l’algorithme apprend progressivement à arriver à des prédictions de plus en plus proches des résultats connus dans les cas de formation. Structurellement, les paramètres du modèle sont regroupés dans quelque 40 000 matrices cinq par cinq, ou noyaux.

« Lorsque nous avons pris la transformée de Fourier de l’équation, cela nous a dit que nous devrions regarder la transformée de Fourier de ces matrices », a déclaré Hassanzadeh. « Nous ne le savions pas. Personne n’a jamais fait cette partie auparavant, regardé les transformées de Fourier de ces matrices et essayé de les connecter à la physique.

« Et lorsque nous avons fait cela, il est apparu que ce que le réseau de neurones apprend est une combinaison de filtres passe-bas, de filtres passe-haut et de filtres de Gabor », a-t-il déclaré.

« La belle chose à ce sujet est que le réseau de neurones ne fait aucune magie », a déclaré Hassanzadeh. « Cela ne fait rien de fou. C’est en fait ce qu’un physicien ou un mathématicien aurait pu essayer de faire. Bien sûr, sans la puissance des réseaux de neurones, nous ne savions pas comment combiner correctement ces filtres. Mais quand nous en parlons à des physiciens travailler, ils adorent ça. Parce qu’ils sont, comme, ‘Oh! Je sais ce que sont ces choses. C’est ce que le réseau de neurones a appris. Je vois.' »

Subel a déclaré que les résultats ont des implications importantes pour l’apprentissage scientifique en profondeur, et suggèrent même que certaines choses que les scientifiques ont apprises en étudiant l’apprentissage automatique dans d’autres contextes, comme la classification des images statiques, peuvent ne pas s’appliquer à l’apprentissage automatique scientifique.

« Nous avons constaté que certaines des connaissances et des conclusions de la littérature sur l’apprentissage automatique qui ont été obtenues à partir de travaux sur des applications commerciales et médicales, par exemple, ne s’appliquent pas à de nombreuses applications critiques en science et en ingénierie, telles que la modélisation du changement climatique », a déclaré Subel. . « Ceci, en soi, est une implication majeure. »

Fourni par l’Université Rice