Comment la théorie optimale du transport peut améliorer les modèles génératifs

Des recherches conjointes menées par Sosuke Ito de l'Université de Tokyo ont montré que la thermodynamique sans équilibre, une branche de la physique qui traite des systèmes en constante évolution, explique pourquoi la théorie optimale du transport, un cadre mathématique pour le changement de distribution optimal pour réduire les coûts, rend les modèles génératifs optimaux. Comme la thermodynamique sans équilibre n'a pas encore été entièrement exploitée dans la conception de modèles génératifs, la découverte offre une nouvelle approche thermodynamique de la recherche sur l'apprentissage automatique. Les résultats ont été publiés dans la revue Revue physique x.

La génération d'images s'est améliorée dans les géants et les limites au cours des dernières années: une vidéo d'une célébrité mangeant un bol de spaghetti qui représentait l'état de l'art il y a quelques années ne serait même pas considérée comme bonne aujourd'hui. Les algorithmes qui alimentent la génération d'images sont appelés modèles de diffusion, et ils contiennent un aléatoire appelé «bruit».

Pendant le processus de formation, le bruit est introduit dans les données d'origine par la dynamique de diffusion. Pendant le processus de génération, le modèle doit éliminer le bruit pour générer un nouveau contenu à partir des données bruyantes. Ceci est réalisé en considérant la dynamique inversée dans le temps, comme si elle jouait à la vidéo à l'envers. Une œuvre d'art et de la science de la construction d'un modèle qui produit un contenu de haute qualité spécifie quand et combien de bruit est ajouté aux données.

« La sélection de la dynamique de diffusion, également connue sous le nom de calendrier de bruit, a été controversée dans les modèles de diffusion depuis leur création », explique Ito, chercheur principal. « La dynamique optimale du transport s'est avérée empiriquement utile dans les modèles de diffusion, mais il n'a pas été théoriquement démontré pourquoi il en serait ainsi. »

Les scientifiques révèlent ce qui rend la théorie optimale des transports optimale dans les modèles génératifs

Bien que les modèles de diffusion aient été à l'origine inspirés par la thermodynamique sans équilibre et que la théorie optimale du transport est étroitement liée à la zone, les études précédentes ont négligé cette connexion. Ainsi, la question s'est posée: la thermodynamique sans équilibre pourrait-elle fournir un cadre théorique pour expliquer pourquoi la dynamique de transport optimale fonctionne si bien dans les modèles de diffusion?

Un progrès récent dans les relations de compromis thermodynamique, une technique décrivant la relation entre la dissipation thermodynamique et la vitesse des changements dans le système, s'est révélée incroyablement utile. En utilisant cette technique, les chercheurs ont dérivé des inégalités entre la dissipation thermodynamique et la robustesse de la génération de données dans les modèles de diffusion. Ils ont utilisé les inégalités nouvellement dérivées pour montrer que la dynamique optimale du transport assure la génération de données la plus robuste.

« Un résultat surprenant est que notre limite est serrée dans un certain ordre de grandeur pour les scénarios de génération d'images du monde réel », explique Ito. « Cela montre que nos inégalités sont utiles non seulement pour comprendre le protocole optimal dans les modèles de diffusion, mais aussi pour analyser l'application pratique de la génération de données d'image. »

De plus, il existe un autre aspect surprenant de ce projet. Ito élabore: « Les premier et deuxième auteurs de l'article sont des étudiants de premier cycle, et cette recherche a été partiellement menée dans le cadre d'une classe dans laquelle ils ont été inscrits. En particulier, le premier auteur, Kotaro Ikeda, a grandement contribué à cette étude, des calculs numériques à l'analyse théorique.

« Nous espérons que nos résultats sensibilisent à l'importance de la thermodynamique sans équilibre dans la communauté d'apprentissage automatique, et nous, y compris la prochaine génération, continuons d'explorer son utilité dans la compréhension du traitement biologique et artificiel de l'information. »