Élargir l’utilisation et la portée des modèles de diffusion d’IA
Les chercheurs de l’Université de Californie San Diego et d’autres institutions travaillent sur un moyen de créer un type d’intelligence artificielle (IA) appelée modèles de diffusion – un type d’IA qui peut générer de nouveaux contenus tels que des images et des vidéos par une formation sur de grands ensembles de données – plus efficaces et largement applicables.
Actuellement, les modèles de diffusion fonctionnent en apportant de petites modifications incrémentielles aux données d’entrée, permettant au modèle d’apprendre des modèles et des relations complexes – un processus qui peut être lent et limité dans l’application. Ainsi, Yian MA, professeur adjoint au Halıcıoğlu Data Science Institute (HDSI) de l’UC San Diego, une partie de l’École d’informatique, d’informations et de sciences des données, et ses collègues de recherche ont développé une nouvelle approche qui permet des sauts plus importants entre les étapes, ce qui rend le processus plus rapide et plus flexible.
Dans un article récent intitulé «Kernel à transition inverse: un cadre flexible pour accélérer l’inférence de la diffusion», MA et des chercheurs de l’Université de l’Illinois Urbana-Champaign (UIUC), de l’Université de Science et de la technologie de Hong Kong (HKUST), de l’Université de Hong Kong (HKU) et de la recherche Salesforce AI ont présenté une analyse d’une version généralisée des modèles de diffusion.
Le document a été reconnu comme un document de projecteur à Neirips 2024 – l’une des plus grandes conférences de l’apprentissage automatique – et il a été récompensé le meilleur article lors de l’atelier international de la conférence sur l’apprentissage automatique (ICML 2024): « Inférence probabiliste structurée et modélisation générative ».
« Les modèles de diffusion classiques ajoutent progressivement un petit bruit gaussien (une variable aléatoire normale avec une petite amplitude) pour transformer la distribution des données vers une distribution normale standard simple. Les modèles apprennent ensuite les fonctions pour spécifier les changements incrémentiels et` `Denoise » pour transformer la variable aléatoire normale standard à une variable qui suit la distribution des données », a déclaré Ma.
Selon MA, cependant, l’équipe de recherche ne nécessite pas que les mises à jour incrémentielles soient un petit bruit gaussien. Au lieu de cela, ils considèrent que les sauts plus importants entre les étapes qui suivent les distributions au-delà de celles normales. Ceux-ci peuvent être des distributions à longue queue ou même des distributions générées par des algorithmes de sous-programme. En utilisant cette technique, les chercheurs ont pu réduire le nombre d’étapes intermédiaires et accélérer l’algorithme pour les modèles de diffusion, ce qui les rend plus largement applicables à diverses tâches.
« Nous pouvons voir qu’une telle généralisation améliore l’efficacité des modèles de diffusion. Potentiellement, cela pourrait également conduire à une utilisation beaucoup plus large des modèles de diffusion, tels que la génération de langue et, plus intéressant, le raisonnement à long terme et la prise de décision », a déclaré Ma.
En plus de MA, l’équipe de recherche comprend Xupeng Huang, actuellement étudiante en visite à HDSI; Tong Zhang, de UIUC; Difan Zou et Yi Zhang de HKU; et Hanze Dong de Salesforce.
« Ce qui est le plus excitant dans ce travail, c’est qu’il peut utiliser presque n’importe quelle étape de transition intermédiaire, qui peut à la fois accélérer l’algorithme et rendre l’algorithme plus largement applicable à diverses tâches en aval », a déclaré Ma. « Je m’attendrais à ce que ce travail soit appliqué à la génération de texte et à la génération multimodale, au raisonnement à long terme, à l’utilisation des outils et à la résolution de problèmes, ainsi qu’aux tâches décisionnelles pour accélérer et améliorer les résultats de ces tâches. »