Combiner la prédiction du prochain jeton et la diffusion vidéo en vision par ordinateur et en robotique
Dans l’air du temps actuel de l’IA, les modèles séquentiels ont gagné en popularité en raison de leur capacité à analyser les données et à prédire la marche à suivre. Par exemple, vous avez probablement utilisé des modèles de prédiction du jeton suivant comme ChatGPT, qui anticipent chaque mot (jeton) dans une séquence pour former des réponses aux requêtes des utilisateurs. Il existe également des modèles de diffusion en séquence complète comme Sora, qui convertissent les mots en visuels éblouissants et réalistes en « débruitant » successivement une séquence vidéo entière.
Des chercheurs du Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ont proposé une modification simple du schéma de formation par diffusion qui rend cette séquence de débruitage considérablement plus flexible.
Lorsqu’ils sont appliqués à des domaines tels que la vision par ordinateur et la robotique, les modèles de diffusion du jeton suivant et de la séquence complète présentent des compromis en termes de capacités. Les modèles de jetons suivants peuvent cracher des séquences dont la longueur varie.
Cependant, ils créent ces générations sans être conscients des états souhaitables dans un avenir lointain – comme orienter leur génération de séquences vers un certain objectif situé à 10 jetons – et nécessitent donc des mécanismes supplémentaires pour une planification à long terme (à long terme). Les modèles de diffusion peuvent effectuer un tel échantillonnage conditionné dans le futur, mais n'ont pas la capacité des modèles de jeton suivant à générer des séquences de longueur variable.
Les chercheurs du CSAIL souhaitent combiner les atouts des deux modèles. Ils ont donc créé une technique de formation de modèles de séquence appelée « Forçage de diffusion ». Le nom vient de « Teacher Forcing », le programme de formation conventionnel qui décompose la génération de séquences complètes en étapes plus petites et plus faciles de la génération suivante de jetons (un peu comme un bon enseignant simplifiant un concept complexe).
Le forçage de diffusion a trouvé un terrain d'entente entre les modèles de diffusion et le forçage des enseignants : ils utilisent tous deux des programmes de formation qui impliquent de prédire les jetons masqués (bruyants) des jetons non masqués. Dans le cas des modèles de diffusion, ils ajoutent progressivement du bruit aux données, ce qui peut être considéré comme un masquage fractionnaire.
La méthode Diffusion Forcing des chercheurs du MIT entraîne les réseaux neuronaux à nettoyer une collection de jetons, en supprimant différentes quantités de bruit au sein de chacun tout en prédisant simultanément les quelques jetons suivants. Le résultat : un modèle de séquence flexible et fiable qui a abouti à des vidéos artificielles de meilleure qualité et à une prise de décision plus précise pour les robots et les agents IA.
En triant les données bruitées et en prédisant de manière fiable les prochaines étapes d'une tâche, le forçage de diffusion peut aider un robot à ignorer les distractions visuelles pour effectuer des tâches de manipulation. Il peut également générer des séquences vidéo stables et cohérentes et même guider un agent IA à travers des labyrinthes numériques.
Cette méthode pourrait potentiellement permettre aux robots domestiques et industriels de se généraliser à de nouvelles tâches et d’améliorer le divertissement généré par l’IA.
« Les modèles de séquence visent à conditionner le passé connu et à prédire l'avenir inconnu, un type de masquage binaire. Cependant, le masquage n'a pas besoin d'être binaire », explique l'auteur principal du doctorat en génie électrique et informatique du MIT (EECS). . étudiant et membre du CSAIL Boyuan Chen.
« Avec le forçage de diffusion, nous ajoutons différents niveaux de bruit à chaque jeton, servant ainsi efficacement de type de masquage fractionnaire. Au moment du test, notre système peut « démasquer » une collection de jetons et diffuser une séquence dans un avenir proche avec un bruit moindre. Il sait à quoi se fier dans ses données pour surmonter les entrées non distribuées.
Dans plusieurs expériences, Diffusion Forcing a réussi à ignorer les données trompeuses pour exécuter des tâches tout en anticipant les actions futures.
Lorsqu'il est mis en œuvre dans un bras robotique, par exemple, il permet d'échanger deux fruits jouets sur trois tapis circulaires, un exemple minimal d'une famille de tâches à long terme qui nécessitent des souvenirs. Les chercheurs ont entraîné le robot en le contrôlant à distance (ou en le téléopérant) en réalité virtuelle.
Le robot est entraîné à imiter les mouvements de l'utilisateur depuis sa caméra. Bien qu'il soit parti de positions aléatoires et ait vu des distractions comme un sac de courses bloquant les marqueurs, il a placé les objets dans ses emplacements cibles.
Pour générer des vidéos, ils ont formé Diffusion Forcing sur le jeu « Minecraft » et les environnements numériques colorés créés dans le DeepMind Lab Simulator de Google. Lorsqu'on lui donnait une seule image de séquence, la méthode produisait des vidéos plus stables et de plus haute résolution que des lignes de base comparables comme un modèle de diffusion en séquence complète de type Sora et des modèles de jeton suivant de type ChatGPT.
Ces approches créaient des vidéos qui semblaient incohérentes, ces dernières ne parvenant parfois pas à générer une vidéo fonctionnelle au-delà de seulement 72 images.
Diffusion Forcing génère non seulement des vidéos sophistiquées, mais peut également servir de planificateur de mouvements qui oriente vers les résultats ou les récompenses souhaités. Grâce à sa flexibilité, Diffusion Forcing peut générer de manière unique des plans avec des horizons variables, effectuer une recherche arborescente et intégrer l'intuition que le futur lointain est plus incertain que le futur proche.
Dans la tâche de résolution d'un labyrinthe 2D, le Diffusion Forcing a surpassé six lignes de base en générant des plans plus rapides menant à l'emplacement de l'objectif, indiquant qu'il pourrait être un planificateur efficace pour les robots à l'avenir.
Dans chaque démo, Diffusion Forcing a agi comme un modèle de séquence complète, un modèle de prédiction du jeton suivant, ou les deux. Selon Chen, cette approche polyvalente pourrait potentiellement servir de colonne vertébrale puissante pour un « modèle mondial », un système d'IA capable de simuler la dynamique du monde en s'entraînant sur des milliards de vidéos Internet.
Cela permettrait aux robots d’effectuer de nouvelles tâches en imaginant ce qu’ils doivent faire en fonction de leur environnement. Par exemple, si vous demandez à un robot d’ouvrir une porte sans avoir été formé à la manière de le faire, le modèle pourrait produire une vidéo montrant à la machine comment le faire.
L’équipe cherche actuellement à étendre sa méthode à des ensembles de données plus importants et aux derniers modèles de transformateurs pour améliorer les performances. Ils ont l’intention d’élargir leurs travaux pour construire un cerveau robot de type ChatGPT qui aide les robots à effectuer des tâches dans de nouveaux environnements sans démonstration humaine.
« Avec Diffusion Forcing, nous franchissons une étape vers le rapprochement de la génération vidéo et de la robotique », déclare l'auteur principal Vincent Sitzmann, professeur adjoint au MIT et membre du CSAIL, où il dirige le groupe Scene Representation.
« En fin de compte, nous espérons pouvoir utiliser toutes les connaissances stockées dans les vidéos sur Internet pour permettre aux robots d'aider dans la vie de tous les jours. De nombreux défis de recherche encore plus passionnants restent à relever, comme par exemple comment les robots peuvent apprendre à imiter les humains en les observant même lorsque leur nos propres corps sont si différents du nôtre. »
L'équipe présentera ses recherches à NeurIPS en décembre, et son article est disponible sur le arXiv serveur de préimpression.