Les jetons et les décodeurs permettent l'édition et la déception sans générateurs

La génération d'images de l'IA – qui s'appuie sur les réseaux de neurones pour créer de nouvelles images à partir d'une variété d'intrants, y compris des invites de texte – devrait devenir une industrie d'un milliard de dollars d'ici la fin de cette décennie. Même avec la technologie d'aujourd'hui, si vous vouliez faire une image fantaisiste de, disons, un ami plantant un drapeau sur Mars ou volant sans préoccupation dans un trou noir, cela pourrait prendre moins d'une seconde.

Cependant, avant de pouvoir effectuer des tâches comme celle-ci, les générateurs d'images sont généralement formés sur des ensembles de données massifs contenant des millions d'images qui sont souvent associés à du texte associé. La formation de ces modèles génératifs peut être une corvée ardue qui prend des semaines ou des mois, consommant de vastes ressources de calcul dans le processus.

Mais que se passe-t-il s'il était possible de générer des images via des méthodes d'IA sans utiliser de générateur du tout? Cette réelle possibilité, ainsi que d'autres idées intrigantes, ont été décrites dans un document de recherche présenté à la Conférence internationale sur l'apprentissage automatique (ICML 2025), qui s'est tenue à Vancouver, en Colombie-Britannique, plus tôt cet été.

L'article, décrivant de nouvelles techniques pour manipuler et générer des images, est publié sur le arxiv serveur de préimprimée.

Il a été écrit par Lukas Lao Beyer, chercheur étudiant diplômé au Laboratoire du MIT pour l'information et les systèmes de décision (LIDS); Tianhong Li, un post-doctorant au Laboratoire d'informatique et d'intelligence artificielle du MIT (CSAIL); Xinlei Chen de Facebook AI Research; Sertac Karaman, professeur du MIT en aéronautique et astronautique et directeur des couvercles; et Kaiming He, professeur agrégé du MIT en génie électrique et en informatique.

Cet effort de groupe a eu ses origines dans un projet de classe pour un séminaire de diplômé sur des modèles génératifs profonds que Lao Beyer a pris l'automne dernier. Dans les conversations au cours du semestre, il est devenu évident à la fois pour Lao Beyer et lui, qui a enseigné le séminaire, que cette recherche avait un réel potentiel, qui allait bien au-delà des limites d'une affectation typique de devoirs. D'autres collaborateurs ont rapidement été amenés dans l'effort.

Le point de départ de l'enquête de Lao Beyer a été un article de juin 2024, écrit par des chercheurs de l'Université technique de Munich et de la société chinoise Bytedance, qui a introduit une nouvelle façon de représenter des informations visuelles appelées jetons unidimensionnelles. Avec cet appareil, qui est également une sorte de réseau neuronal, une image 256×256 pixels peut être traduite en une séquence de seulement 32 nombres, appelés jetons.

« Je voulais comprendre comment un niveau de compression aussi élevé pouvait être atteint et ce que les jetons eux-mêmes représentaient réellement, » dit Lao Beyer.

La génération précédente de jetons divulguerait généralement la même image en un tableau de jetons 16×16 – avec chaque token encapsulant des informations, sous une forme très condensée, qui correspond à une partie spécifique de l'image d'origine. Les nouveaux jetons 1D peuvent coder plus efficacement une image, en utilisant beaucoup moins de jetons dans l'ensemble, et ces jetons sont capables de capturer des informations sur l'image entière, pas seulement un seul quadrant.

De plus, chacun de ces jetons est un nombre à 12 chiffres composé de 1 et 0, permettant 2¹² (ou environ 4 000) possibilités.

« C'est comme un vocabulaire de 4 000 mots qui constitue une langue abstraite et cachée parlée par l'ordinateur, » Explique-t-il. « Ce n'est pas comme un langage humain, mais nous pouvons toujours essayer de découvrir ce que cela signifie. »

C'est exactement ce que Lao Beyer avait initialement entrepris d'explorer – un travail qui a fourni la graine pour le papier ICML 2025. L'approche qu'il a adoptée était assez simple. Si vous voulez savoir ce que fait un jeton particulier, Lao Beyer dit, « Vous pouvez simplement le retirer, échanger dans une valeur aléatoire et voir s'il y a un changement reconnaissable dans la sortie. »

Le remplacement d'un jeton, a-t-il trouvé, modifie la qualité de l'image, transformant une image à basse résolution en une image haute résolution ou vice versa. Un autre jeton a affecté le flou en arrière-plan, tandis qu'un autre a encore influencé la luminosité. Il a également trouvé un jeton qui est lié au « pose, » ce qui signifie que à l'image d'un Robin, par exemple, la tête de l'oiseau pourrait passer de droite à gauche.

« C'était un résultat jamais vu auparavant, car personne n'avait observé des changements visuellement identifiables de la manipulation de jetons, » Le Lao Beyer dit. La découverte a soulevé la possibilité d'une nouvelle approche pour éditer des images. Et le groupe MIT a montré, en fait, comment ce processus peut être rationalisé et automatisé, de sorte que les jetons n'ont pas à être modifiés à la main, un à la fois.

Lui et ses collègues ont obtenu un résultat encore plus consécutif impliquant la génération d'images. Un système capable de générer des images nécessite normalement un tokenzer, qui comprime et code pour les données visuelles, ainsi qu'un générateur qui peut combiner et organiser ces représentations compactes afin de créer de nouvelles images. Les chercheurs du MIT ont trouvé un moyen de créer des images sans utiliser de générateur du tout.

Leur nouvelle approche utilise un tokenizer 1D et un soi-disant détokenzer (également connu sous le nom de décodeur), qui peut reconstruire une image à partir d'une chaîne de jetons. Cependant, avec des conseils fournis par un réseau neuronal standard appelé Clip – qui ne peut pas générer d'images seuls, mais peut mesurer la façon dont une image donnée correspond à une certaine invite de texte – l'équipe a pu convertir une image d'un panda rouge, par exemple, en tigre.

De plus, ils pourraient créer des images d'un tigre, ou de toute autre forme souhaitée, en commençant complètement à partir de zéro – d'une situation dans laquelle tous les jetons sont initialement attribués des valeurs aléatoires (puis a modifié de manière itérative de sorte que l'image reconstruite correspond de plus en plus à l'invite de texte souhaitée).

Le groupe a démontré qu'avec cette même configuration – en repensant sur un tokenizer et un détokenzer, mais pas de générateur – ils pouvaient aussi faire « intaini, » Ce qui signifie remplir des parties d'images qui avaient été effondrées en quelque sorte. Éviter l'utilisation d'un générateur pour certaines tâches pourrait entraîner une réduction significative des coûts de calcul car les générateurs, comme mentionné, nécessitent normalement une formation approfondie.

Ce qui peut sembler étrange dans les contributions de cette équipe, explique-t-il, « est que nous n'avons rien inventé de nouveau. Nous n'avons pas inventé de tokenizer 1D, et nous n'avons pas non plus inventé le modèle de clip. Mais nous avons découvert que de nouvelles capacités peuvent survenir lorsque vous rassemblez toutes ces pièces. »

« Ce travail redéfinit le rôle des tokeniseurs, » Commentaires Sounting Xie, informaticien de l'Université de New York. « Il montre que les jetons d'image – Tools généralement utilisés uniquement pour compresser les images – peuvent en fait beaucoup plus. Le fait qu'un tokenizer 1D simple (mais hautement compressé) peut gérer des tâches comme la détention ou l'édition guidée par texte, sans avoir besoin de former un modèle génératif complet, est assez surprenant. »

Zhuang Liu de l'Université de Princeton est d'accord, disant que le travail du groupe du MIT « montre que nous pouvons générer et manipuler les images d'une manière beaucoup plus facile que nous le pensions auparavant. Fondamentalement, il démontre que la génération d'images peut être un sous-produit d'un compresseur d'image très efficace, réduisant potentiellement le coût de la génération d'images à plusieurs reprises. »

Il pourrait y avoir de nombreuses applications en dehors du domaine de la vision par ordinateur, suggère Karaman. « Par exemple, nous pourrions envisager la tokenisation des actions des robots ou des voitures autonomes de la même manière, ce qui peut rapidement élargir l'impact de ce travail. »

Lao Beyer pense dans des lignes similaires, notant que la quantité extrême de compression offerte par les tokeniseurs 1D vous permet de faire « des choses incroyables, » qui pourrait être appliqué à d'autres champs. Par exemple, dans le domaine des voitures autonomes, qui est l'un de ses intérêts de recherche, les jetons pourraient représenter, au lieu d'images, les différents itinéraires qu'un véhicule pourrait emprunter.

Xie est également intrigué par les applications qui peuvent provenir de ces idées innovantes. « Il y a des cas d'utilisation vraiment cool que cela pourrait débloquer, » dit-il.