De l'IA légère à l'automatisation de la conception, les chercheurs présentent les avancées de la technologie de l'IA

Le professeur Jaejun Yoo et son équipe de recherche de la Graduate School of Artificial Intelligence de l'UNIST ont récemment présenté leurs travaux pionniers sur l'avenir de la technologie de l'intelligence artificielle (IA) lors de la Conférence européenne sur la vision par ordinateur (ECCV 2024).

L'ECCV sert de lieu de rassemblement pour les chercheurs du monde entier pour partager leurs résultats de recherche, échanger des informations et discuter de l'avenir des industries et des technologies de vision par ordinateur. Lors de ce forum, l'équipe a présenté trois documents de recherche importants qui mettent en évidence les réalisations innovantes en matière d'amélioration des performances de l'IA, de réduction de la taille des modèles et d'automatisation des processus de conception à l'aide de techniques d'IA multimodales.

L’une des réalisations majeures concerne la compression des réseaux contradictoires génératifs (GAN) pour la génération d’images par un facteur étonnant de 323, tout en maintenant la qualité des performances. En employant des techniques de distillation des connaissances, les chercheurs ont démontré le potentiel d’une utilisation efficace de l’IA, même sur des appareils de pointe ou des ordinateurs à faible consommation, éliminant ainsi le besoin de ressources informatiques hautes performances.

Le professeur Yoo a fait remarquer : « Nos recherches ont prouvé qu'un GAN compressé 323 fois plus petit peut toujours générer des images de haute qualité comparables aux modèles existants. Cette avancée ouvre la voie au déploiement d'une IA hautes performances dans des environnements informatiques de pointe et sur des appareils à faible consommation. « .

Yeo Sang-yeop, premier auteur de l'étude « Nickel and Diming Your GAN : A Dual-Method Approach to Enhancing GAN Efficiency via Knowledge Distillation », a publié sur le arXiv serveur de préimpression, a ajouté : « Nous visons à élargir considérablement la portée des applications d'IA en permettant la mise en œuvre de capacités d'IA hautes performances avec des ressources limitées. »

L'équipe a introduit deux techniques innovantes, la correspondance de distribution pour une compression efficace (DiME) et la compression interactive en réseau via l'échange de connaissances et l'apprentissage (NICKEL), conçues pour améliorer la stabilité du modèle en comparant les distributions plutôt qu'en évaluant les images individuellement.

L'approche NICKEL optimise l'interaction entre le générateur et le classificateur, permettant de maintenir des performances élevées dans un modèle léger. La combinaison de ces techniques a permis au modèle GAN compressé de continuer à produire des images de haute qualité similaires à celles générées par des homologues plus grands.

Dans le cadre d'une autre avancée significative, le professeur Yoo et son équipe ont développé un modèle de génération vidéo hybride, HVDM, capable de produire efficacement des vidéos haute résolution même dans des environnements dotés de ressources informatiques limitées. En intégrant une représentation 2D à trois voies avec une transformation en ondelettes 3D, HVDM traite habilement à la fois le contexte global et les détails complexes des images. Ce document est également publié sur le arXiv serveur de préimpression.

Percées dans la technologie de l'IA : de l'IA légère à l'automatisation de la conception

Alors que les modèles de génération vidéo existants s'appuient largement sur des ressources informatiques hautes performances, HVDM implémente avec succès des images naturelles et de haute qualité, surmontant les limitations associées aux méthodes d'encodage automatique traditionnelles basées sur CNN.

Les chercheurs ont validé la supériorité du HVDM grâce à des tests rigoureux sur des ensembles de données vidéo de référence, notamment UCF-101, SkyTimelapse et Tai Chi, où HVDM a systématiquement démontré des vidéos de meilleure qualité et des détails réalistes.

Le professeur Yoo a souligné : « HVDM représente un modèle transformateur capable de générer efficacement des vidéos haute résolution, même dans des environnements aux ressources limitées, avec des applications largement répandues dans des secteurs tels que la production vidéo et la simulation. »

Dans un troisième article également publié sur arXivl'équipe de recherche a également introduit un modèle de génération de mise en page multimodale conçu pour automatiser la production de bannières publicitaires et de mises en page d'interface utilisateur Web avec une saisie de données minimale. Ce modèle traite simultanément les images et le texte, générant des mises en page appropriées basées uniquement sur la saisie de l'utilisateur.

Les modèles précédents avaient du mal à intégrer correctement les informations textuelles et visuelles en raison de ressources de données limitées. Le nouveau modèle répond à cette limitation, améliorant considérablement le caractère pratique de la conception publicitaire et de la création d'une interface utilisateur Web. En maximisant l'interaction entre le texte et les images, il produit automatiquement des conceptions optimisées qui reflètent de manière transparente les éléments visuels et textuels.

Pour activer cette fonctionnalité, l'équipe a transformé les informations de mise en page en code HTML. En exploitant de nombreuses données de pré-formation provenant de modèles de langage, ils ont établi un pipeline de génération automatisé qui donne des résultats exceptionnels, même avec des ensembles de données clairsemés. Les évaluations de référence ont révélé des améliorations des performances allant jusqu'à 2 800 % par rapport aux méthodologies existantes.

Au cours du processus de pré-formation, l'équipe a utilisé l'ensemble de données de légende d'image, combinant les techniques de carte de profondeur et de ControlNet pour améliorer les performances grâce à l'augmentation des données. Cette approche a considérablement amélioré la qualité de la génération de mise en page et créé des conceptions naturelles en réduisant les distorsions potentielles pouvant survenir lors du prétraitement des données.

« Notre modèle surpasse les solutions existantes qui nécessitent plus de 60 000 points de données, montrant des résultats efficaces avec seulement 5 000 échantillons », a noté le professeur Yoo. « Cette innovation est accessible non seulement aux experts mais aussi aux utilisateurs ordinaires, signalant des avancées significatives dans l'automatisation des bannières publicitaires et la conception de l'interface utilisateur Web. »

Fourni par l'UNIST