Le modèle d'intelligence visuelle générative ultra-rapide crée des images en seulement 2 secondes

Les chercheurs de l’ETRI ont dévoilé une technologie qui combine IA générative et intelligence visuelle pour créer des images à partir de saisies de texte en seulement 2 secondes, propulsant ainsi le domaine de l’intelligence visuelle générative ultra-rapide.

L’Institut de recherche en électronique et télécommunications (ETRI) a annoncé la sortie publique de cinq types de modèles. Il s’agit notamment de trois modèles de « KOALA », qui génèrent des images à partir de saisies de texte cinq fois plus rapidement que les méthodes existantes, et de deux modèles de langage visuel conversationnel « Ko-LLaVA » qui peuvent répondre à des questions avec des images ou des vidéos.

Le modèle « KOALA » a considérablement réduit les paramètres de 2,56 milliards (2,56 milliards) du modèle public SW à 700 millions (700 millions) en utilisant la technique de distillation des connaissances. Un nombre élevé de paramètres signifie généralement davantage de calculs, ce qui entraîne des temps de traitement plus longs et des coûts opérationnels accrus. Les chercheurs ont réduit la taille du modèle d’un tiers et amélioré la génération d’images haute résolution pour qu’elle soit deux fois plus rapide qu’auparavant et cinq fois plus rapide que DALL-E 3.

ETRI a réussi à réduire considérablement la taille du modèle (1,7B (Large), 1B (Base), 700M (Small)) et à augmenter la vitesse de génération à environ 2 secondes, permettant son fonctionnement sur des GPU à faible coût avec seulement 8 Go de mémoire au milieu le paysage concurrentiel de la génération de texte en image, tant au niveau national qu’international.

Les trois modèles « KOALA » d’ETRI, développés en interne, ont été publiés dans l’environnement HuggingFace.

En pratique, lorsque l’équipe de recherche a saisi la phrase « une image d’un astronaute lisant un livre sous la lune sur Mars », le modèle KOALA 700M développé par ETRI a créé l’image en seulement 1,6 seconde, nettement plus rapide que le Kallo de Kakao Brain (3,8 secondes). , DALL-E 2 d’OpenAI (12,3 secondes) et DALL-E 3 (13,7 secondes).

ETRI a également lancé un site Web sur lequel les utilisateurs peuvent comparer et expérimenter directement un total de 9 modèles, dont les deux modèles de diffusion stable accessibles au public, BK-SDM, Karlo, DALL-E 2, DALL-E 3 et les trois modèles KOALA.

En outre, l’équipe de recherche a dévoilé le modèle de langage visuel conversationnel « Ko-LLaVA », qui ajoute une intelligence visuelle à l’IA conversationnelle comme ChatGPT. Ce modèle peut récupérer des images ou des vidéos et répondre à des questions en coréen à leur sujet.

Le modèle « LLaVA » a été développé dans le cadre d’un projet de recherche international conjoint avec l’Université du Wisconsin-Madison et l’ETRI, présenté lors de la prestigieuse conférence sur l’IA NeurIPS’23, et utilise le logiciel open source LLaVA (Large Language and Vision Assistant) avec interprétation d’images. capacités au niveau de GPT-4.

Les chercheurs mènent des recherches complémentaires pour améliorer la compréhension de la langue coréenne et introduire des capacités d’interprétation vidéo sans précédent basées sur le modèle LLaVA, qui apparaît comme une alternative aux modèles multimodaux incluant des images.

De plus, ETRI a pré-publié son propre modèle compact de génération de compréhension du langage basé sur le coréen (KEByT5). Les modèles commercialisés (330M (Small), 580M (Base), 1.23B (Large)) appliquent une technologie sans jeton capable de gérer les néologismes et les mots non entraînés. La vitesse d’entraînement a été augmentée de plus de 2,7 fois et la vitesse d’inférence de plus de 1,4 fois.

L’équipe de recherche prévoit une évolution progressive du marché de l’IA générative, des modèles génératifs centrés sur le texte vers des modèles génératifs multimodaux, avec une tendance émergente vers des modèles plus petits et plus efficaces dans le paysage concurrentiel des tailles de modèles.

La raison pour laquelle ETRI rend public ce modèle est de favoriser un écosystème sur le marché concerné en réduisant la taille du modèle, qui nécessiterait traditionnellement des milliers de serveurs, facilitant ainsi son utilisation par les petites et moyennes entreprises.

À l’avenir, l’équipe de recherche s’attend à une forte demande pour des modèles multimodaux coréens intégrant la technologie d’intelligence visuelle dans d’importants modèles d’IA générative en langage ouvert.

L’équipe a souligné que le brevet principal de cette technologie repose sur la distillation des connaissances, une technologie qui permet aux petits modèles de jouer le rôle de grands modèles en accumulant des connaissances grâce à l’IA.

Après avoir rendu cette technologie publique, ETRI prévoit de la transférer aux services de génération d’images, aux services d’éducation créative, à la production de contenu et aux entreprises.

Lee Yong-Ju, directeur de la section de recherche sur l’intelligence visuelle de l’ETRI, a déclaré : « Grâce à divers efforts en matière de technologie d’IA générative, nous prévoyons de publier une gamme de modèles de petite taille mais excellent en termes de performances. Notre recherche mondiale vise à rompre la dépendance. sur les grands modèles existants et offrir aux petites et moyennes entreprises nationales la possibilité d’utiliser efficacement la technologie de l’IA.

Le professeur Lee Yong-Jae de l’Université du Wisconsin-Madison, qui supervise le projet LLaVA, a déclaré : « En dirigeant le projet LLaVA, nous avons mené des recherches sur des modèles de langage visuel open source pour le rendre accessible à un plus grand nombre de personnes, en concurrence avec contre GPT-4. Nous prévoyons de poursuivre nos recherches sur les modèles génératifs multimodaux grâce à des recherches conjointes internationales avec l’ETRI.

L’équipe de recherche vise à présenter des capacités de recherche de classe mondiale, allant au-delà des types conventionnels d’IA générative qui convertissent les entrées de texte en réponses textuelles. Ils prévoient d’étendre leurs recherches aux types qui répondent par des phrases à des images ou des vidéos, et aux types qui répondent par des images ou des vidéos à des phrases.