Révolutionner la génération d'images grâce à l'IA : Transformer le texte en images

Image générée à partir du texte « Légumes heureux attendant le souper. ». Crédit : Université Ludwig Maximilian de Munich

Créer des images à partir de texte en quelques secondes, et le faire avec une carte graphique conventionnelle et sans supercalculateurs ? Aussi fantaisiste que cela puisse paraître, cela est rendu possible par le nouveau modèle Stable Diffusion AI. L’algorithme sous-jacent a été développé par le Machine Vision & Learning Group dirigé par le professeur Björn Ommer (LMU Munich).

« Même pour les profanes qui n’ont pas de talent artistique et qui n’ont pas de savoir-faire informatique ni de matériel informatique particuliers, le nouveau modèle est un outil efficace qui permet aux ordinateurs de générer des images sur commande. En tant que tel, le modèle supprime un obstacle empêchant les gens ordinaires d’exprimer leur créativité, » dit Ommer. Mais il y a aussi des avantages pour les artistes chevronnés, qui peuvent utiliser Stable Diffusion pour convertir rapidement de nouvelles idées en une variété de brouillons graphiques. Les chercheurs sont convaincus que de tels outils basés sur l’IA pourront étendre les possibilités de génération d’images créatives avec le pinceau et Photoshop aussi fondamentalement que le traitement de texte informatisé a révolutionné l’écriture avec des stylos et des machines à écrire.

Dans leur projet, les scientifiques du LMU ont eu le soutien de la start-up Stability.Ai, sur les serveurs de laquelle le modèle d’IA a été formé. « Cette puissance de calcul supplémentaire et les exemples de formation supplémentaires ont fait de notre modèle d’IA l’un des algorithmes de synthèse d’images les plus puissants, » dit l’informaticien.

L’essence de milliards d’images d’entraînement

Une particularité de l’approche est que malgré toute la puissance du modèle entraîné, il est néanmoins si compact qu’il tourne sur une carte graphique classique et ne nécessite pas de supercalculateur comme c’était autrefois le cas pour la synthèse d’images. À cette fin, l’intelligence artificielle distille l’essence de milliards d’images d’entraînement dans un modèle d’IA de quelques gigaoctets seulement.

« Une fois qu’une telle IA aura vraiment compris ce qui constitue une voiture ou quelles caractéristiques sont typiques d’un style artistique, elle aura appréhendé précisément ces traits saillants et devrait idéalement être en mesure de créer d’autres exemples, tout comme les étudiants d’un ancien atelier de maître peuvent produire des œuvres. dans le même style, » explique Ommer. Dans la poursuite de l’objectif des scientifiques du LMU d’amener les ordinateurs à apprendre à voir, c’est-à-dire à comprendre le contenu des images, il s’agit d’un autre grand pas en avant, qui fait encore avancer la recherche fondamentale en apprentissage automatique et en vision par ordinateur.

La modèle formé a récemment été publié gratuitement sous le « CreativeML Open RAIL-M » licence afin de faciliter la poursuite des recherches et l’application plus large de cette technologie. « Nous sommes ravis de voir ce qui sera construit avec les modèles actuels ainsi que de voir quels autres travaux découleront d’efforts de recherche ouverts et collaboratifs, » explique le chercheur doctorant Robin Rombach.

Fourni par l’Université Ludwig Maximilian de Munich