Capture d'écran 2023 11 30 À 16 44 13

ça le fait en temps réel

L’apparition de DALL-E et de ses grands concurrents Midjourney ou Stable Diffusion a suscité un intérêt pour les modèles d’IA générative dans le domaine artistique. De nombreuses entreprises ont créé des produits fantastiques et accrocheurs – ou les ont intégrés à des produits existants, comme le tout-puissant Adobe – mais il reste encore de la place pour d’autres solutions.

En témoigne Pikaso, le nouvel outil de création artistique de Freepik. L’entreprise travaille depuis un certain temps sur des solutions basées sur l’IA générative et présente désormais sa nouvelle et intéressante option. À Simseo, nous avons pu le tester et parler à Omar Pera, l’un de ses managers.

Dans Pikaso, la génération d’images est particulièrement remarquable car elle se produit (presque) en temps réel. C’est la grande particularité d’une plateforme qui nous permet de générer des images qui combinent une invite de texte avec un croquis que nous pouvons facilement créer avec l’outil de dessin offert par l’interface.

Le mélange des deux options rend le système capable d’agir instantanément pour créer ce que nous recherchons. L’interface est simple et se concentre sur l’offre d’un « canevas » à gauche sur lequel dessiner notre croquis, une boîte de résultats générés par l’IA à droite et une troisième zone de texte en dessous de ces deux dans laquelle nous pouvons saisir l’invite.

Il est particulièrement important que nous soyons descriptifs avec l’invite, car les détails que nous donnerons dans ce texte seront ceux qui permettront au moteur d’IA de « comprendre » ce que nous voulons et de l’appliquer au squelette du croquis que nous avons. créé. Les deux entrées (nous avons affaire à un système multimodal) définissent le comportement et le résultat final de Pikaso.

Dessiner par hasard sur un écran d’ordinateur ou de mobile n’est pas particulièrement simple, surtout si l’on n’a pas d’expérience, mais cela n’a pas trop d’importance : Pikaso n’a pas besoin de grand chose pour travailler : quelques gribouillages suffisent (et même pas ça) et la description susmentionnée de l’invite.

Dans le panneau qui nous permet de dessiner, il y a en effet un accès privilégié à une bibliothèque de formes géométriques et d’icônes. Les premiers facilitent l’ajout de ces types d’éléments à notre esquisse.

Ces derniers permettent à notre canevas d’avoir des éléments que nous souhaitons inclure afin qu’ils soient facilement reconnaissables par l’IA et ne nous donnent pas de travail excessif si nous voulons les esquisser.

De là, sur le côté droit un premier avant-projet apparaîtra, généralement dans des tons tamisés et sera probablement flou. Le plaisir commence là : trois contrôles apparaissent au-dessus de cette fenêtre de droite.

Le premier, un curseur avec « l’imagination » que le modèle utilise (la plus haute, la plus imaginative et créative), deuxièmement, un contrôle pour « réimaginer » le design et changer un peu le focus. Et troisièmement, un bouton « Améliorer » qui se charge de créer une image finale plus détaillée et de meilleure qualité.

Ce qui est vraiment frappant à propos de cet outil, c’est qu’au fur et à mesure que nous apportons des modifications, le résultat sur le côté droit change en temps réel, ou presque. Nous pouvons créer un nouveau trait sur le côté gauche, ajouter plus de détails dans l’invite de texte, inclure une nouvelle forme géométrique ou une nouvelle icône, déplacer celles que nous avons déjà… tous ces changements sera reflété immédiatement dans le résultat finalquelque chose de vraiment frappant et qui démontre la puissance du modèle.

A Simseo nous avons pu nous entretenir avec Omar Pera (@ompemi), l’un des responsables de la création de cette nouvelle fonctionnalité Freepik. Comme il nous l’a dit, Pikaso s’appuie sur une étude récente qui analyse les modèles dits de cohérence latente (LCM), des modèles génératifs capables de générer des images haute résolution à travers des descriptions textuelles.

Contrairement à d’autres techniques, ces systèmes apprennent à prédire la représentation « latente » d’une image à partir de l’invite de saisie, au lieu de générer l’image pixel par pixel. Cela simplifie grandement le processus par rapport aux modèles de diffusion, qui nécessitent de nombreuses étapes supplémentaires pour générer ces images.

Capture d'écran 2023 11 30 À 16 24 39

Il est possible de faire beaucoup avec très peu. Vous n’avez même pas besoin de gribouiller si vous ne le souhaitez pas : insérez simplement des icônes, réorganisez-les et jouez avec l’invite (changer la couleur ou le style de vos cheveux ou de votre chemise en temps réel est surprenant) pour obtenir ces résultats.

Comme l’a souligné Pera, « ils ont trouvé un moyen bien plus efficace de générer des images par l’IA, ce qui ouvre un nouveau monde. Avant, cela prenait quelques secondes, maintenant cela prend des millisecondes. Et nous venons de photos d’archives réalisées en quelques heures. Les IA génératives en image et vidéo permettent de multiplier par dix le nombre de personnes capables de créer des designs et d’être créatives, sans avoir besoin d’autres applications complexes qui peuvent devenir une barrière à l’entrée pour capturer vos idées.

Il existe également une autre section clé dans Pikaso que ce développeur nous a soulignée. Il existe plusieurs plateformes qui ont également rapidement profité des progrès réalisés par les LCM, mais Freepik est même capable de vous éviter de devoir dessiner quoi que ce soit dans le croquis : les icônes et éléments graphiques disponibles dans la bibliothèque du service peuvent être ajoutés directement et, à partir d’eux et à l’invite, créez l’image souhaitée.