qu’est-ce que c’est, ce qu’il peut faire et comment fonctionne l’intelligence artificielle générative de Meta
Nous allons vous expliquer ce qui est et ce que CM3leon est capable de faire, qui se lit comme Chameleon, et est l’intelligence artificielle générative créée par Meta. Il s’agit d’une IA capable de travailler dans les deux sens, générant à la fois des images à partir de texte et du texte à partir d’images.
Nous allons commencer par vous dire ce qu’est exactement cette IA et quelles sont les principales fonctions qu’elle peut couvrir selon Meta. Ensuite, nous vous dirons comment cela fonctionne à l’intérieur, et nous terminerons en vous disant ce que nous savons de son éventuelle sortie.
Qu’est-ce que CM3leon et que peut-il faire ?
CM3leon est un modèle de langage d’intelligence artificielle générative, ce qui signifie qu’il est capable de générer de nouveaux contenus à partir des commandes que nous lui donnons. Il a été créé par Meta, la société qui comprend des applications telles que Facebook, Instagram ou WhatsApp.
L’un des principaux attraits de ce modèle de langage est qu’il est multimodal, ce qui signifie qu’il n’a pas d’objectif précis, mais qu’il peut faire plusieurs choses. Par exemple, vous pouvez générer des images à partir de texte et aussi l’inversegénérer des textes à partir d’images.
Cela permet à l’IA de Meta d’être plus polyvalente que d’autres dédiées uniquement à la génération de textes ou à la génération d’images. Par exemple, vous pouvez décrire une image avec du texte, et répondez aux questions que vous posez sur une image. Il peut également interpréter la structure ou l’apparence d’une image pour savoir que vous apportez des modifications cohérentes avec son contexte.
En plus de cela, le modèle CM3leon peut également éditer une image que vous lui donnez à partir d’une invite textuelle. Allez, vous pouvez télécharger une image et lui dire comment vous voulez qu’elle soit modifiée, le tout avec des finitions haute résolution.
L’autre grand avantage de ce langage est qu’il promet utiliser cinq fois moins de ressources informatiques que d’autres systèmes d’intelligence artificielle. Allez, c’est plus efficace pour ceux qui décident de l’utiliser, ce qui en fait un outil prometteur.
Comment fonctionne CM3leon
CM3Leon utilise dans son architecture un transformateur uniquement décodeur, quelque chose de similaire à ce que d’autres modèles textuels consolidés utilisent. Mais la différence est qu’il est capable de saisir et de générer à la fois du texte et des images, ce qui lui permet d’être plus polyvalent et d’effectuer plus de tâches.
Meta assure que son modèle multimodal est le premier à être entraîné avec une recette adaptée de modèles textuels. Pour cela, ils ont utilisé une première étape de pré-entraînement à un gros échappement augmenté par la récupération, et une deuxième étape de mise au point multitâche supervisée.
Avec cette recette de formation, Meta dit qu’il a réussi à produire un modèle robuste montrant que les transformateurs basés sur des tokenizers peut être entraîné tout aussi efficacement que les modèles génératifs basés sur la diffusion.
Cinq fois moins d’informatique a été utilisée pour s’entraîner, mais malgré cela, il a obtenu d’excellents résultats en générant des images à partir de texte. Ils le définissent comme un modèle causal masqué à modal mixte (CM3) pour pouvoir générer des séquences de texte et d’images conditionnées à des séquences arbitraires d’autres contenus d’image et de texte.
Meta a également appliqué un ajustement d’instructions multitâches à grande échelle pour générer des images de texte, et ils disent également qu’ils se sont beaucoup améliorés pour créer des légendes ou répondre à des questions visuelles grâce à leurs capacités de reconnaissance du contenu de l’image.
Quand peut-il être utilisé ?
Jusqu’à présent, Meta s’est contenté de présenter ce modèle et de décrire ce qu’il est capable de faire, mais n’a encore rien dit sur une éventuelle sortie pour le grand public. Si à tout moment il y a des nouvelles, nous mettrons à jour l’article pour l’indiquer.