Nous avons un nouveau gagnant pour générer des images avec l'IA. Et il n'est pas américain, mais chinois
Tencent vient de lancer un nouveau modèle de capable de générer des images à partir d'une invite de texte. Traditionnellement, les modèles propriétaires ont dominé ce type de tâche créative, mais le modèle Tencent a donné la surprise et, selon divers repères, est capable de générer des images mieux que le reste des concurrents, y compris ceux de Google et Openai.
Hunyuan Image 3.0. C'est le nom du nouveau modèle Tencent, qui dans la classification Lmarena de modèles plus puissants pour la génération d'images à partir de texte a réussi à surmonter l'aperçu de l'image Flash Gemini 2.5 (populairement connu sous le nom de Nano Banana), en plus d'autres modèles propriétaires tels que GPT-IMAGE-1, Flux-1-Kontext-Max ou Qwen-Image.

Le modèle d'image Tencent a déjà réussi à surmonter ses concurrents selon les experts de LM Arena.
Vote aveugle. Cette classification de l'arène LM fonctionne à travers un système de vote aveugle dans lequel les utilisateurs choisissent leurs images préférées sans savoir quel modèle les a générés. Et selon ce vote, ce modèle Tencent a dépassé tous ses adversaires, y compris la populaire « Nano Banana » de Google. Bien sûr: le vote prend également en compte les résultats à long terme, et la courte période qui a été disponible Hunyuan Image 3.0 rend les résultats considérés comme « préliminaires » et non définitifs.
Comment ça marche. Les responsables de Tencent expliquent dans la description du modèle comment ils ont utilisé une nouvelle architecture de dissémination qui utilise des encodeurs doubles (un LLM multimodal et un autre qui comprend mieux les caractères dans différentes langues) et l'optimisation RLHF (apprentissage du renforcement de la rétroaction humaine, qui affine le résultat précédent) pour la création d'images de meilleure qualité. Le système utilise en plus d'un système de compression afin que l'ensemble du processus consomme moins de ressources sans perte de qualité.

Ouvrez les pesos et la licence commerciale. Hunyuan Image 3.0 est un modèle qui partage son code dans GitHub et offre une licence étonnamment permissive. En fait, il est possible de l'utiliser à des fins commerciales et professionnelles.
Le prix n'est pas entièrement économique. Bien que le modèle puisse être testé gratuitement sur le site Web du projet, dans nos tests, nous n'avons pu créer qu'une image (10 crédits). La plate-forme permet d'acheter des crédits mensuels: 8 $ par mois permet d'acheter 500 crédits, ce qui nous permettrait de créer 50 images de 10 crédits chacun. Chacun serait de 0,16 dollars, lorsque Nano Banana a un coût de 0,039 $, quatre fois plus bas. Il existe d'autres options pour le tester, comme étreindre les « espaces » de la face. Il est également possible d'obtenir une clé API dans Tencent Cloud pour utiliser le localement.


Gemini continue de gagner en tant que «éditeur». Bien que le modèle Tencent soit intéressant et remarquable, Nano Banana continue de gagner le jeu si nous considérons qu'il est devenu un substitut unique du Photoshop traditionnel. De nombreux utilisateurs n'éditent plus de photos mais n'en portent un en Gémeaux, puis ils disent à l'AI quels changements ils veulent apporter dans cette image.
Alibaba, plus conversationnel. Bien que Hunyuan Image 3.0 puisse permettre quelque chose comme ça – il y a un processus à ce sujet – l'interface est désormais plus visée à une seule invite pour générer des images, et non à une « conversation » comme le permet Gemini. Un autre des protagonistes de cette terre est Alibaba, qui avec Qwen-Image-Editor adopte la même approche que Google avec Gémeaux et Nano-Banana. Dans ce modèle d'alibaba, « vous parlez » avec votre image pour demander des changements, quelque chose qui, pour le moment, ne semble pas que le modèle Tencent le fasse directement (bien qu'il ne lui semble pas difficile de l'obtenir).
Mais soyez prudent. Le différentiel ici est que la génération d'images, qui semblait être dominée par des modèles propriétaires, peut être apparemment tout aussi bonne (ou même supérieure) à travers des modèles ouverts. Encore une fois, l'engagement chinois envers cette philosophie est remarquable et contraste avec l'approche fermée et le propriétaire de la plupart des entreprises américaines qui développent des modèles d'IA à la fois pour générer des images et du texte (ou, bien sûr, la vidéo).
Image | Hunyuan
Dans Simseo | En Chine, ils ne se conforment pas pour créer des robots avancés: une entreprise a développé une tête qui fait des gestes comme un humain
