Si les générateurs d'images IA sont si intelligents, pourquoi ont-ils du mal à écrire et à compter ?

Si les générateurs d’images IA sont si intelligents, pourquoi ont-ils du mal à écrire et à compter ?

Image AI produite à l’aide de l’invite « dix mains hyper réalistes sur une photo avec un texte disant bonjour. » Crédit : Midjourney, auteur fourni

Les outils d’IA générative tels que Midjourney, Stable Diffusion et DALL-E 2 nous ont étonnés par leur capacité à produire des images remarquables en quelques secondes.

Malgré leurs réalisations, cependant, il reste une disparité déconcertante entre ce que les générateurs d’images d’IA peuvent produire et ce que nous pouvons. Par exemple, ces outils ne fournissent souvent pas de résultats satisfaisants pour des tâches apparemment simples telles que le comptage d’objets et la production de texte précis.

Si l’IA générative a atteint des sommets sans précédent dans l’expression créative, pourquoi se débat-elle avec des tâches que même un élève du primaire pourrait accomplir ?

Explorer les raisons sous-jacentes aide à mettre en lumière la nature numérique complexe de l’IA et la nuance de ses capacités.

Les limites de l’IA avec l’écriture

Les humains peuvent facilement reconnaître les symboles textuels (tels que les lettres, les chiffres et les caractères) écrits dans différentes polices et écritures manuscrites. Nous pouvons également produire du texte dans différents contextes et comprendre comment le contexte peut changer le sens.

Les générateurs d’images AI actuels manquent de cette compréhension inhérente. Ils n’ont aucune véritable compréhension de ce que signifient les symboles textuels. Ces générateurs sont construits sur des réseaux de neurones artificiels entraînés sur des quantités massives de données d’images, à partir desquelles ils « apprendre » associations et faire des prédictions.

Si les générateurs d'images IA sont si intelligents, pourquoi ont-ils du mal à écrire et à compter ?

Image générée par l’IA produite en réponse à l’invite « logo KFC ». Imaginez l’IA

Des combinaisons de formes dans les images d’entraînement sont associées à diverses entités. Par exemple, deux lignes orientées vers l’intérieur qui se rencontrent peuvent représenter la pointe d’un crayon ou le toit d’une maison.

Mais lorsqu’il s’agit de texte et de quantités, les associations doivent être incroyablement précises, car même des imperfections mineures sont perceptibles. Notre cerveau peut ignorer de légères déviations dans la pointe d’un crayon ou un toit, mais pas autant lorsqu’il s’agit de la façon dont un mot est écrit ou du nombre de doigts sur une main.

En ce qui concerne les modèles texte-image, les symboles textuels ne sont que des combinaisons de lignes et de formes. Étant donné que le texte se décline en tant de styles différents et que les lettres et les chiffres sont utilisés dans des arrangements apparemment sans fin, le modèle n’apprendra souvent pas à reproduire efficacement le texte.

La raison principale en est l’insuffisance des données de formation. Les générateurs d’images IA nécessitent beaucoup plus de données d’entraînement pour représenter avec précision le texte et les quantités que pour d’autres tâches.

La tragédie des mains de l’IA

Des problèmes surviennent également lorsqu’il s’agit d’objets plus petits qui nécessitent des détails complexes, tels que les mains.

Si les générateurs d'images IA sont si intelligents, pourquoi ont-ils du mal à écrire et à compter ?

Deux images générées par l’IA produites en réponse à l’invite « jeune fille tenant dix doigts, réaliste ». Crédit : Shutterstock AI

Dans les images d’entraînement, les mains sont souvent petites, tenant des objets ou partiellement masquées par d’autres éléments. Il devient difficile pour l’IA d’associer le terme « main » avec la représentation exacte d’une main humaine à cinq doigts.

Par conséquent, les mains générées par l’IA ont souvent l’air difformesont plus ou moins de doigts, ou ont les mains partiellement couvertes par des objets tels que des manches ou des sacs à main.

Nous voyons un problème similaire en ce qui concerne les quantités. Les modèles d’IA manquent d’une compréhension claire des quantités, comme le concept abstrait de « quatre ».

Ainsi, un générateur d’images peut répondre à une invite de « quatre pommes » en s’appuyant sur l’apprentissage d’une myriade d’images présentant de nombreuses quantités de pommes et en renvoyant une sortie avec la quantité incorrecte.

En d’autres termes, la grande diversité des associations au sein des données d’apprentissage a un impact sur la précision des quantités dans les sorties.

Si les générateurs d'images IA sont si intelligents, pourquoi ont-ils du mal à écrire et à compter ?

Trois images générées par l’IA produites en réponse à l’invite « 5 canettes de soda sur une table ». Crédit : Shutterstock AI

L’IA pourra-t-elle un jour écrire et compter ?

Il est important de se rappeler que la conversion texte-image et texte-vidéo est un concept relativement nouveau en IA. Les plates-formes génératives actuelles sont « basse résolution » versions de ce à quoi nous pouvons nous attendre à l’avenir.

Avec les progrès réalisés dans les processus de formation et la technologie de l’IA, les futurs générateurs d’images d’IA seront probablement beaucoup plus capables de produire des visualisations précises.

Il convient également de noter que la plupart des plates-formes d’IA accessibles au public n’offrent pas le plus haut niveau de capacité. La génération de texte et de quantités précis nécessite des réseaux hautement optimisés et personnalisés, de sorte que les abonnements payants à des plates-formes plus avancées donneront probablement de meilleurs résultats.