Les systèmes d’IA et les humains « voient » le monde différemment – ​​et c’est pourquoi les images de l’IA sont si criardes

Les systèmes d’IA et les humains « voient » le monde différemment – ​​et c’est pourquoi les images de l’IA sont si criardes

Comment les ordinateurs voient-ils le monde ? Ce n’est pas tout à fait la même chose que les humains.

Les progrès récents en matière d’intelligence artificielle (IA) générative permettent de faire plus de choses avec le traitement d’images par ordinateur. Vous pouvez demander à un outil d'IA de décrire une image, par exemple, ou de créer une image à partir d'une description que vous fournissez.

À mesure que les outils et services d’IA générative sont de plus en plus intégrés dans la vie quotidienne, il devient essentiel d’en savoir plus sur la façon dont la vision par ordinateur se compare à la vision humaine.

Mes dernières recherches, publiées dans Communication visuelleutilise des descriptions et des images générées par l'IA pour avoir une idée de la façon dont les modèles d'IA « voient » et a découvert un monde lumineux et sensationnel d'images génériques très différent du domaine visuel humain.

Comparaison de la vision humaine et informatique

Les humains voient quand les ondes lumineuses pénètrent dans nos yeux par l’iris, la cornée et le cristallin. La lumière est convertie en signaux électriques par une surface sensible à la lumière appelée rétine à l’intérieur du globe oculaire, puis notre cerveau interprète ces signaux en images que nous voyons.

Notre vision se concentre sur des aspects clés tels que la couleur, la forme, le mouvement et la profondeur. Nos yeux nous permettent de détecter les changements dans l’environnement et d’identifier les menaces et dangers potentiels.

Les ordinateurs fonctionnent très différemment. Ils traitent les images en les standardisant, en déduisant le contexte d'une image via des métadonnées (telles que des informations d'heure et de localisation dans un fichier image) et en comparant les images à d'autres images dont ils ont déjà pris connaissance. Les ordinateurs se concentrent sur des éléments tels que les bords, les coins ou les textures présents dans l'image. Ils recherchent également des modèles et tentent de classer les objets.

Vous avez probablement aidé les ordinateurs à apprendre à « voir » en effectuant des tests CAPTCHA en ligne.

Ceux-ci sont généralement utilisés pour aider les ordinateurs à différencier les humains des robots. Mais ils sont également utilisés pour former et améliorer les algorithmes d’apprentissage automatique.

Ainsi, lorsqu'on vous demande de « sélectionner toutes les images avec un bus », vous aidez le logiciel à apprendre la différence entre les différents types de véhicules et à prouver que vous êtes humain.

Explorer comment les ordinateurs « voient » différemment

Dans ma nouvelle recherche, j’ai demandé à un grand modèle de langage de décrire deux ensembles visuellement distincts d’images créées par l’homme.

Un ensemble contenait des illustrations dessinées à la main tandis que l’autre était composé de photographies réalisées avec un appareil photo.

Les systèmes d’IA et les humains « voient » le monde différemment – ​​et c’est pourquoi les images de l’IA sont si criardes

J'ai réinjecté les descriptions dans un outil d'IA et lui ai demandé de visualiser ce qu'il avait décrit. J’ai ensuite comparé les images originales créées par l’homme à celles générées par ordinateur.

Les descriptions résultantes indiquaient que les images dessinées à la main étaient des illustrations, mais ne mentionnaient pas les autres images comme étant des photographies ou ayant un haut niveau de réalisme. Cela suggère que les outils d’IA considèrent le photoréalisme comme le style visuel par défaut, sauf indication contraire.

Le contexte culturel était largement absent des descriptions. L’outil d’IA ne pouvait pas ou ne voulait pas déduire le contexte culturel par la présence, par exemple, d’écritures arabes ou hébraïques dans les images. Cela souligne la domination de certaines langues, comme l'anglais, dans les données de formation des outils d'IA.

Si la couleur est vitale pour la vision humaine, elle a également été largement ignorée dans les descriptions d’images des outils d’IA. La profondeur visuelle et la perspective ont également été largement ignorées.

Les images de l’IA étaient plus carrées que les illustrations dessinées à la main, qui utilisaient des formes plus organiques.

Les images IA étaient également beaucoup plus saturées que les images sources : elles contenaient des couleurs plus vives et plus vives. Cela révèle la prédominance des photos d’archives, qui ont tendance à être plus « contrastées », dans les données de formation des outils d’IA.

Les images de l’IA étaient également plus sensationnalistes. Une seule voiture dans l’image originale est devenue l’une d’une longue colonne de voitures dans la version AI. L’IA semble exagérer les détails non seulement dans le texte mais aussi sous forme visuelle.

La nature générique des images d’IA signifie qu’elles peuvent être utilisées dans de nombreux contextes et dans plusieurs pays. Mais le manque de spécificité signifie également que le public pourrait les percevoir comme moins authentiques et moins engageants.

Les systèmes d’IA et les humains « voient » le monde différemment – ​​et c’est pourquoi les images de l’IA sont si criardes

Décider quand utiliser la vision humaine ou par ordinateur

Cette recherche soutient l'idée selon laquelle les humains et les ordinateurs « voient » différemment. Savoir quand s’appuyer sur l’ordinateur ou la vision humaine pour décrire ou créer des images peut constituer un avantage concurrentiel.

Si les images générées par l’IA peuvent être accrocheuses, elles peuvent également paraître creuses après une inspection plus approfondie. Cela peut limiter leur valeur.

Les images sont capables de susciter une réaction émotionnelle et le public pourrait trouver les images créées par l’homme qui reflètent authentiquement des conditions spécifiques comme plus engageantes que les tentatives générées par ordinateur.

Cependant, les capacités de l’IA peuvent en faire une option intéressante pour étiqueter rapidement de grands ensembles de données et aider les humains à les catégoriser.

En fin de compte, la vision humaine et celle de l’IA ont un rôle à jouer. En savoir plus sur les opportunités et les limites de chacun peut vous aider à rester plus en sécurité, plus productif et mieux équipé pour communiquer à l'ère numérique.