Google suspend la génération d'images de Gemini : représentations irréalistes
ggoogle met en pause la génération d'images IA de personnes via son modèle Gémeaux, suite à des controverses sur le genre et la diversité ethnique. Le géant de la technologie répond aux plaintes selon lesquelles Gemini aurait créé des images inexactes de personnes dans des contextes historiques, c'est-à-dire des images irréalistes. Les capacités d'imagerie désormais verrouillées de Gemini sont actuellement limitées au marché américain.
Index des sujets :
Comment fonctionne la génération d'images avec Gemini
Gemini génère des images réalistes basées sur les descriptions des utilisateurs, similaires à ChatGPT d'OpenAI. Comme d’autres modèles, il est formé pour ne pas répondre à des invites dangereuses ou offensantes et pour introduire de la diversité dans sa production. Cependant, certains utilisateurs se sont plaints d'une correction excessive vers la génération d'images de femmes et de personnes de couleur, telles qu'elles sont représentées de manière inexacte dans des contextes historiques, comme dans les représentations des rois vikings ou des soldats allemands de la Seconde Guerre mondiale.
« Nous travaillons à améliorer immédiatement ces types de représentations », a déclaré Google. « La génération d'imagerie des Gémeaux produit un large éventail de personnes. Et c’est généralement une bonne chose car il est utilisé par des gens partout dans le monde. Mais ici, nous manquons la cible. »
Google a ajouté qu'il avait « suspendu l'imagerie des personnes et qu'il publierait bientôt une version améliorée ».
Qu'est-il arrivé aux Gémeaux
Vers le 20 février, un utilisateur a publié sur X (anciennement Twitter) une image de la façon dont Gemini avait répondu à la demande de « générer une image d'un soldat allemand de 1943« . Gemini avait proposé quatre images de soldats : une était blanche, une était noire et deux étaient des femmes asiatiques. Des représentations clairement et totalement absurdes.
L’IA serait trop « réveillée » et ce serait la preuve, lit-on dans de nombreuses discussions animées sur les réseaux sociaux.
En réalité, ce qui s'est passé avec la génération d'images Google Gemini pose le dilemme si l’IA générative doit répondre à des critères de pertinence par rapport à la réalité, aux contextes historiques et démographiques, ou si elle peut être un outil dont l’imagination n’a pas de limites. Dans tous les cas, la distinction demeure entre les images générées sur la base d'invites précises de l'utilisateur et les images générées indépendamment par le système. Et c’est sur cette dernière que se concentrent les critiques des utilisateurs.
Les « hallucinations » des LLM
Une caractéristique clé des modèles d’IA générative est leur tendance à « halluciner » ou à inventer des noms, des dates et des chiffres. En effet, le logiciel est conçu pour repérer des modèles et deviner la meilleure option suivante dans une séquence. En raison de cette nature prédictive, les images et les textes générés par ces modèles peuvent être inexacts, voire absurdes, un problème que les sociétés d’IA comme OpenAI et Google tentent de minimiser.
Dans une étude récente de l'Université de Stanford sur les réponses générées par trois modèles d'IA à 200 000 requêtes juridiques, les chercheurs ont découvert que les questions aléatoires posées par les tribunaux fédéraux entraînaient des erreurs généralisées. ChatGPT-3.5 d'OpenAI a fourni des réponses inventées 69 % du temps, tandis que le modèle Llama 2 de Meta a obtenu 88 %. Pour réduire les erreurs et les biais dans les modèles génératifs, les entreprises utilisent un processus appelé réglage fin. Cela repose souvent sur des évaluateurs humains qui indiquent s'ils pensent que les sollicitations et les réponses de l'IA sont inexactes ou offensantes.
Google : modèle « trop zélé » dans la prise en compte de la diversité
Google a déclaré que son objectif n'était pas de préciser une répartition démographique idéale des images, mais plutôt maximiser la diversité, ce qui, selon lui, conduit à des résultats de meilleure qualité pour un large éventail de stress. Cependant, il a ajouté que parfois le modèle peut être trop zélé dans la prise en compte de la diversitéentraînant une surcorrection.
« Nous sommes conscients que Gemini présente des inexactitudes dans certaines représentations historiques de la génération d’images – a déclaré Google dans une note publiée le « Les contextes historiques sont plus nuancés et nous nous adapterons davantage pour nous y conformer », a-t-il déclaré. Jack Krawczyk, Directeur senior de produit par Gemini.
LLM et préjugés politiques
Une recherche menée en août par l'Université de Washington, l'Université Carnegie Mellon et l'Université Jiaotong de Xi'an a révélé que les modèles d'intelligence artificielle, notamment GPT-4 d'OpenAI et LLaMA de Meta, ils ont des préjugés politiques différents selon la manière dont ils ont été développés. Par exemple, l'étude a révélé que les produits d'OpenAI avaient tendance à être de gauche, tandis que les produits LLaMA de Meta étaient plus proches d'une position conservatrice.
Rob Leathern, qui a travaillé sur les produits de confidentialité et de sécurité chez Google jusqu'à l'année dernière, a écrit sur Gemini. Puis il a ajouté : « Mais lorsqu’il ajoute explicitement (un sexe ou une race) pour des requêtes plus spécifiques, cela semble inexact. »