Alexa, suis-je heureuse ? Comment la reconnaissance des émotions par l’IA échoue

La peur de parler en public est-elle la même chose que d’être poursuivi par un ours ? Le fait de hausser un sourcil véhicule-t-il de l’amusement ou de la confusion ? En 1995, Rosalind Picard, scientifique et inventrice, a introduit l’idée d’ordinateurs développant la capacité de reconnaître les émotions dans son livre « Affective Computing ».

Depuis plusieurs années, les systèmes utilisant l’intelligence artificielle « apprennent » à détecter et à distinguer les émotions humaines en associant des sentiments tels que la colère, le bonheur et la peur aux mouvements du visage et du corps, aux mots et au ton de la voix. Mais ces systèmes sont-ils capables de comprendre les nuances qui différencient un sourire d’un sourire narquois ? Savent-ils qu’un sourire peut accompagner la colère ?

Des experts tels que le professeur adjoint de Steinhardt, Edward B. Kang, préviennent que la réponse est non. Kang, auteur du document de recherche « Sur les pratiques et la politique de la reconnaissance des émotions vocales de l’IA » publié dans le Conférence ACM 2023 sur l’équité, la responsabilité et la transparenceécrit que la reconnaissance vocale des émotions (SER) est « une technologie fondée sur des hypothèses ténues autour de la science de l’émotion qui la rendent non seulement technologiquement déficiente mais aussi socialement pernicieuse ».

Parallèlement à d’autres critiques, il suggère que les systèmes actuels créent une version caricaturale de l’humanité et excluent ceux, comme les personnes autistes, qui peuvent exprimer des émotions d’une manière non comprise par ces systèmes.

Pour mieux comprendre ces lacunes et leurs implications pour les centres d’appels, les applications de rencontres, etc., NYU News a discuté avec Kang du fonctionnement et du non fonctionnement de la reconnaissance vocale des émotions par l’IA.

Comment les systèmes d’IA apprennent-ils à détecter les émotions ?

Nous devons d’abord nous demander ce que nous entendons par émotion. La réalité est qu’il n’existe pas de consensus scientifique sur ce que signifie réellement l’émotion. Parlons-nous d’une expérience personnelle ? Une réponse physiologique ? Un ensemble de modes cérébraux ? Un ressenti subjectif ? Ou une combinaison de ceux-ci ? La réponse la plus précise est que nous ne le savons pas vraiment.

L’émotion est peut-être un terme utile, peut-être même simple, « quotidien », mais scientifiquement, c’est un terme compliqué. Nous savons tous qu’un sourire ne signifie pas toujours que nous sommes heureux. Les chercheurs soutiennent depuis longtemps que les étiquettes telles que « peur », « bonheur », « tristesse », « colère », « surprise » et « dégoût » que nous utilisons pour désigner les expériences émotionnelles sont fluides et impossibles à cerner selon une approche conceptuelle. ensemble limité de fonctionnalités.

Le problème est qu’étant donné la structure de l’apprentissage automatique, qui fait référence aux techniques statistiques qui permettent aux systèmes dits d’IA de « fonctionner », l’émotion doit être délimitée et définie concrètement, et sa mesurabilité doit également être conçue en fonction de ces caractéristiques observables.

Pour la construction de systèmes d’IA de détection d’émotions et des ensembles de données qui les sous-tendent, cela impliquait traditionnellement l’embauche d’acteurs humains pour exécuter certaines expressions faciales ou vocalisations destinées à représenter de manière stéréotypée certaines étiquettes émotionnelles, par exemple sourire pour « bonheur » ou crier pour « colère ». « .

Ces performances deviennent des proxys de l’émotion au sens large, ce qui permet d’établir des corrélations statistiques entre des caractéristiques observables telles que le ton et la vitesse de la voix d’une personne et l’« émotion » recherchée, définie par une « étiquette ». Comme on peut l’imaginer, cela aboutit à des caricatures de l’une des caractéristiques sans doute les plus complexes de l’humanité.

Quels sont les limites et les inconvénients associés à ces systèmes ? Quels sont les bénéfices?

Les limites des systèmes d’IA de reconnaissance des émotions sont qu’ils dépendent, par conception, de la simplification de tout ce que nous définissons comme émotion dans l’ensemble de données. En d’autres termes, ils ne sont tout simplement pas très fiables ni précis. Le problème est qu’ils peuvent toujours être utilisés comme une forme de surveillance affective.

Dans le cadre de mes recherches, j’ai examiné l’utilisation de la reconnaissance vocale des émotions dans les centres d’appels. Ici, les opérateurs des centres d’appels sont évalués pour savoir s’ils semblent suffisamment agréables ou non. S’ils sont évalués suffisamment positivement, ils peuvent recevoir des primes compensatoires. Le revers de la médaille, bien sûr, est probablement la sanction du non-respect des normes émotionnelles imposées par le système SER.

Bien que les systèmes d’IA reposent sur la thèse selon laquelle des définitions émotionnelles objectives existent, les ensembles de données sur lesquels ils sont formés révèlent le contraire. Ces ensembles de données sont finalement construits selon les croyances des créateurs des ensembles de données et des acteurs engagés pour réaliser les émotions – des processus subjectifs et arbitraires par lesquels quelques individus définissent et exécutent des émotions. Ces interprétations de l’émotion se solidifient en tant que vérité terrain dans ces systèmes d’IA.

Les avantages de ces systèmes n’existent que pour ceux qui ne sont pas soumis à ses évaluations. Il offre par exemple aux managers un outil et un point de données supplémentaires pour l’évaluation des employés. Même si ces données ne correspondent pas nécessairement à ce qu’elles représentent, elles offrent un niveau de contrôle à ceux qui les utilisent pour évaluer les autres.

Quelles technologies utilisent et mettent actuellement en œuvre la reconnaissance des émotions vocales par l’IA ?

En dehors de leur application dans les centres d’appels, les technologies d’analyse vocale AI SER et adjacentes au SER sont proposées comme solutions pour des contextes à enjeux plus élevés tels que la finance avec la prédiction des défauts de paiement, le recrutement avec la prédiction de la réussite des candidats et le domaine médical avec les examens de santé mentale. . À ma connaissance, il n’a pas encore été largement mis en œuvre dans ces autres secteurs, mais c’est aussi pourquoi c’est le moment d’en parler.

Microsoft s’est déjà engagé à supprimer les fonctionnalités de reconnaissance des émotions faciales de ses technologies de reconnaissance faciale pour les mêmes raisons que celles sur lesquelles je m’appuie pour critiquer SER, à savoir qu’il n’existe pas de consensus scientifique sur la question de savoir si la reconnaissance des émotions assistée par l’IA peut être effectuée de manière fiable. , précis ou cohérent. Il est donc particulièrement préoccupant que le SER puisse émerger comme un remplacement potentiel de la reconnaissance des émotions faciales.

D’après les entretiens que j’ai réalisés avec des professionnels de l’industrie, il semble que le SER soit également proposé pour les applications de rencontres, ce qui contribuerait prétendument à offrir de meilleures correspondances entre les individus.

Quelles sont vos recommandations pour intégrer la reconnaissance des émotions dans les produits de consommation ?

Honnêtement, ma recommandation personnelle est de ne pas le faire du tout. À mon avis, il s’agit au mieux d’une fonctionnalité « amusante » facultative pour les applications à faibles enjeux telles que les applications d’auto-surveillance, et si elle est intégrée en tant que telle, il convient de préciser que c’est uniquement à des fins de plaisir. Dans le pire des cas, je crois que l’IA de reconnaissance des émotions est une application technologique d’un sujet scientifiquement controversé qui est utilisé pour prendre des décisions qui changent la vie de personnes qui ont peu ou pas de contrôle sur le développement et l’utilisation de ces systèmes.

La surveillance affective et les conséquences en matière de rémunération examinées dans le cadre de l’utilisation du SER dans les centres d’appels ne sont que le début des abus possibles une fois que nous acceptons le principe problématique selon lequel l’émotion peut être parfaitement distillée dans les données et qu’une infrastructure de données, ou ce que nous appelons L’« IA » peut être exploitée pour reconnaître les émotions de manière fiable, précise et cohérente.

Avez-vous des idées sur les jouets qui utilisent le SER pour interagir avec les enfants ?

Une application qui me vient à l’esprit est un robot jouet appelé Moxie qui intègre la reconnaissance multimodale des émotions par l’IA dans son engagement avec les enfants. D’après un article publié par ses créateurs, les mesures comportementales suivies par le jouet concernent principalement les expressions faciales et le choix des mots. Ici, même si les choix de mots sont techniquement enregistrés via la parole via un microphone, c’est différent du SER car l’analyse des mots est vraisemblablement alimentée d’abord par un modèle parole-texte qui convertit la parole en texte, puis analyse ce texte en examinez si certains mots, tels que « famille » ou « ami », se rapportent à des concepts qu’ils jugent « positifs » ou « négatifs ».

C’est ce qu’on appelle généralement « l’analyse des sentiments » dans le domaine, et c’est également un domaine quelque peu controversé pour des raisons similaires : les mots seuls ne sont pas systématiquement indicatifs du « sentiment ». Le document indique que le jouet a d’abord été développé comme un outil pour aider les enfants diagnostiqués avec des troubles du développement mental et comportemental ou MBDD, mais je crois comprendre qu’il est maintenant vendu comme un compagnon d’apprentissage plus général pour tous les enfants qui soutient le « développement holistique des compétences ». ce qui bien sûr élargit le marché adressable de Moxie.

Ma collègue Mara Mills a qualifié de « prétexte d’assistance » ce phénomène de ressourcement du handicap comme une étape vers des domaines plus rentables. Comme je le raconte brièvement dans mon article, les enfants, et en particulier ceux qui ont reçu un diagnostic de MBDD, ont historiquement été désignés comme la cible démographique et la justification du développement initial des technologies de reconnaissance des émotions.

Un chapitre du livre pionnier de Rosalind Picard de 1995, « Affective Computing », contient par exemple une section consacrée à « l’aide aux personnes autistes ». Environ une décennie plus tard, des chercheurs de l’Université de Cambridge ont également proposé une « aide auditive émotionnelle » décrite comme une prothèse faciale pour aider les enfants Asperger à socialiser. À ma connaissance, la plupart de ces travaux, tels qu’ils ont été repris par l’industrie technologique au sens large, se sont désormais développés au-delà de ces « prétextes d’assistance », et le bénéfice pour les individus qui a servi de justification à leur développement initial est contestable. J’espère que les chercheurs et les constructeurs resteront critiques et compatissants dans le développement ou non de ces technologies.