La plainte de Scarlett Johansson auprès d'OpenAI est une nouvelle référence dans le développement de l'intelligence artificielle

Il y a plus de 2 000 ans, le philosophe grec Aristote a trouvé une manière de construire des arguments. Il a appelé cela « rhétorique » et a décrit comment la logique du texte d'un argument ou d'un discours, les besoins et la compréhension du public, ainsi que l'autorité de l'orateur, pouvaient être utilisés comme stratégies pour persuader les autres.

Plutôt que de s’appuyer uniquement sur la logique de l’argumentation ou sur la confiance accordée à l’orateur, les politiciens et les acteurs reconnaissent depuis longtemps qu’il n’y a rien de plus efficace que d’utiliser l’émotion pour gagner le cœur et, par conséquent, l’esprit d’un public.

Avec le lancement du GTP-4o la semaine dernière, nous venons peut-être de voir une machine parfaitement adaptée à cette tâche. Alors que la plupart y voient une avancée fantastique, susceptible de bénéficier à un très grand nombre de personnes, certains y voient avec plus de prudence.

Bien qu'elle ait précédemment refusé la demande d'OpenAI d'échantillonner sa voix, l'actrice Scarlett Johansson a déclaré qu'elle était « choquée » et « en colère » lorsqu'elle a entendu le nouveau GTP-4o parler.

L'une des cinq voix utilisées par GTP-4o, appelée Sky, ressemblait étrangement à l'actrice dans son rôle d'IA Samantha dans le film Her de 2013, à propos d'un homme qui tombe amoureux d'un assistant virtuel. Pour ajouter à la discussion, le fondateur et PDG d'OpenAI, Sam Altman, a semblé mettre en avant la comparaison entre Sky et Samantha/Johansson, en tweetant « elle » le jour du lancement de GPT-4o.

OpenAI a ensuite publié sur X qu'il « travaillait à suspendre l'utilisation de Sky » et a créé une page Web le 19 mai, expliquant qu'une actrice différente avait été utilisée. La société a également expliqué comment les voix étaient choisies.

Le fait que le film Her ait été presque immédiatement référencé lors du lancement de GPT-4o a contribué à sensibiliser le grand public à cette technologie et, peut-être, à rendre ses capacités moins effrayantes.

C'est une chance car les rumeurs sur un partenariat avec Apple ont déclenché des craintes en matière de confidentialité, avec la sortie d'iOS18 le mois prochain. De même, OpenAI s'est associé à Microsoft avec sa nouvelle génération de système Windows alimenté par l'IA appelé Copilot + PC.

Contrairement à d'autres grands modèles de langage (LLM), GTP-4o (ou omni) a été conçu dès le départ pour comprendre non seulement le texte, mais également l'image et le son de manière unifiée. Il s'agit d'une véritable multimodalité allant bien au-delà des capacités des LLM « traditionnels ».

Il peut reconnaître les nuances de la parole telles que l’émotion, la respiration, le bruit ambiant, le chant des oiseaux et peut les intégrer à ce qu’il voit.

Il s'agit d'un modèle multimodal unifié (ce qui signifie qu'il peut gérer des photos et du texte), il est rapide (il répond à la même vitesse que la parole humaine normale (en moyenne 320 millisecondes)) et peut être interrompu. Le résultat est d’un naturel troublant, modifiant le ton et l’intensité émotionnelle de manière appropriée. Il peut même chanter. Certains se sont même plaints du côté « flirt » du GTP-4o. Pas étonnant que certains acteurs soient inquiets.

C’est véritablement une nouvelle façon d’interagir avec l’IA. Cela représente un changement subtil dans notre relation avec la technologie, fournissant un type fondamentalement nouveau d'interface « naturelle » parfois appelée EAI, ou IA empathique.

La rapidité de cette avancée a déconcerté de nombreuses organisations gouvernementales et forces de police. On ne sait toujours pas comment gérer au mieux cette technologie si elle est utilisée comme arme par des États voyous ou des criminels. Avec l’augmentation des deepfakes audio, il devient de plus en plus difficile de détecter ce qui est réel et ce qui ne l’est pas. Même les amis de Johansson pensaient que c'était elle.

Dans une année où des élections doivent avoir lieu impliquant plus de 4 milliards d’électeurs potentiels et où la fraude basée sur les deepfakes audio ciblés est en augmentation, les dangers de l’IA militarisée ne doivent pas être sous-estimés.

Comme Aristote l’a découvert, la capacité de persuasion ne dépend souvent pas de ce que vous dites, mais de la façon dont vous le dites. Nous souffrons tous de préjugés inconscients, comme le souligne un rapport intéressant du Royaume-Uni sur les préjugés liés à l’accent. Certains accents sont plus crédibles, faisant autorité ou même dignes de confiance que d'autres. C’est précisément pour cette raison que les personnes travaillant dans les centres d’appels utilisent désormais l’IA pour « occidentaliser » leur voix. Dans le cas du GTP-4o, la façon dont il dit les choses peut être tout aussi importante que ce qu'il dit.

Si l'IA comprend les besoins du public et est capable de raisonner logiquement, alors peut-être que le dernier élément nécessaire est la manière dont le message est transmis, comme l'a identifié Aristote il y a 2 000 ans. Peut-être aurons-nous alors créé une IA qui a le potentiel de devenir un maître surhumain de la rhétorique et qui possède des pouvoirs de persuasion dépassant la capacité de résistance du public.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.