Des chercheurs affirment qu’un outil de transcription basé sur l’IA utilisé dans les hôpitaux invente des choses que personne n’a jamais dites

Le géant technologique OpenAI a vanté son outil de transcription basé sur l'intelligence artificielle, Whisper, comme étant proche « robustesse et précision au niveau humain. »

Mais Whisper présente un défaut majeur : il a tendance à composer des morceaux de texte, voire des phrases entières, selon des entretiens avec plus d'une douzaine d'ingénieurs logiciels, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains textes inventés – connus dans l’industrie sous le nom d’hallucinations – peuvent inclure des commentaires racistes, une rhétorique violente et même des traitements médicaux imaginaires.

Les experts ont déclaré que de telles fabrications sont problématiques car Whisper est utilisé dans de nombreux secteurs à travers le monde pour traduire et transcrire des interviews, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.

Ce qui est plus inquiétant, selon eux, est la ruée des centres médicaux à utiliser des outils basés sur Whisper pour transcrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans « domaines à haut risque. »

Il est difficile de déterminer l'ampleur du problème, mais les chercheurs et les ingénieurs affirment avoir fréquemment rencontré les hallucinations de Whisper dans le cadre de leurs travaux. Un chercheur de l'Université du Michigan menant une étude sur les réunions publiques, par exemple, a déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu'il a inspectées, avant de commencer à essayer d'améliorer le modèle.

Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu'il avait analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec Whisper.

Les problèmes persistent même dans les échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a découvert 187 hallucinations dans plus de 13 000 extraits audio clairs qu'ils ont examinés.

Des chercheurs affirment qu’un outil de transcription basé sur l’IA utilisé dans les hôpitaux invente des choses que personne n’a jamais dites

Cette tendance entraînerait des dizaines de milliers de transcriptions défectueuses sur des millions d’enregistrements, ont indiqué les chercheurs.

De telles erreurs auraient pu « des conséquences vraiment graves, » en particulier en milieu hospitalier, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l’administration Biden jusqu’à l’année dernière.

« Personne ne veut d'un mauvais diagnostic, » a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, New Jersey. « Il devrait y avoir une barre plus haute. »

Whisper est également utilisé pour créer des sous-titres codés pour les sourds et les malentendants, une population particulièrement exposée aux transcriptions défectueuses. C'est parce que les sourds et les malentendants n'ont aucun moyen d'identifier les fabrications. « caché parmi tous ces autres textes, » a déclaré Christian Vogler, sourd et directeur du programme d'accès à la technologie de l'Université Gallaudet.

OpenAI invité à résoudre le problème

La prévalence de telles hallucinations a conduit des experts, des défenseurs et d’anciens employés d’OpenAI à appeler le gouvernement fédéral à envisager de réglementer l’IA. Au minimum, ont-ils déclaré, OpenAI doit corriger la faille.

« Cela semble résoluble si l'entreprise est prête à y donner la priorité, » a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de préoccupations concernant l'orientation de l'entreprise. « C'est problématique si vous diffusez cela et que les gens sont trop confiants quant à ce qu'il peut faire et l'intègrent dans tous ces autres systèmes. »

Un porte-parole d'OpenAI a déclaré que la société étudiait continuellement comment réduire les hallucinations et appréciait les conclusions des chercheurs, ajoutant qu'OpenAI intègre les commentaires dans les mises à jour du modèle.

Alors que la plupart des développeurs supposent que les outils de transcription orthographient mal les mots ou commettent d'autres erreurs, les ingénieurs et les chercheurs ont déclaré qu'ils n'avaient jamais vu un autre outil de transcription alimenté par l'IA halluciner autant que Whisper.

Hallucinations chuchotées

L'outil est intégré à certaines versions du chatbot phare d'OpenAI, ChatGPT, et constitue une offre intégrée aux plates-formes de cloud computing d'Oracle et de Microsoft, qui servent des milliers d'entreprises dans le monde. Il est également utilisé pour transcrire et traduire du texte dans plusieurs langues.

Au cours du dernier mois seulement, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois à partir de la plateforme d'IA open source HuggingFace. Sanchit Gandhi, ingénieur en apprentissage automatique, a déclaré que Whisper est le modèle de reconnaissance vocale open source le plus populaire et qu'il est intégré à tout, des centres d'appels aux assistants vocaux.

Les professeurs Allison Koenecke de l'Université Cornell et Mona Sloane de l'Université de Virginie ont examiné des milliers de courts extraits obtenus auprès de TalkBank, un référentiel de recherche hébergé à l'Université Carnegie Mellon. Ils ont déterminé que près de 40 % des hallucinations étaient nocives ou inquiétantes, car le locuteur pouvait être mal interprété ou déformé.

Dans un exemple qu'ils ont découvert, un orateur a déclaré : « Lui, le garçon, allait, je ne sais pas exactement, prendre le parapluie. »

Mais le logiciel de transcription a ajouté : « Il a pris un gros morceau de croix, un tout petit morceau… Je suis sûr qu'il n'avait pas de couteau terroriste, alors il a tué un certain nombre de personnes. »

Un orateur dans un autre enregistrement décrit « deux autres filles et une dame. » Whisper a inventé un commentaire supplémentaire sur la race, ajoutant « deux autres filles et une dame, euh, qui étaient noires. »

Dans une troisième transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques hyperactivés. »

Les chercheurs ne savent pas exactement pourquoi Whisper et les outils similaires hallucinent, mais les développeurs de logiciels ont déclaré que les fabrications ont tendance à se produire au milieu de pauses, de bruits de fond ou de musique.

OpenAI a recommandé dans ses divulgations en ligne de ne pas utiliser Whisper dans « contextes décisionnels, où des défauts d’exactitude peuvent conduire à des défauts prononcés dans les résultats. »

Transcription des rendez-vous chez le médecin

Cet avertissement n'a pas empêché les hôpitaux ou les centres médicaux d'utiliser des modèles de synthèse vocale, notamment Whisper, pour transcrire ce qui est dit lors des visites chez le médecin afin de permettre aux prestataires médicaux de consacrer moins de temps à la prise de notes ou à la rédaction de rapports.

Plus de 30 000 cliniciens et 40 systèmes de santé, dont la clinique Mankato au Minnesota et l'hôpital pour enfants de Los Angeles, ont commencé à utiliser un outil basé sur Whisper développé par Nabla, qui possède des bureaux en France et aux États-Unis.

Cet outil a été adapté au langage médical pour transcrire et résumer les interactions des patients, a déclaré Martin Raison, directeur technologique de Nabla.

Les responsables de la société ont déclaré qu'ils étaient conscients que Whisper pouvait avoir des hallucinations et qu'ils atténuaient le problème.

Il est impossible de comparer la transcription générée par l'IA de Nabla à l'enregistrement original car l'outil de Nabla efface l'audio original pour « des raisons de sécurité des données, » dit Raison.

Nabla a déclaré que l'outil avait été utilisé pour transcrire environ 7 millions de visites médicales.

Saunders, l'ancien ingénieur d'OpenAI, a déclaré que l'effacement de l'audio original pourrait être inquiétant si les transcriptions ne sont pas vérifiées ou si les cliniciens ne peuvent pas accéder à l'enregistrement pour vérifier qu'ils sont corrects.

« Vous ne pouvez pas détecter les erreurs si vous supprimez la vérité terrain, » dit-il.

Nabla a déclaré qu’aucun modèle n’est parfait et que le leur exige actuellement que les prestataires médicaux éditent et approuvent rapidement les notes transcrites, mais que cela pourrait changer.

Problèmes de confidentialité

Les réunions des patients avec leurs médecins étant confidentielles, il est difficile de savoir dans quelle mesure les transcriptions générées par l’IA les affectent.

Une législatrice de l'État de Californie, Rebecca Bauer-Kahan, a déclaré qu'elle avait emmené l'un de ses enfants chez le médecin plus tôt cette année et avait refusé de signer un formulaire fourni par le réseau de santé qui lui demandait la permission de partager l'audio de la consultation avec des fournisseurs parmi lesquels Microsoft Azure, le système de cloud computing géré par le plus grand investisseur d'OpenAI. Bauer-Kahan ne voulait pas que des conversations médicales aussi intimes soient partagées avec des entreprises technologiques, a-t-elle déclaré.

« Le communiqué était très précis sur le fait que les entreprises à but lucratif auraient le droit d'avoir cela, » a déclaré Bauer-Kahan, un démocrate qui représente une partie de la banlieue de San Francisco à l'Assemblée de l'État. « J'étais comme « absolument pas ». »

Le porte-parole de John Muir Health, Ben Drew, a déclaré que le système de santé était conforme aux lois nationales et fédérales sur la protection de la vie privée.