Un logiciel basé sur l'IA raconte l'environnement des malvoyants en temps réel

Un monde de couleurs et de textures pourrait bientôt devenir plus accessible aux personnes aveugles ou malvoyantes, grâce à un nouveau logiciel qui raconte ce qu'une caméra enregistre.

L'outil, appelé WorldScribe, a été conçu par des chercheurs de l'Université du Michigan et sera présenté au Symposium ACM 2024 sur les logiciels et technologies d'interface utilisateur à Pittsburgh.

L'étude s'intitule « WorldScribe : Towards Context-Aware Live Visual Descriptions » et apparaît sur le arXiv serveur de préimpression.

L'outil utilise des modèles linguistiques d'IA générative (GenAI) pour interpréter les images de la caméra et produire des descriptions textuelles et audio en temps réel afin d'aider les utilisateurs à prendre conscience plus rapidement de leur environnement. Il peut ajuster le niveau de détail en fonction des commandes de l'utilisateur ou de la durée pendant laquelle un objet se trouve dans le cadre de la caméra, et le volume s'adapte automatiquement aux environnements bruyants comme les pièces bondées, les rues animées et la musique forte.

L'outil sera présenté à 18 h 00 HNE le 14 octobre, et une étude de l'outil, que les organisateurs ont identifié comme l'un des meilleurs de la conférence, sera présentée à 15 h 15 HNE le 16 octobre.

« Pour nous, aveugles, cela pourrait vraiment révolutionner la façon dont nous travaillons avec le monde dans la vie quotidienne », a déclaré Sam Rau, né aveugle et qui a participé à l'étude pilote WorldScribe.

« Je n'ai aucune notion de vue, mais lorsque j'ai essayé l'outil, j'ai eu une image du monde réel et j'ai été enthousiasmé par toutes les couleurs et les textures auxquelles je n'aurais pas accès autrement », Rau dit.

« En tant que personne aveugle, nous remplissons en quelque sorte l'image de ce qui se passe autour de nous, pièce par pièce, et cela peut demander beaucoup d'efforts mentaux pour créer une image plus grande. Mais cet outil peut nous aider à avoir les bonnes informations. et à mon avis, cela nous aide à nous concentrer uniquement sur le fait d'être humains plutôt que de comprendre ce qui se passe. Je ne sais pas si je peux même exprimer avec des mots à quel point cela représente vraiment un énorme miracle pour nous.

Descriptions en temps réel de l'environnement pour les personnes aveugles

Au cours de l’étude expérimentale, Rau a enfilé un casque équipé d’un smartphone et s’est promené dans le laboratoire de recherche. La caméra du téléphone transférait sans fil les images à un serveur, qui générait presque instantanément des descriptions textuelles et audio des objets dans le cadre de la caméra : un ordinateur portable sur un bureau, une pile de papiers, une télévision et des peintures accrochées au mur à proximité.

Les descriptions changeaient constamment pour correspondre à ce qui était visible par la caméra, en donnant la priorité aux objets les plus proches de Rau. Un bref coup d'œil sur un bureau a produit une simple description d'un seul mot, mais une inspection plus longue a révélé des informations sur les dossiers et les papiers disposés dessus.

L'outil peut ajuster le niveau de détail de ses descriptions en basculant entre trois modèles de langage d'IA différents. Le modèle YOLO World génère rapidement des descriptions très simples d'objets qui apparaissent brièvement dans le cadre de la caméra. Les descriptions détaillées des objets qui restent dans le cadre pendant une période plus longue sont gérées par GPT-4, le modèle derrière ChatGPT. Un autre modèle, Moondream, propose un niveau de détail intermédiaire.

« La plupart des technologies d'assistance existantes qui exploitent l'IA se concentrent sur des tâches spécifiques ou nécessitent une sorte d'interaction étape par étape. Par exemple, vous prenez une photo, puis vous obtenez un résultat », a déclaré Anhong Guo, professeur adjoint d'informatique. et l'ingénierie et un auteur correspondant de l'étude.

« Fournir des descriptions riches et détaillées pour une expérience en direct constitue un défi de taille pour les outils d'accessibilité », a déclaré Guo. « Nous avons vu une opportunité d'utiliser des modèles d'IA de plus en plus performants pour créer des descriptions automatisées et adaptatives en temps réel. »

Parce qu'il s'appuie sur GenAI, WorldScribe peut également répondre aux tâches ou requêtes fournies par l'utilisateur, telles que la priorisation des descriptions de tous les objets que l'utilisateur a demandé à l'outil de trouver. Certains participants à l’étude ont toutefois noté que l’outil avait du mal à détecter certains objets, comme un flacon compte-gouttes.

Rau affirme que l'outil est encore un peu encombrant pour une utilisation quotidienne dans son état actuel, mais affirme qu'il l'utiliserait tous les jours s'il pouvait être intégré à des lunettes intelligentes ou à un autre appareil portable.

Les chercheurs ont demandé une protection par brevet avec l’aide d’UM Innovation Partnerships et recherchent des partenaires pour les aider à affiner la technologie et à la commercialiser.

Guo est également professeur adjoint d'information au sein de l'École d'information de l'UM.