Capture d'écran 2024 05 14 À 14 50 47

GPT-4o est capable de nous expliquer ce qu'il voit. Cela peut être une aide exceptionnelle pour les personnes aveugles.

Le nouveau GPT-4o ne nous a pas seulement étonné par sa capacité à « parler » ou à révolutionner des domaines comme l'enseignement : le caractère multimodal Cette évolution lui permet également de pouvoir reconnaître ce que capture notre caméra mobile. C'est une option qu'OpenAI a mise en avant dans plusieurs démos, mais qui était particulièrement importante dans une d'entre elles.

sois mes yeux. La société Be My Eyes aide les personnes aveugles ou ayant de graves problèmes de vision, les met en relation avec des personnes voyantes et les aide avec de simples appels d'assistance. Désormais, OpenAI s'est associé à ce projet pour faire du nouveau ChatGPT avec GPT-4o le guide unique pour les personnes aveugles.

Une démo unique. La vidéo publiée par OpenAI e X (anciennement Twitter) lors de la présentation d'hier est en fait une version courte de celui qui a partagé l'un de ses directeurs, Greg Brockman. Dans ce document, une personne aveugle a utilisé ChatGPT pour décrire ce qui se trouvait devant lui dans divers endroits de Londres.

Taxi!. Une autre action quotidienne que ceux d'entre nous qui peuvent (peuvent) voir sans réfléchir est de lever le bras pour prendre un taxi. ChatGPT est capable (au moins dans la démo) de détecter comment on arrive afin que la personne aveugle puisse avertir le taxi qu'elle veut le prendre. Pour le protagoniste de la vidéo, la normalité qu'offre cette option ChatGPT « est pleine d'espoir » pour les personnes aveugles.

Un guide virtuel. Il y a eu d'autres démos dans lesquelles ChatGPT a montré sa capacité à reconnaître des objets ou à écrire dans des problèmes mathématiques, et bien que toutes ces applications soient sans aucun doute intéressantes, la possibilité de faciliter la vie des personnes aveugles ou ayant de graves problèmes de vision se démarque surtout dans le face à l'avenir.

Des implications profondes. La collaboration avec OpenAI est en cours depuis un certain temps et a en fait été activée avec une version préliminaire de GPT-4 qui proposait ce « volontaire virtuel » qui offrait un contexte sur ce que le téléphone mobile capturait avec l'appareil photo. Avec les avancées du GPT-4o en termes de synthèse vocale et de langage naturel, les implications sont « profondes », comme le souligne Michael Buckley, PDG de Be My Eyes.

Plus de progrès. Dans Be My Eyes, ils ont expliqué la réussite d'un utilisateur qui a pu voyager en train – avec des instructions étape par étape – grâce à ce projet, mais cela peut aussi être d'une grande aide en complément des lecteurs d'écran utilisés par le aveugle : grâce à ChatGPT, il est désormais possible de détecter des parties importantes de l'écran qui doivent être mises en évidence ou résumées pour ces utilisateurs, ce qui est particulièrement utile par exemple sur les sites de commerce électronique.

À Simseo | OpenAI vient de nous rapprocher plus que jamais de 'Elle' : son nouveau modèle de voix nous accompagnera (et nous fera peut-être tomber amoureux)