Un nouvel outil d'IA ouvre la modélisation 3D aux programmeurs aveugles et malvoyants

Un nouvel outil d'IA ouvre la modélisation 3D aux programmeurs aveugles et malvoyants

Les programmeurs aveugles et malvoyants ont longtemps été exclus des logiciels de modélisation tridimensionnelle, qui dépendent des utilisateurs voyants qui font glisser, faire pivoter et inspecter les formes à l'écran.

Aujourd'hui, une équipe de recherche multiuniversitaire a développé A11yShape, un nouvel outil conçu pour aider les programmeurs aveugles et malvoyants à créer, inspecter et affiner de manière indépendante des modèles tridimensionnels. L'étude est publiée sur le arXiv serveur de préimpression.

L'équipe se compose d'Anhong Guo, professeur adjoint de génie électrique et d'informatique à l'Université du Michigan, et de chercheurs de l'Université du Texas à Dallas, de l'Université de Washington, de l'Université Purdue et de plusieurs institutions partenaires, dont Gene SH Kim de l'Université de Stanford, membre de la communauté des aveugles et des malvoyants.

A11yShape combine l'éditeur de modélisation 3D basé sur du code OpenSCAD avec le grand modèle de langage GPT-4o. OpenSCAD permet déjà aux utilisateurs de créer des formes 3D en écrivant des commandes au lieu de faire glisser des objets avec la souris. Par exemple : le cylindre (h=20, d=5) produit instantanément un cylindre de 20 unités de hauteur et 5 unités de diamètre qui peut être tourné et exporté pour l'impression 3D.

Mais pour les utilisateurs aveugles, ce modèle rendu n’est qu’une image silencieuse à l’écran. Ils peuvent écrire du code mais n'ont aucun moyen de « voir » si la forme est haute ou courte, où les pièces sont placées ou si quelque chose est mal aligné.

A11yShape comble cette lacune en agissant comme les « yeux » de l'utilisateur. Chaque fois qu'un utilisateur aveugle ou malvoyant écrit du code OpenSCAD, A11yShape :

  • Restitue le modèle 3D sous plusieurs angles (haut, bas, gauche, droite, avant et arrière) afin d'obtenir un instantané visuel complet de l'objet.
  • Introduira à la fois le code et ces instantanés dans GPT-4o. Étant donné que GPT-4o peut traiter simultanément du texte et des images, il produit des descriptions en langage clair de la taille, de la forme et de la position de chaque pièce (« Un grand cylindre étroit se tient debout au centre, attaché à un cube à sa base ») et peut répondre à des questions (« Quelle est la largeur de la base ? ») ou suggérer des modifications de code.
  • Synchronise les sélections dans toutes les vues. Grâce à un mécanisme de « mise en évidence de représentations croisées », lorsqu'un utilisateur sélectionne (via un clavier ou un lecteur d'écran) « aile » dans le contour, A11yShape met simultanément en évidence le code de l'aile, sa description et sa position rendue. Le système enregistre également chaque modification, à la fois les modifications utilisateur et les modifications suggérées par l'IA, dans des journaux séparés afin que les utilisateurs puissent revenir en arrière ou comparer les versions.

Ensemble, ces fonctionnalités offrent aux programmeurs aveugles et malvoyants quatre manières liées de comprendre un modèle (code, description générée par l'IA, hiérarchie sémantique et rendu visuel), leur permettant de créer et d'ajuster des conceptions de manière indépendante.

Un nouvel outil d’IA ouvre la modélisation 3D aux programmeurs aveugles et malvoyants

Pour évaluer A11yShape, l’équipe a mené une étude multisession avec quatre programmeurs aveugles ou malvoyants, dont aucun n’avait d’expérience préalable en modélisation 3D. Après un tutoriel d'introduction, chaque participant a utilisé le système pendant trois sessions pour réaliser 12 modèles, dont une brochette Tanghulu, des robots, une fusée et un hélicoptère.

Les quatre participants ont réalisé avec succès des tâches de modélisation 3D guidées et de forme libre à l'aide d'A11yShape. Ils ont rapporté un score moyen sur l'échelle d'utilisabilité du système de 80,6, une note élevée pour la convivialité. Un participant a déclaré : « Je n'avais jamais modélisé auparavant et je n'aurais jamais pensé pouvoir le faire. … Cela nous a fourni (à la communauté BLV) une nouvelle perspective sur la modélisation 3D, démontrant que nous pouvons effectivement créer des structures relativement simples.

L'étude a révélé des flux de travail distincts. Certains participants ont écrit eux-mêmes la majeure partie du code, en utilisant l’IA principalement pour les descriptions. D’autres se sont appuyés sur l’IA pour générer un modèle initial, puis l’ont affiné manuellement. Tous ont utilisé le contrôle de version et la navigation hiérarchique pour corriger les erreurs et localiser des parties de leurs modèles.

Pourtant, des défis subsistaient. Les descriptions textuelles lourdes créaient parfois une surcharge cognitive. Les participants ont également eu du mal à évaluer des relations spatiales précises sans retour tactile, ce qui a entraîné des désalignements occasionnels, tels que des hélices flottant au-dessus du fuselage d'un hélicoptère.

Malgré ses limites, les chercheurs affirment qu’A11yShape représente une étape importante dans le domaine des outils de créativité accessibles. En reliant le code, les descriptions, la structure et le rendu, le système permet aux utilisateurs aveugles et malvoyants de concevoir et de modifier indépendamment des artefacts qui n'étaient autrefois accessibles qu'avec une assistance voyante.

Les versions futures pourraient inclure des descriptions d'IA plus concises, des fonctionnalités de saisie semi-automatique pour le code et une intégration avec des écrans tactiles ou une impression 3D pour fournir un retour physique.

« Notre vision pour A11yShape est d'ouvrir la porte aux créateurs aveugles et malvoyants pour qu'ils puissent entrer dans un monde d'activités créatives, telles que la modélisation 3D, et rendre possible ce qui semblait autrefois impossible », a déclaré Liang He, chercheur à l'Université du Texas à Dallas.

« Nous n'en sommes qu'au début », a déclaré Guo. « Nous espérons que cette approche rendra non seulement la modélisation 3D plus accessible, mais qu'elle inspirera des conceptions similaires dans d'autres domaines créatifs. »