Faire en sorte que de grands modèles réalisent de petits travaux avec des interfaces de programmation d'applications
Une équipe de recherche de Microsoft a conçu un outil d'efficacité appelé TaskMatrix.AI qui peut être utilisé pour accomplir une grande variété de tâches d'IA spécifiques. TaskMatrix.AI connecte des modèles de base à usage général comme GPT-4, le modèle derrière ChatGPT, avec des modèles spécialisés adaptés à certaines tâches, un peu comme un chef de projet humain. Cette recherche a été publiée dans Informatique intelligente.
Les modèles de base et les modèles spécialisés ont généralement des mécanismes différents et ne sont donc pas facilement compatibles. Plutôt que de modifier et d'intégrer les modèles existants, TaskMatrix.AI comble les écarts entre eux grâce à des interfaces de programmation d'applications, ou API, qui permettent aux composants logiciels de communiquer.
L’équipe de recherche a imaginé un écosystème d’IA applicable à la bureautique, à la robotique, à l’Internet des objets et à d’autres domaines. En conséquence, leur TaskMatrix.AI peut effectuer diverses tâches numériques et physiques, donner des réponses interprétables et apprendre en continu.
TaskMatrix.AI comporte quatre composants clés : un modèle de base conversationnel qui comprend les entrées des utilisateurs selon diverses modalités (telles que le texte et les images) et génère un code d'action exécutable en tant qu'entrée pour les API ; une plate-forme API qui contient un vaste référentiel d'API et leur documentation ; un sélecteur d'API qui choisit les API les plus adaptées au modèle de base et un exécuteur d'action qui exécute le code donné par le modèle.
À mesure que l'écosystème évolue, les développeurs d'API peuvent améliorer la documentation en fonction des commentaires des utilisateurs.
L'équipe a démontré l'utilisation de TaskMatrix.AI pour traiter des images et créer automatiquement des diapositives PowerPoint.
Au cours de la tâche de traitement d'image, un humain a interagi avec TaskMatrix.AI en tapant des instructions en langage naturel pour des tâches visuelles complexes telles que la génération, l'édition et la description d'images. TaskMatrix.AI a démontré sa capacité à comprendre les intentions humaines grâce à des entrées textuelles et a fourni un résultat satisfaisant.
Par exemple, avec une petite image d'entrée d'une fleur rose sur fond vert et une seule instruction pour « l'étendre à 2048 × 4096 », TaskMatrix.AI a généré une image convaincante de fleurs vibrantes et colorées sur des feuilles vertes luxuriantes grâce à des questions : API de réponse, de sous-titrage et de remplacement d'objets.
La tâche d'automatisation PowerPoint nécessitait que TaskMatrix.AI crée un ensemble de diapositives, chacune présentant une entreprise technologique différente. ChatGPT a servi de modèle de base pour comprendre les instructions utilisateur complexes, telles que l'insertion de texte, le redimensionnement et le déplacement d'images, ainsi que la modification du thème des diapositives PowerPoint. Par exemple, TaskMatrix.AI a réussi à insérer et redimensionner cinq logos d'entreprise, obtenus sur Internet, en appelant plusieurs API pertinentes.
Malgré la validation préliminaire de TaskMatrix.AI, l'équipe a souligné certains défis à venir, tels que la recherche et l'ajustement d'un modèle de base puissant, la création et la maintenance d'une plate-forme API idéale et la réponse aux préoccupations des utilisateurs telles que la sécurité des données, la confidentialité et les besoins de personnalisation.