L'évolution des agents d'IA et des systèmes agentiques
L’évolution des agents IA a commencé tranquillement, pour devenir des systèmes qui intègrent des mécanismes de contrôle interne avec des ancrages contextuels externes et des entrées cognitives. Cette avancée permet des interactions plus sophistiquées et dynamiques. Les grands modèles de langage (LLM) ont des limites inhérentes en termes de connaissances et de capacités de raisonnement. Le Agents IA dotés de capacités linguistiques relèvent ces défis en connectant les LLM à la mémoire interne et aux environnements externes, en les ancrant dans les connaissances existantes ou les observations du monde réel.
Une étude menée par des chercheurs de l’université de Princeton (Theodore R. Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths) met en lumière les « architectures cognitives pour agents linguistiques » (CoALA).
Une nouvelle classe d'agents linguistiques
Enfin, les chercheurs ont augmenté les grands modèles de langage (LLM) avec ressources externes (par exemple, Internet) ou flux de contrôle interne (par exemple, le chaînage rapide) pour des tâches qui nécessitent des bases ou un raisonnement, donner vie à une nouvelle classe d'agents linguistiques. Bien que ces agents aient obtenu un succès empirique considérable, il manque un cadre pour organiser les agents existants et planifier les développements futurs.
Dans leurs travaux, des chercheurs de l'Université de Princeton proposent le « Architectures cognitives pour agents linguistiques » (CoALA). CoALA décrit un agent linguistique avec des composants de mémoire modulaires, un espace d'action structuré pour interagir avec la mémoire interne et les environnements externes, et un processus de décision généralisé pour choisir les actions. Ils ont utilisé CoALA pour examiner et organiser rétrospectivement un grand nombre de travaux récents et pour identifier de manière prospective des orientations vers des agents plus compétents. Dans l'ensemble, CoALA contextualise les agents linguistiques d'aujourd'hui dans l'histoire plus large de l'IA et trace la voie versintelligence générale basée sur le langage.
Agents IA, lévolution architecturale
Dans le passé, les systèmes devaient s’appuyer sur des règles élaborées à la main ou sur un apprentissage par renforcement, ce qui pouvait rendre difficile leur adaptation à de nouveaux environnements. Les agents d'IA linguistique utilisent la compréhension du bon sens intégrée aux LLM pour s'attaquer à de nouvelles tâches, réduisant ainsi le recours à l'annotation humaine ou à l'apprentissage par essais et erreurs.
Architectures cognitives
Compte tenu de l'image ci-dessus, les grands modèles de langage remplissent des objectifs différents en fonction de leurs applications :
- A — Traitement de texte : dans le traitement du langage naturel (NLP), les LLM prennent du texte en entrée et génèrent du texte en sortie.
- B — Agents linguistiques : ceux-ci intègrent les LLM dans une boucle de rétroaction avec des environnements externes, transformant les observations en texte et tirant parti du LLM pour prendre des décisions ou effectuer des actions.
- C — Agents d'IA linguistiques cognitives : ces systèmes avancés utilisent les LLM non seulement pour l'interaction, mais également pour gérer les processus internes tels que l'apprentissage et le raisonnement.
Orchestration
Un agent IA peut être appréhendé à travers trois éléments clés :
- Architectures cognitives : La mémoire épisodique fait référence à la capacité de stocker et de rappeler des événements ou des expériences spécifiques, comme se souvenir d'une conversation récente. La mémoire sémantique stocke des connaissances générales sur le monde, telles que des faits et des concepts.
- Espace Actions : l'agent IA opère dans un cadre de double action. Les actions internes impliquent des processus tels que le raisonnement, la planification et la mise à jour de son état interne, tandis que les actions externes impliquent des interactions avec l'environnement, telles que l'exécution de commandes ou la fourniture de résultats.
- Procédure de décision : la décision de l'agent est organisée comme un cycle interactif composé de planification et d'exécution. Ce processus itératif permet à l'agent d'analyser son environnement, de formuler une stratégie et d'agir en conséquence, en affinant son approche à mesure que de nouvelles informations deviennent disponibles.
Environnements numériques
Les agents IA opèrent dans différents environnements qui leur permettent d'interagir et d'effectuer des tâches. Actuellement, ces environnements sont principalement numériques, notamment les systèmes d'exploitation mobiles, les systèmes d'exploitation de bureau et d'autres écosystèmes numériques. Dans ces contextes, Les agents d'IA peuvent interagir avec des jeux, des API, des sites Web et l'exécution générale de code, en utilisant ces plates-formes comme base pour effectuer des tâches et appliquer leurs connaissances.
Agents IA : exemples pratiques
Par exemple, dans les tâches de traitement du langage naturel (NLP), les API numériques, telles que les moteurs de recherche, les calculatrices et les traducteurs, sont souvent regroupées sous forme d'outils au sein du système d'exploitation, conçus à des fins spécifiques. Ces outils peuvent être considérés comme des environnements numériques spécialisés à usage unique qui permettent aux agents d’effectuer des tâches nécessitant des connaissances ou des calculs externes.
L'avenir des agents IA
À mesure que les agents d’IA continuent d’évoluer, leur présence dans les environnements numériques s’étendra au-delà de l’interaction statique, jetant ainsi les bases de systèmes plus complexes.. L’avenir des agents IA réside dans leur incarnation physique, où ils évolueront dans des environnements réels. Cette transition ouvrira de nouvelles possibilités pour l’IA, permettant aux agents d’interagir physiquement avec le monde, de naviguer dans des espaces dynamiques et d’assumer des rôles dans des domaines tels que la robotique.
Conclusionle
Ce qui ressort de cette étude est l'analyse détaillée des cadres évolutifs construits autour des LLM pour maximiser leur potentiel. Il montre comment ces structures sont à la fois internes et externes, travaillant en tandem pour renforcer leurs capacités. En interne, l'accent est mis sur le raisonnement, qui constitue le cœur de l'intelligence et des processus décisionnels du modèle. En externe, le parcours a commencé par l’augmentation des données, permettant l’intégration d’informations supplémentaires. Au fil du temps, ces cadres externes se sont élargis pour inclure une interaction directe avec le monde extérieur, étendant ainsi la fonctionnalité et l'adaptabilité des LLM.
Les architectures cognitives pour les agents linguistiques (CoALA) fournissent un cadre conceptuel pour décrire et créer des agents linguistiques. Le cadre s'inspire de la riche histoire deintelligence artificielle symbolique et de sciences cognitivesreliant des connaissances vieilles de plusieurs décennies à des recherches de pointe sur de grands modèles de langage. Une approche qui donne un chemin vers le développement d’une intelligence artificielle plus générale et plus humaine.