Savarese (Salesforce) : « Les prochains objectifs de l'IA »

Silvio Savarese est vice-président exécutif et directeur scientifique de la recherche en IA chez Salesforce ; professeur d’informatique à l’Université de Stanford. Mais il est également le seul membre italien du Conseil consultatif sur l’IA des Nations Unies, où il représente notre pays dans les activités de développement de l’intelligence artificielle.

Nous l’avons rencontré à San Francisco, où est basée l’entreprise – à l’intérieur de la tour de 60 étages – et où se trouve le centre de recherche du géant de la haute technologie, qui possède également une succursale à Singapour.

« Les prochaines tendances et objectifs sont différents ; parmi ceux-ci, il y a en premier lieu le développement de l’intelligence environnementale, les connexions entre agents d’IA de différents types et la formation de systèmes intelligents à partir de l’expérience », explique Savarese.

Les connexions entre les différents agents d’IA

Le développement de la technologie nous conduit vers un futur proche dans lequel chaque individu disposera d’un agent ou assistant numérique personnel, capable de mener des actions concrètes et personnalisées.

Dans la vie quotidienne vous pourrez par exemple gérer les réservations et les rendez-vous, organiser des déplacements et des déplacements, effectuer des achats et des commandes commerciales.

Dans son travail, il mettra à jour l’ordre du jour et les réunions, contactera différents interlocuteurs, préparera des analyses et des rapports et trouvera de nouvelles opportunités d’affaires. Et bien plus encore.

L'image contenant un jouet, le contenu généré par cartoonAI peut ne pas être correct.

Tout cela – multiplié par une multitude de personnes et de professionnels – « donnera vie à un véritable et énorme écosystème d’agents d’IA, qui devront communiquer entre eux de manière sûre et efficace », remarque le scientifique en chef de Salesforce Research.

Qui observe : « actuellement, ces connexions indispensables entre agents et algorithmes sont développées et consolidées, pour garantir que les différentes solutions et systèmes d’IA puissent communiquer et dialoguer de manière uniforme, homogène et totalement fonctionnelle ».

Les quatre piliers des agents digitaux et physiques

Les agents numériques et physiques – tels que les robots-taxis autonomes, déjà opérationnels dans des villes comme San Francisco – partagent une architecture technologique commune, basée sur quatre éléments fondamentaux :

Cerveau (moteur de raisonnement) : le moteur de raisonnement logique qui traite les analyses, les décisions et les actions. Il condense la puissance de calcul, de traitement et opérationnelle du système « intelligent ».

Mémoire : capacité de se souvenir d’informations, d’itinéraires et de conversations passées et d’accéder à une documentation spécifique pour effectuer une tâche.

Actionneurs : les outils qui vous permettent d’interagir avec le monde extérieur, qu’il s’agisse d’appels API et d’applications pour le monde numérique ou de bras mécaniques pour les robots physiques.

Interface : le point de contact avec l’utilisateur humain, qui peut être textuel, vocal ou visuel.

« Nous travaillons dur sur le développement de chacun de ces quatre facteurs », souligne Savarese, « actuellement avec un accent particulier sur les parties ‘cerveau’ et ‘interface’ des systèmes de haute technologie, pour améliorer leurs capacités et rendre leur utilisation de plus en plus intuitive, facile et rapide, même par des utilisateurs non spécialisés ».

Une nouvelle frontière : l’intelligence environnementale

Un changement de paradigme fondamental est la transition de l’IA réactive – basée sur le commandement et la réponse, comme l’IA générative – à ce que l’on appelle l’intelligence ambiante.

Dans ce modèle, l’IA s’immerge dans le contexte de référence, prend conscience du contexte dans lequel elle opère et intervient automatiquement et de manière proactive, même sans être explicitement invoquée.

L'image contenant des illustrations, une capture d'écran ou du contenu léger généré par l'IA peut ne pas être correct.

Par exemple, « si un professionnel parle à un autre interlocuteur, le système d’intelligence environnementale écoute la conversation en cours. Lorsque l’individu ne se souvient pas bien de quelque chose – comme des données, des informations, des détails sur le sujet abordé -, l’IA environnementale peut intervenir pour l’aider, en lui fournissant uniquement les informations les plus ciblées et pertinentes », anticipe Savarese.

Synchronisation, modes de fonctionnement et interface IA environnementale

« Différents aspects de ces nouveaux systèmes et applications doivent être peaufinés. Tout d’abord, le calendrier d’intervention », note Savarese. Exemple : « si le dialogue entre les deux interlocuteurs dure une demi-heure, pendant laquelle le professionnel rencontre divers oublis, inexactitudes, erreurs, l’IA environnementale doit-elle intervenir à chaque fois – au risque d’être trop intrusive, et de trop interrompre la conversation – ou dans un seul commentaire, ou seulement dans certains cas ? Cela reste à voir et à définir ».

Ensuite, les modalités et interfaces de cette intervention de l’intelligence environnementale doivent être étudiées et soigneusement prévues : si le professionnel appelle en ligne, comment cette IA doit-elle se révéler et intervenir ? Apparaissant sur votre écran d’ordinateur ? Avec une alerte ? Un message explicatif et clarifiant ? Court ou détaillé ?

« Toutes ces méthodes opérationnelles et concrètes – y compris le timing et l’interface utilisateur – sont étudiées et améliorées, au travers de prototypes, pour ensuite définir les solutions finales ».

Trouver le bon équilibre

Un autre exemple concret de cette technologie est le nouveau système Pisa (acronyme de Proactive Intelligence Salesforce Agentforce).

Il est conçu pour assister les commerciaux ou les opérateurs de centres d’appels en temps réel : écouter la conversation avec le client, comprendre le contexte et fournir instantanément des informations précises ou des suggestions issues de la documentation de l’entreprise.

L'image contenant une personne, une main et un contenu généré par HoldAI peut ne pas être correcte.

Ici aussi, « le principal défi du développement de Pise consiste à trouver le juste équilibre temporel et opérationnel, en intervenant au moment précis où le soutien est utile, sans être intrusif ou excessif ».

Formation par expérience

Alors que les modèles linguistiques (LLM) atteignent un niveau de saturation dans l’apprentissage à partir de données Internet uniquement textuelles, la nouvelle frontière est la formation par l’expérience.

Les agents apprennent grâce à un système de rétroaction positive et négative basé sur leurs actions, à l’instar des humains.

Pour que les agents fonctionnent bien avant même leur arrivée sur le marché, des environnements de simulation sont utilisés. Le projet eVers (Verset d’entreprise) crée un « omniverse » d’entreprise où les agents sont testés dans des situations critiques – telles que le bruit de fond ou les accents difficiles à comprendre dans un centre d’appels – afin d’améliorer leur robustesse et leur efficacité. Cette technologie est déjà opérationnelle au sein des outils de tests de la plateforme Agentforce de Salesforce.

L'image contenant du contenu en plein air, un bâtiment, une zone métropolitaine et généré par skyAI peut ne pas être correcte.

Autres frontières futures : négociation d’agent à agent et autoformation

La recherche se concentre également sur deux autres tendances transformatrices :

Interaction et négociation agent-agent :
création de protocoles de communication permettant aux assistants numériques de négocier entre eux.

Par exemple, l’agent IA d’un acheteur peut négocier le prix d’une voiture avec l’agent d’un concessionnaire, tout en se coordonnant simultanément avec l’agent d’une banque pour le financement.

Auto-apprentissage (autoformation) : « le développement d’une IA capable de reconnaître ses propres limites et lacunes de connaissances », explique Savarese, « construisant de manière autonome les outils nécessaires pour les combler et ainsi réduire les phénomènes d’erreur et d’hallucination ».