Google prépare Jarvis, son propre « majordome virtuel »

La semaine dernière, nous avons assisté au début de ce qui semble être la prochaine grande étape de l’IA générative. Anthropic a lancé Computer Use, un agent IA capable de prendre le contrôle de notre ordinateur pour effectuer toutes sortes d'actions complexes. La fonctionnalité a relancé le segment, et maintenant une course particulière semble commencer entre les grands du segment. Selon les données de The Information, Google y participe.

Projet Jarvis. Il s'agit censément du nom de code de l'agent IA de Google qui prendra le contrôle du navigateur de l'utilisateur pour effectuer toutes sortes de tâches. Il s'agit notamment d'effectuer des recherches et des recherches à partir du navigateur, d'acheter un produit ou de réserver un vol.

Capture d'écran 2024 10 28 Au 7 47 55

Contrôle du navigateur, pas de l'ordinateur. Tout indique que l'option fera partie de Gemini, la famille de grands modèles linguistiques (LLM) de Google. Contrairement à l'agent IA d'Anthropic, Jarvis prendra le contrôle du navigateur, et non de l'ensemble de l'ordinateur. Il serait censé être spécialement conçu pour fonctionner avec Chrome et viserait à « automatiser les tâches quotidiennes basées sur le Web ».

Chatbot, ne me dis pas ce dont j'ai besoin, fais-le. L'option Utilisation de l'ordinateur de Claude nous a montré la semaine dernière comment son chatbot était capable non seulement de converser avec l'utilisateur et de répondre à ses questions, mais aussi de faire des choses pour lui directement à partir de commandes complexes. Par exemple, « créez un site Web des années 90 sur un groupe de rock », comme le démontre Anthropic et comme le montre la vidéo qui accompagne ces lignes.

Pour l'instant, limité et cher. Ce type d'option en est encore à ses premiers pas, et Anthropic a déjà prévenu que les performances sont lentes. En effet, pour fonctionner, le système d'IA n'arrête pas de prendre des captures d'écran de ce que l'écran montre, puis de les analyser et d'agir en conséquence. Cette forme d'automatisation est également actuellement coûteuse : de nombreux appels à l'API Anthropic sont nécessaires pour effectuer des tâches un peu plus complexes comme celle de la démo.

D'autres agents IA arrivent. Ces dernières semaines, nous avons constaté que les « majordomes virtuels » semblent être la prochaine grande revendication de l'IA générative. En plus d'Anthropic et du supposé projet Jarvis de Google, nous avons Microsoft, qui a présenté il y a quelques semaines Copilot Vision, qui nous permet d'interagir avec les sites Web que nous visitons. De plus, on s'attend à ce qu'Apple Intelligence puisse également reconnaître ce qui se trouve sur notre écran pour y effectuer des actions lors de la connexion à différentes applications.

Quand Jarvis arrivera-t-il ? Google devrait présenter le supposé « Gemini 2.0 » en décembre, et c'est peut-être précisément à ce moment-là que l'entreprise en profitera également pour dévoiler le lancement du Projet Jarvis, dont le nom définitif n'est pas connu. Dans The Information, ils indiquent que Google pourrait proposer cet agent d'IA à certains utilisateurs à titre préliminaire pour le tester et ainsi lancer ce projet avec le moins d'échecs et de conflits possibles.

Images | MrHomegrown avec Midjourney

À Simseo | OpenAI a besoin de quelque chose de plus grand qu'un GPT-4 plus puissant pour sauver son 2025. Leur espoir s'appelle Orion