Microsoft était complètement esclave d'OpenAI pour ses options d'IA. Cela vient juste de commencer à changer

Hier, Microsoft a présenté une avalanche de nouvelles fonctionnalités avec lesquelles il a plus que jamais renforcé son engagement en faveur de l'intelligence artificielle pour l'utilisateur final. Parmi eux, il y en a plusieurs, oui, qui n’en dépendent pas, et c’est significatif.

Le rappel vient de Microsoft. Comme expliqué dans la documentation Microsoft, Recall utilise Windows Copilot Runtime, un composant qui à son tour utilise le modèle Phi développé par Microsoft lui-même. Nous sommes donc confrontés à une fonction intéressante qui dépend d’une technologie développée par l’entreprise elle-même.

Copilot Vision y ressemble aussi. Une autre des fonctions les plus intéressantes présentées hier était Copilot Vision, qui permet de « voir » ce que vous voyez dans le navigateur. Pour le moment uniquement dans Edge et uniquement sur certains sites Web, mais grâce à cela, vous pouvez demander ce contenu au navigateur. Cette fonctionnalité pourrait s'appuyer — Microsoft ne la détaille pas — sur Phi-3.5-Vision-Instruct, un modèle léger précisément orienté vers ce type de fonction.

Penser plus profondément est o1. Cette option Copilot Labs permet d'accéder à une version de Copilot qui « raisonne » et prend son temps pour essayer de faire moins d'erreurs dans ses réponses. Mustafa Suleyman, responsable de la division IA chez Microsoft, a expliqué dans Wired que cette option est basée en o1 (Strawberry), bien qu'il souligne qu'ils ont personnalisé ce modèle pour l'adapter à l'expérience offerte par Copilot.

Copilot Voice est (probablement) GPT-4o. Il y a quelques mois, OpenAI a commencé à montrer comment GPT-4o était capable de converser avec nous avec des voix synthétiques qui semblent presque humaines. Cette fonctionnalité arrive désormais à Copilot Voice, qui est essentiellement la même chose, mais avec un nom différent. Hier encore, OpenAI a lancé son API Realtime lors de sa conférence des développeurs, avec laquelle les développeurs peuvent créer des expériences rapides de « voix-parole » pour leurs applications. Copilot Voice est précisément cela, et bien que Microsoft ne l'ait pas confirmé – il commence à l'utiliser dans Azure – il semble être basé sur cette API.

Microsoft déplace le jeton. Tout cela montre que bien que Microsoft soit le grand allié et investisseur d'OpenAI, il essaie de ne pas (autant) dépendre d'elle. C'est une stratégie prévisible et raisonnable : elle profite de son alliance actuelle pour intégrer les modèles d'IA les plus avancés dans son catalogue de produits, mais en parallèle elle développe ses propres modèles et commence à les intégrer petit à petit.

Apple fait quelque chose de similaire. La stratégie d'Apple est dans une certaine mesure similaire : dans son cas, les fonctions limitées d'Apple Intelligence sont basées sur sa propre technologie, mais l'utilisateur peut accéder à ChatGPT, le chatbot d'OpenAI, s'il le souhaite. Il est clair qu'Apple – dont l'obsession du contrôle absolu est bien connue – ne veut dépendre de personne, même si pour le moment cela limite les options que sa plateforme d'IA peut offrir.

OpenAI doit se rendre indispensable. De l’autre côté, nous avons une OpenAI qui est désavantagée : elle ne dispose pas de son propre système d’exploitation pour PC ou téléphones mobiles comme le font Microsoft, Google ou Apple. Cela l’oblige à continuer d’essayer d’être la référence dans le domaine de l’IA afin que ces entreprises continuent à en avoir besoin, au moins dans certains domaines. Le défi est là, mais il est évident que ces trois sociétés, comme d'autres, travaillent sur leurs propres modèles d'IA, ce qui va rendre les choses de plus en plus difficiles pour l'équipe de Sam Altman.

À Simseo | Jusqu’à présent, Microsoft et OpenAI étaient de grands alliés. Jusqu'à maintenant