Bienvenue dans l'ère de l'IA de poche : Google propose une révolution avec Gemini Nano

Microsoft lance Phi-3, un petit modèle d'IA qui fonctionne sans problème sur un appareil surprise : l'iPhone 15

Les modèles d'IA générative comme ChatGPT nous inondent, mais pour les utiliser, la grande majorité des utilisateurs se tournent vers le cloud, où de puissants serveurs traitent nos requêtes et effectuent les calculs complexes nécessaires pour nous répondre comme ils le font. Le problème est précisément cela. Nous dépendons du cloud pour utiliser les ChatGPT du monde, mais cela pourrait changer à court terme, et Microsoft fait partie de ceux qui se sont positionnés pour y parvenir.

Phi-3. Microsoft vient de lancer la nouvelle itération de son modèle d'IA « léger », baptisée Phi-3 Mini. Il s'agit de la version 3.8B, c'est-à-dire avec 3,8 milliards de paramètres : plus un modèle en utilise, plus il peut être complexe et puissant. Réduire ce nombre de paramètres nuit généralement à la précision et aux capacités du chatbot, mais Microsoft affirme que Phi-3 fonctionne mieux que Phi-2 – introduit en décembre 2023 – et peut fournir des réponses similaires à un modèle 10 fois plus grand.

Plus de versions en vue. Ce modèle fait en réalité partie d'une famille de modèles légers, et la firme s'apprête à en sortir deux légèrement plus grands, Phi-3 Small (7B) et Phi-3 Medium (14B). Avec eux, la capacité et la puissance augmentent, mais on ne sait pas encore quelle capacité réelle ils offriront et quel sera le cas d’utilisation idéal pour en profiter.

Comparable à ChatGPT. Eric Boyd, vice-président de Microsoft Azure AI Platform, a expliqué dans The Verge que Phi-3 est aussi performant que les LLM comme GPT-3.5, qui est précisément celui que nous utilisons gratuitement lorsque nous utilisons ChatGPT. « Cela fonctionne simplement avec un facteur de taille plus petit », explique Boyd.

Capture d'écran 2024 04 23 Au 12 14 31
Capture d'écran 2024 04 23 Au 12 14 31

Les ingénieurs de Microsoft ont testé le Phi-3 Mini sur un iPhone équipé d'un processeur A16 Bionic et ont atteint 12 jetons par seconde, une fluidité vraiment remarquable pour un smartphone. Source : Microsoft (arXiv).

Un modèle pour notre mobile (et plus de choses). L'objectif de ce modèle, comme celui de son prédécesseur, est de démontrer qu'il est possible de proposer un modèle d'IA suffisamment petit pour être exécuté sur le matériel de nos smartphones tout en offrant de bonnes performances et une bonne expérience utilisateur. Et pas seulement sur ce matériel, car il peut également fonctionner sur de petits serveurs ou sur nos PC et ordinateurs portables.

Fonctionner sur un iPhone. Comme le montre l'image ci-dessus, tirée de l'étude publiée par Microsoft, les chercheurs ont testé Phi-3 sur un iPhone équipé d'un SoC Apple A16. Cette puce a été utilisée dans l’iPhone 14 Pro/Max, ainsi que dans les iPhone 15 et 15 Plus. Avec ce matériel Phi-3, il était capable de générer du texte à 12 jetons par seconde, un chiffre qui, sans être spectaculaire, surtout si l'on veut des réponses longues, est frappant.

De plus en plus de concurrence. Gemini Nano a été le premier grand protagoniste de ce lot de « modèles d'IA mobiles », mais il a été bientôt suivi par les Phi-2 et des modèles spécialisés tels que Google Gemma 2B et 7B, Claude 3 Haiku et même le Llama 3 8B récemment lancé par Méta.

Formé aux « histoires pour enfants ». L’une des curiosités du modèle réside dans la manière dont il a été formé. Chez Microsoft, ils ont été inspirés par la façon dont les enfants apprennent des histoires qui leur sont lues avant de s'endormir, et ils ont voulu entraîner Phi-3 avec des livres avec des mots plus simples et des structures simples qui traitaient de divers sujets. Selon Boyd « Il n'y a pas assez de livres pour enfants, nous avons donc pris une liste de plus de 3 000 mots et avons demandé à un LLM de créer des « livres pour enfants » pour enseigner le Phi.[-3] ».

Héritage de leurs ancêtres. Alors que Phi-1 se concentrait sur la programmation et Phi-2 sur le raisonnement, Phi-3 fait mieux que ses prédécesseurs. Il ne peut pas rivaliser avec GPT-4, qui est entraîné de manière beaucoup plus ambitieuse, mais il peut être très utile si, par exemple, ils souhaitent l'utiliser avec des sous-ensembles de données internes et qui consomment également beaucoup moins de ressources.

Avantages et inconvénients. Microsoft propose ce modèle comme une alternative aux grands modèles actuels, ambitieux et plus précis, mais qui nécessitent également une consommation énergétique importante. Avec Phi-3, une entreprise ou un individu pourrait exécuter localement ses interactions avec le chatbot et avoir des réponses, sans être aussi précises ou complètes, suffisantes pour ces cas d'utilisation. Les économies de matériel et d'énergie nécessaires sont combinées à son avantage fondamental : ne pas dépendre du cloud.

À Simseo | Meta, IBM et d'autres forment The AI ​​​​Alliance. Son objectif : défendre le développement de modèles d’IA Open Source