Moshi est l'un de ses meilleurs arguments

Moshi est l'un de ses meilleurs arguments

Kyutai, une startup française soutenue par de grands noms du monde technologique et financier, a lancé Moshi, un assistant IA capable de parler et d'écouter en temps réel, un peu similaire à ce qu'OpenAI avait promis avec GPT-4o mais qui a dû être retardé.

Parce que c'est important. Moshi représente une avancée majeure dans l'IA conversationnelle en offrant des fonctionnalités qu'OpenAI n'a pas encore pu mettre en œuvre. Avec Mistral, il représente le rôle croissant de l’Europe dans la course à l’IA.

Le contexte. Kyutai a été fondée en novembre 2023. Elle est arrivée avec 300 millions d'euros d'investissement pour se lancer dans la course à l'IA avec un objectif clair : l'open source et la transparence.

Il l'a fait avec l'aide de plusieurs cerveaux :

  • Xavier Niel : milliardaire français et fondateur d'Iliad, une entreprise de télécommunications.
  • Rodolphe Saadé : milliardaire franco-libanais et PDG de CMA CGM, géant du transport maritime.
  • Eric Schmidt : ancien PDG de Google et investisseur technologique.
  • Patrick Pérez : PDG de Kyutai, ancien directeur de Valeo, fournisseur des constructeurs automobiles avec plus d'un siècle d'expérience.
  • Hervé Jégou : Directeur Scientifique de Kyutai, ancien membre de Google DeepMind et Meta.

Les clés de Moshi :

  • Il est capable d’exprimer 70 émotions et styles différents.
  • Traite et génère simultanément de l’audio et du texte. Cela vous permet de « réfléchir pendant que vous parlez ».
  • Il fonctionne quasiment en temps réel, sa latence est de 200 millisecondes.
  • Il utilise Helium, un modèle de langage à 7 milliards de paramètres.
  • Il peut être exécuté sur ordinateur pour le grand public.

Après la technologie. Helium et Moshi ont été formés avec 100 000 conversations synthétiques « parlées », selon la société, et ont utilisé vingt heures d'audio d'une doubleuse nommée « Alice ». Ils n'ont pas voulu révéler son nom complet. Il doit y avoir une raison.

Leurs créations intègrent un filigrane indiquant qu’il s’agit de contenu généré par l’IA, un moyen de répondre aux préoccupations éthiques et de sécurité liées au contenu synthétique.

Les prochaines étapes. Kyutai va devoir trouver cet équilibre entre innovation et sécurité qui accorde tant d’attention aux projets précédents. Son approche open source peut vous aider à accélérer.

  • Kyutai prévoit de publier le code source, le modèle à 7 milliards de paramètres, le codec audio et le modèle complet.
  • Les versions futures (1.1, 1.2 et 2.0) affineront le modèle en fonction de ce que les utilisateurs fournissent.
  • L'entreprise recherche la licence la plus permissive possible pour encourager une adoption et une innovation généralisées.

En perspective. Moshi représente une percée dans l’IA conversationnelle, mais aussi dans l’équilibre des pouvoirs dans le monde de la technologie. Il bénéficie du soutien de personnalités influentes et met l’accent sur la transparence et l’open source qui peuvent redéfinir le paysage de l’IA.

Ce faisant, il cherche à contester la domination de la Silicon Valley de l’autre côté de l’Atlantique pour positionner l’Europe comme un acteur important dans l’avenir de l’IA.

Pour l'instant, vous pouvez l'essayer en ligne.

Image en vedette | Simseo avec Mockuuups Studio

À Simseo | Le client ChatGPT pour Mac est le dernier exemple selon lequel nous avons besoin de plus de sécurité dans l'IA