Une start-up basque de l'IA vient de lever 189 millions d'euros avec une excellente idée: compresser l'IA

Avant de comprimer des fichiers avec ZIP. Maintenant, ce dont nous commençons à avoir besoin, c'est de comprimer l'IA pour le rendre plus petit et efficace. C'est l'idée que les fondateurs de Multivrse Computing avaient, une startup espagnole qui devient le nouveau joyau de la couronne de notre industrie d'IA. Ses fondateurs, (à l'image, de gauche à droite, Román Orús, Enrique Lizaso Olmos et Samuel Mugel) et Alfonso Rubio ont beaucoup à célébrer.

Tournée d'investissement. Multiverse Computing vient de clôturer une série d'investissement de 189 millions d'euros (215 millions de dollars). La ronde (série B) a été dirigée par Bullhound Capital, mais elle a également participé à HP Tech Ventures, Sett, Forgepoint Capital International, CDP Venture Capital, Santander Climate VC, Quantonation, Toshiba et Euskadi Risk Capital du groupe Euskadi – SPRI. En mars dernier, la société a reçu un investissement de 67 millions d'euros du gouvernement d'Espagne.

L'inférence Ai par drapeau. Bien que la proéminence actuelle le prenne généralement les grandes technologies qui investissent des milliards de dollars dans des centres de données pour former des modèles de grandes langues (LLM), il y a de plus en plus de concentration sur l'autre partie: celle que nous utilisons les utilisateurs lorsque nous demandons des choses à chatter, par exemple. Il s'agit de l'inférence de l'IA si appelée, et l'estimation est qu'en 2025, la valeur de cette industrie atteint 106 000 millions de dollars. Dans l'informatique multivrse, ils veulent un bon morceau de ce gâteau, et pour y parvenir, sa grande astuce est une technologie unique.

Compactifi. C'est le nom de la technologie de compression des modèles d'IA développé par Multivrse Computing. Cela permet de convertir de très grands modèles – ce qui coûte beaucoup pour « exécuter » – dans des modèles beaucoup plus petits et efficaces, ce qui leur permet de les rendre plus gérables et d'économiser de nombreuses ressources (et de temps) pendant l'inférence.

Comment comprimer un modèle d'IA. Román Orús, directeur scientifique de la société, a dirigé une étude de mai 2024 dans laquelle ils ont expliqué précisément le concept de «réseaux de tension» d'inspiration quantique et qui permettent de comprimer ces modèles. Son fonctionnement est basé sur la décomposition des matrices de pesos des réseaux de neurones les «tronquant» et ne conservant que les valeurs les plus importantes et les plus pertinentes. Essentiellement, le concept se concentre sur la suppression des informations les moins pertinentes du modèle à laisser seule avec les plus pertinentes.

Mais cela ne rend pas le modèle moins précis? En fait, mais le degré de troncature peut être contrôlé afin qu'il existe un bon équilibre et un bon engagement entre la compression et la perte de précision. Même en compressant ces modèles, dans l'informatique multivrse, ils garantissent que la chute des modèles n'est que de 2 à 3%.

Même rendement en taille à 95% inférieure. Pour atténuer cette baisse de précision, ce système comprend une phase de ressentiment rapide appelée « guérison » qui peut être répétée plusieurs fois pour atteindre une précision encore plus étroite de la version originale. En fin de compte, ils affirment dans l'entreprise, ils peuvent comprimer jusqu'à 95% un modèle de performance.

Il réduit l'utilisation de l'IA. Selon ses données, un modèle tel qu'il appelle le 3.1 405b a un coût opérationnel d'environ 390 000 $ si nous voulons l'exécuter à la maison (13 GPU H100, 9100 W consommation), mais grâce à Compactifai, il est possible de réduire ce coût à 60 000 dollars (2 GPU H100, 1 400 W).

L'objectif est si désespéré qu'il commence à offrir jusqu'à 100 millions de dollars aux enquêteurs d'Openai et de Google

Un de plus « mince ». Les modèles « minces » fournis par la société – les dérivés de Llama 3.3 70b ou appellent 4 Scout – sont des versions compressées qui ne perdent pas théoriquement de précision. Ils peuvent être exécutés via la plate-forme AWS ou par des licences qui lui permettent également d'utiliser, c'est-à-dire dans l'infrastructure locale / propre. Selon leurs mesures, ces modèles sont comprises entre 4 et 12 fois plus rapides que leurs versions non compressées, ce qui se traduit par un coût d'inférence entre 50% et 80%.

Image | Informatique multipliée

Dans Simseo | L'Espagne est enfin