Vitruvian-1

Vitruvian-1, comme l’affaire l’IA « fabriquée en Italie » de 14 milliards de paramètres est faite

Vitruvien-1 Ce n’est pas un modèle comme les autres. Avec 14 milliards de paramètresse compare à des modèles beaucoup plus grands comme Chatte Et Profondeurqui opère sur des centaines de milliards de paramètres. Bien qu’il ait «seulement» 14 milliards de paramètres, un nombre nettement inférieur aux modèles de grande technologie, il a réussi à obtenir des scores de secours dans une référence cruciale:

  • Mathématiques (95,5%): Capacité avancée de résolution mathématique.
  • MMLU (90,2%): Compréhension et raisonnement linguistique sur un large éventail de sujets.

Ces résultats placent le vitruvian-1 dans une position concurrentielle par rapport aux modèles avec des ordres plus élevés en termes de paramètres. Pour mettre les choses en perspective, Dans la référence, MMLU a atteint des performances similaires à Deepseek-R1 et Openai-O1qui possède respectivement 671 et 1076 milliards de paramètres. Encore plus impressionnant, En mathématiques, il est passé Deepseek-V3 et Gemini 2.0 Flash.

Comment la naissance de Vitruvian-1: l’intelligence et l’efficacité

Le développement du modèle était un concentré d’ingéniosité et de pragmatisme, achevé en une période de deux à trois mois avec Une équipe d’environ 30 personnes et un investissement de quelques dizaines de milliers d’euros. Une approche radicalement différente de Big Tech: au lieu d’utiliser un supercalculateur coûteux et des milliers de GPU, ASC27 s’est concentré sur une stratégie de Optimisation des coûtssélectionnant les serveurs cloud les moins chers en temps réel.

Le cœur du modèle est une architecture « Data-Center », avec un modèle d’évaluation basé sur Lama-3.2-1b utilisé pour filtrer les données, garantissant la plus haute qualité de l’ensemble de formation., Avec une attention particulière à la qualité et à la diversité des données de formation, cruciale pour le Resoning de la chaîne de pensées multilingue. Le processus de développement a suivi un pipeline bien structuré:

  1. Pré-formation Je continue sur un corpus de 120 milliards de jetons, avec des données sélectionnées par fineweb et traduites avec l’API DEEPPL.
  2. Réglage fin superviséavec un lit de données dérivé d’un bassin interne de questions et réponses, affiné par la distillation et l’apprentissage du curriculum. La stratégie de réglage fin prévoit également une stratification des données basée sur la difficulté, afin d’assurer un équilibre optimal entre des exemples simples et complexes.
  3. Apprentissage du renforcementavec une logique de sélection de réponses basées sur des règles déterministes (pour les mathématiques) ou par le biais d’un LLM externe Agissant comme « juge ». Le système utilise également une récompense en cosinus, qui encourage les réponses concises et efficaces, pénalisant les générations redondantes ou pas très précises. Vitruvian-1 prend PPO (optimisation de la politique proximale) pour améliorer le raisonnement, avec un système premium basé sur la cohérence des réponses.
  4. Génération rapide de la difficultépour éviter lesur-ajustement et maximiser la diversité des réponses générées. Le modèle utilise Estimation de la densité du noyau (KDE) pour identifier les régions de faible densité dans l’espace des réponses générées, favorisant une plus grande variété dans les résultats. Le modèle utilise Phrase-berts Pour amplifier la diversité des réponses et le modèle Openai O1-Preview pour la vérification finale via le vote majoritaire.
  5. Optimisation par l’optimisation de la politique proximale (PPO)avec l’initialisation du transformateur PHI-4 du décodeur uniquement, connu pour son efficacité et sa capacité « à quelques coups«. De plus, pour la génération de questions de haute difficulté, le modèle profite d’une architecture LLAMA-3.1-8B adaptée à LORA, améliorant encore sa capacité de raisonnement.

Celui à laquelle la raison ne prévoit pas seulement

Vitruvian-1 se démarque de sa capacité de raisonnement avancée grâce à une architecture optimisée pour le Resoning de la chaîne de pensées. Cette approche permet au modèle de faire face à des problèmes complexes, en fournissant des réponses articulées et cohérentes. La capacité de déduire les connaissances non directement présentes dans les données de formation le rend particulièrement adapté aux scénarios qui nécessitent un raisonnement déductif et une compréhension plus approfondie du contexte.

En outre, Le modèle a été conçu pour s’adapter à plusieurs dominantsI, avec des perspectives d’application dans des domaines tels que les conseils juridiques et la recherche scientifique, où la capacité d’analyser et de traiter des informations complexes est cruciale.

Le vitruvien-1 n’est pas un modèle prédictif simple: c’est un système de raisonnement capable de déduire des informations qui n’ont pas explicitement. La feuille de route Futura prévoit une spécialisation dans des secteurs verticaux tels que l’avocat et la chimie, pour démontrer l’applicabilité en béton du modèle dans l’entreprise.

Pour l’IA, le vitruvien est un signal fort de l’Italie

En 2021, ASC27 s’était déjà distingué à l’échelle internationale avec la victoire lors de la compétition d’intelligence artificielle à Singapour, démontrant la capacité de l’équipe dirigée par Nicola Grandis Pour rivaliser avec les meilleurs experts mondiaux du secteur. Le succès du vitruvien-1 montre que L’innovation n’est pas seulement une question de ressources, mais d’ingéniosité et de stratégie.

L’attention du sous-secrétaire à l’innovation, Alessio Buttisouligne la valeur de cette initiative pour le panorama de l’IA italienne et européenne. ASC27 n’a pas l’intention de s’arrêter ici: La startup recherche des investissements plus de 10 millions d’euros pour grimper la technologieCréer des ateliers de recherche et développer des solutions d’intelligence artificielle sur mesure – fabriquées aux affaires, dans le but d’offrir des outils concrètes et efficaces pour les entreprises. Si tel est la direction, l’Italie pourrait jouer un rôle clé dans l’intelligence artificielle mondiale.

De ce que le nom Vitruvium tire de

L’explication du nom Vitruvien Il est situé dans le même logo de l’entreprise, qui représente leVitruvienun design créé par Leonardo da Vinci Vers 1490: un homme nu inscrit dans un cercle et un carré, qui symbolise l’union entre le microcosme (homme) et le macrocosme (univers). La conception est basée sur les proportions humaines décrites dans le troisième livre du traité De l’architecture De Vitruvuusingénieur militaire et architecte romain qui a vécu au premier siècle avant JC. Le dessin est une représentation célèbre des proportions idéales du corps humain et exprime l’idée que L’homme est «mesure de toutes choses», Concept typique de la Renaissance que la start-up italienne a fait.

Vous trouverez ici le rapport technique

Ici, la page pour accéder à la liste d’attente pour essayer la version bêta