Les ingénieurs créent un premier modèle d'IA spécialisé pour le langage de conception des puces

Des chercheurs de la NYU Tandon School of Engineering ont créé Verigen, le premier modèle spécialisé de l'intelligence artificielle formés avec succès pour générer du code Verilog, le langage de programmation qui décrit comment fonctionne les circuits d'une puce.

La recherche vient de gagner les transactions ACM sur l'automatisation de la conception des systèmes électroniques 2024 Meilleur papier, l'affirmant comme une avancée majeure dans l'automatisation de la création de langages de description matérielle qui ont traditionnellement nécessité une expertise technique approfondie.

« Les modèles d'IA à usage général ne sont pas très bons pour générer du code Verilog, car il y a très peu de code Verilog sur Internet disponible pour la formation », a déclaré le professeur principal de l'Institut d'auteur Siddharth Garg, qui se trouve au Département de génie électrique et informatique de NYU Tandon (ECE) et assiste à la Faculté de NYU Wireless et NYU Center for Cyberserity (CCS). « Ces modèles ont tendance à bien faire sur les langages de programmation qui sont bien représentés sur Github, comme C et Python, mais ont tendance à faire bien pire sur des langages mal représentés comme le verilog. »

Avec Garg, une équipe de NYU Tandon Ph.D. Les étudiants, les chercheurs postdoctoraux et les professeurs Ramesh Karri et Brendan Dolan-Gavitt ont relevé ce défi en créant et en distribuant le plus grand ensemble de données de formation sur l'IA du code Verilog jamais réunis. Ils ont parcouru Github pour rassembler environ 50 000 fichiers Verilog à partir de référentiels publics, et l'ont complété avec du contenu de 70 manuels Verilog. Ce processus de collecte de données a nécessité un filtrage et une désuplication minutieux pour créer un corpus de formation de haute qualité.

Pour leur modèle le plus puissant, les chercheurs ont ensuite affiné le modèle de langage Codegen-16B de Salesforce de Salesforce, qui contient 16 milliards de paramètres et a été initialement prélevé sur le langage naturel et le code de programmation.

Les demandes de calcul étaient substantielles. La formation a nécessité trois GPU NVIDIA A100 travaillant en parallèle, les paramètres du modèle consommant à eux seuls 30 Go de mémoire et le processus de formation complet nécessitant environ 250 Go de mémoire GPU.

Ce modèle affiné a effectué de manière impressionnante dans les tests, surpassant les modèles commerciaux de pointe tout en étant un ordre de grandeur plus petit et entièrement open-source. Dans leur évaluation, le CodeGen-16B affiné a atteint un taux de 41,9% de code fonctionnellement correct contre 35,4% pour le modèle commercial de code-Davinci-002 – avec une précision finale de 1,09% à seulement 1,09%, démontrant l'avantage significatif de la formation spécifique au domaine.

« Nous avons montré qu'en affinant un modèle sur cette tâche spécifique qui vous tient à cœur, vous pouvez obtenir des ordres de réduction de magnitude de la taille du modèle », a noté Garg, soulignant comment leur approche a amélioré la précision et l'efficacité. La taille plus petite permet au modèle d'exécuter sur des ordinateurs portables standard plutôt que de nécessiter un matériel spécialisé.

L'équipe a évalué les capacités de Verigen dans une gamme de tâches de conception matérielle de plus en plus complexes, des composants numériques de base aux machines d'État finies avancées. Bien qu'il ne soit toujours pas parfait – en particulier sur les défis les plus complexes – le veille a démontré des améliorations remarquables par rapport aux modèles à usage général, en particulier dans la génération de code syntaxiquement correct.

L'importance de ce travail a été reconnue dans le domaine, avec des recherches ultérieures de NVIDIA en 2025 reconnaissant Vérigen comme l'une des références les plus anciennes et les plus importantes pour la génération de Verilog basée sur LLM, aidant à établir des fondations pour les progrès rapides dans la conception matérielle assistée par l'IA.

La nature open source du projet a déjà suscité un intérêt important pour le domaine. Alors que Vérigen était le premier modèle de l'équipe présenté dans le papier ACM, ils ont depuis développé une famille améliorée de modèles appelée « Cl Verilog » qui fonctionnent encore mieux.

Ces nouveaux modèles ont été fournis aux sociétés de matériel, dont Qualcomm et NXP, pour évaluer les applications commerciales potentielles. Le travail s'appuie sur les efforts antérieurs de NYU Tandon, y compris le projet Dave (dérivant automatiquement Verilog de l'anglais), faisant progresser le domaine en créant une solution plus complète grâce à un réglage fin à grande échelle des modèles de langue.

Vérigen complète d'autres initiatives de conception de puces assistées par l'IA de NYU Tandon visant à démocratiser le matériel: leur projet de chat à puce a créé la première micropuce fonctionnelle conçue par des conversations en langage naturel avec GPT-4; Chips4all, soutenu par le programme de recherche de recherche de la National Science Foundation (NSF), forme divers étudiants diplômés en STEM en conception de puces; Et les bases, financées par l'initiative de l'apprentissage expérientiel de NSF pour les technologies émergentes et les nouvelles, enseignent la conception des puces aux professionnels des non-tiges.