Modèle d'IA responsable pour les programmeurs avancé par un informaticien

Crédit : Matthew Modoono/Université Northeastern

Croyant en une collaboration scientifique ouverte sur la technologie de l’IA, un professeur du Nord-Est s’est joint à d’autres pour créer un modèle génératif ouvert de pointe pour les programmeurs qui peut être concédé sous licence et adapté à différentes utilisations telles que les jeux et l’automatisation industrielle.

L’intelligence artificielle générative et les grands modèles de langage ont pris d’assaut le monde ces dernières années, explique Arjun Guha, professeur agrégé d’informatique au Khoury College of Computer Sciences de la Northeastern University. Ils ont un impact particulièrement important sur la programmation.

Les informaticiens, les programmeurs et les acteurs des petits marchés ont cependant une connaissance très limitée du processus de développement de ces modèles, ce qui les empêche de développer une compréhension plus approfondie de la technologie. Cela les exclut également d’une participation significative à son expansion ultérieure.

C’est pourquoi Guha et son groupe de recherche se sont fortement impliqués dans le projet BigCode, lancé par deux sociétés privées, Hugging Face et ServiceNow.

Hugging Face, une entreprise qui héberge une vaste communauté d’apprentissage automatique open source, et ServiceNow, qui aide les entreprises à optimiser leurs solutions technologiques, se sont associés pour aider les personnes ayant une expérience professionnelle en recherche en IA dans le développement responsable et l’utilisation de grands modèles de langage ouverts pour le codage. Ils ont engagé d’importantes ressources humaines et matérielles dans le projet. En conséquence, StarCoder, un modèle génératif ouvert et de pointe destiné aux programmeurs, peut désormais être concédé sous licence et adapté par d’autres pour différentes utilisations.

« Vous pouvez dépenser énormément d’argent pour construire une de ces choses sans vraiment savoir si c’est utile », explique Guha.

Les quelques entreprises multimilliardaires qui disposent des ressources nécessaires pour construire de tels modèles d’apprentissage et les « abandonnent » de temps en temps pour stupéfier le monde, dit Guha, sont complètement fermées à l’idée de partager avec la communauté ce que cette technologie est capable de faire. .

« Si vous demandez aux gens qui les fabriquent : » Que puis-je en faire ? « , je pense que la réponse qu’ils vous donneront toujours de manière trompeuse est » n’importe quoi « , ce qui est trompeur « , dit-il.

Guha estime que la recherche universitaire a un rôle à jouer dans l’élaboration de la technologie de l’IA générative.

« Un universitaire peut venir évaluer rigoureusement ces choses et dire que voici ses forces et ses faiblesses. Oui, utilisez-le pour ce faire, mais s’il vous plaît, ne l’utilisez pas pour faire ces autres choses sans quelques garde-fous sérieux », dit Guha.

Un problème beaucoup plus urgent concerne les personnes qui utilisent cette technologie pour prendre des décisions qui ont un impact sur d’autres personnes, par exemple concernant une demande de prêt ou une offre d’emploi.

« Nous devrions discuter des cas où il n’est pas approprié d’utiliser ces modèles, lorsqu’ils font plus de mal que de bien », dit-il.

Guha a consacré beaucoup d’énergie à BigCode, lancé en septembre 2022, dit-il, dirigeant un groupe de travail axé sur l’évaluation des modèles ouverts, StarCoder et SantaCoder, créés par le projet.

Construire un LLM nécessite d’abord d’identifier les données qui seront introduites dans le modèle pour l’entraîner. Une fois le modèle formé, dit Guha, il doit être évalué sur ce qu’il peut et ne peut pas réellement faire.

Les modèles créés par le projet BigCode ont été formés au sein du cluster Hugging Face. Le groupe de Guha a évalué la majorité d’entre eux au sein du cluster Northeastern Discovery du Massachusetts Green High Performance Computing Center, un système informatique parallèle de haute puissance qui intègre des technologies informatiques de pointe et des solutions de stockage robustes.

Ils ont mené une évaluation approfondie dans 19 langages de programmation différents pour comprendre les capacités des modèles.

« Lorsque ce projet a été lancé, l’un des objectifs était de le faire fonctionner dans de très nombreuses langues pour rendre plusieurs communautés heureuses », explique Guha.

Les modèles ont été testés pour mettre en œuvre des tâches telles que la production de code à partir de descriptions en langage naturel, la documentation du code et la prédiction des annotations de type.

D’autres chercheurs ont effectué d’autres analyses, telles qu’une analyse de biais et de toxicité, qui ont montré que, puisque le modèle de codage n’était pas formé sur de vastes données Internet, il consommait moins de contenu toxique et n’était pas susceptible de produire des résultats toxiques.

Guha affirme que le modèle StarCoder a subi l’évaluation la plus approfondie jamais réalisée pour un LLM ciblé, en raison de la nature collaborative massive du projet BigCode.

« C’est un projet formidable qui a réuni de nombreux chercheurs à différentes étapes de leur carrière », dit-il.

L’article issu de cette partie du projet BigCode en mai comptait près de 70 co-auteurs. Selon Guha, plusieurs doctorants et étudiants de premier cycle ont pu contribuer au modèle.

N’importe qui peut désormais demander à télécharger et utiliser Starcoder ou SantaBase gratuitement à des fins de recherche, commerciales ou non commerciales, à condition de signer l’accord de licence BigCode Open Responsible AI et de respecter les restrictions qui s’appliquent, y compris au matériel modifié.

Par exemple, Guha collabore avec MathWorks, une société spécialisée dans les logiciels de calcul mathématique destinés aux ingénieurs et aux scientifiques, et Roblox, une plateforme mondiale de jeux en ligne, pour explorer la manière dont ils pourraient utiliser StarCoder, l’intégrer en interne et l’adapter à leurs besoins.

Un certain nombre de chercheurs utilisent également ce modèle, explique Guha.

Le projet BigCode est très transparent et explicite, explique Guha, sur les données utilisées par ses modèles. Les gens peuvent déposer une demande s’ils souhaitent que le projet cesse d’utiliser leurs données. Jusqu’à présent, seules quelques dizaines de personnes l’ont fait.

BigCode se prépare pour la prochaine phase du projet et prévoit de faire prochainement des annonces sur d’autres développements.