ils sont opaques et fermés. BLOOM est le grand projet open source qui veut tout changer
DALL-E, GPT-3, Image… sont quelques-uns des noms les plus reconnus dans le domaine de l’intelligence artificielle. Ils ont tous quelque chose en commun et c’est qu’ils ne sont pas des modèles ouverts. Ces IA permettent générer des images et des conversations étonnantes, mais tout le monde ne sait pas comment ils y sont arrivés. Un processus extrêmement complexe qui, pour de nombreux chercheurs, est également opaque.
BLOOM est le grand projet open source qui veut changer cette situation. Un modèle multilingue ouvert avec 176 milliards de paramètres et formés sur 1,5 téraoctets de texte. Si les modèles existants sont en pertinence comme le Google de l’époque, BLOOM est peut-être l’équivalent de Wikipédia.
Un an de travail plus tard, la communauté a déjà sa grande IA ouverte
Le nombre de paramètres n’est pas un hasard. BLOOM (‘BigScience Language Open-science Open-access Multilingual’) est légèrement plus grand que GPT-3 (175 000M). Mais ce n’est pas sa puissance qui la rend si pertinente, mais le processus par lequel elle a été réalisée. Des entreprises comme Meta ou OpenAI ont aussi quelques IA ouvertes, mais toutes ces initiatives ont un intérêt commercial derrière elles.
C’est là que la communauté et BLOOM entrent en jeu. BigScience est l’organisation responsable de ce modèle. UN groupe de plus de 1 000 chercheurs dédiée à l’intelligence artificielle, unie à travers Hugging Face, la plateforme et la communauté leader autour de l’IA. Mais ils ne sont pas seuls. En tout, plus de 250 établissements ont collaboré à ce projet qui a débuté début 2021.
comme décrit La natureBLOOM a été formé en France avec le Supercalculateur Jean Zay financé par des fonds publics à hauteur de 7 millions de dollars. Le résultat a été publié au milieu du mois de juin dernier.
L’utilisation de BLOOM dépendra des chercheurs, mais certaines utilisations sont déjà envisagées, comme extraire des informations de textes historiques et faire des classifications en biologie. Étant un projet ouvert, de Hugging Face lancera une application web Oui permettra à tout utilisateur de télécharger BLOOM pour le faire fonctionner.
Impact social de la série LLM avec @BigscienceW et @mtlaiethics partie 3 : parlons data !
Les données de formation sont au cœur du ML moderne, mais nous accordons encore trop peu d’attention à la manière dont elles sont gouvernées, conservées et à qui a son mot à dire dans les choix de données :
🧵1/6https://t.co/wij9GdX1Nt pic.twitter.com/1C2Nf0uIi5— Yacine Jernite (@YJernite) 23 juin 2022
L’une des caractéristiques de BLOOM réside dans les données utilisées. Les résultats des IA sont étroitement liés aux ensembles de données sur lesquels ils sont basés. Dans ce cas, l’équipe de chercheurs a sélectionné à la main près de 70% des 341 milliards de mots avec qui il s’est entraîné.
L’un des objectifs de l’initiative était également d’alimenter l’IA avec une base de données diversifiée et suffisamment représentatif des différentes langues et cultures.
« Des valeurs telles que l’ouverture, l’inclusion, la diversité, la responsabilité et la reproductibilité sont l’ADN de ce projet. BigScience et BLOOM incarnent la tentative la plus remarquable et la plus honnête de faire tomber les barrières que la Big Tech a érigées autour de l’IA au cours de ces années », Alberto Romero souligneanalyste chez CambrianAI.
Nous devrons attendre pour voir les résultats, mais le fait que la communauté open source ait déjà présenté une alternative ouverte aux modèles d’IA est une excellente nouvelle, surtout si l’on considère l’énorme travail et les hautes exigences techniques derrière de créer ces modèles.
Plus d’informations | BigScience