Comment Meta, Google et d'autres feignent l'ouverture
L'année dernière, on a assisté à une forte augmentation du nombre de systèmes d'IA générative qui se disent ouverts. Mais dans quelle mesure le sont-ils réellement ? De nouvelles recherches montrent qu'il existe une pratique répandue de « blanchiment ouvert » par des entreprises comme Meta et Google : elles prétendent obtenir des points bonus pour leur ouverture tout en échappant à tout contrôle réel.
La question de savoir ce qui est considéré comme open source dans l'IA générative prend une importance particulière à la lumière de la loi européenne sur l'IA qui réglemente différemment les modèles « open source », créant un besoin urgent d'une évaluation pratique de l'ouverture.
Presque toutes les grandes entreprises technologiques prétendent proposer des modèles « ouverts », mais très peu le font réellement. Andreas Liesenfeld et Mark Dingemanse, du Centre d’études linguistiques de l’Université Radboud, ont étudié 45 modèles de texte et de texte-image qui se présentent comme ouverts. Ils offrent une vision claire de l’ouverture supposée de l’IA générative actuelle.
Leur étude a été publiée récemment lors de la conférence de l'ACM sur l'équité, la responsabilité et la transparence (ACM FAccT 2024) et présentée dans un communiqué de presse dans Nature.
Éviter l'examen minutieux
Les chercheurs ont découvert que des entreprises comme Meta, Microsoft et Mistral utilisent de manière stratégique des termes comme « open source » et « open source » tout en protégeant presque entièrement leurs modèles de l’examen scientifique et réglementaire. Des termes comme « open source » et « open source » sont fréquemment utilisés à des fins de marketing sans pour autant fournir d’informations utiles sur le code source, les données de formation, les données de réglage fin ou l’architecture des systèmes.
S’appuyant sur leurs travaux antérieurs, les chercheurs ont testé plus de 45 modèles, en prenant cette fois également en compte les générateurs de texte en image. Ils ont constaté que l’ouverture est inégalement répartie et souvent surestimée. Au lieu de cela, ils ont constaté que les petits acteurs comme AllenAI (avec OLMo) et BigScience Workshop + HuggingFace (avec BloomZ) font souvent un effort supplémentaire pour documenter leurs systèmes et les ouvrir à l’examen.
Loi européenne sur l'IA
La loi européenne sur l'IA récemment adoptée prévoit des exemptions spéciales pour les modèles « open source », mais ne propose pas de définition claire du terme. Cela crée une incitation à l'open-washing : si les modèles sont considérés comme ouverts, les fournisseurs de modèles sont soumis à des exigences moins contraignantes et à un contrôle public et scientifique moins strict. Liesenfeld déclare : « Il est donc d'autant plus important que nous ayons une idée claire de ce que constitue l'ouverture en matière d'IA générative. Nous ne considérons pas l'ouverture comme un phénomène tout ou rien, mais comme un phénomène composite (consistant en plusieurs éléments) et graduel (il existe en degrés). »
Bien que la loi européenne sur l'IA crée une urgence supplémentaire, l'ouverture est depuis longtemps reconnue comme étant d'une importance capitale pour l'innovation, la science et la société. Elle peut également renforcer la confiance et la compréhension dans l'IA en démystifiant ce dont elle est capable. Dingemanse déclare : « Si une entreprise comme OpenAI affirme que son IA peut « réussir l'examen du barreau », cela peut être impressionnant ou non, selon ce que contiennent les données de formation.
« OpenAI a été notoirement vague à ce sujet, probablement aussi pour éviter toute exposition juridique, mais l'ampleur même des données de formation signifie que ChatGPT et les moteurs de prédiction du mot suivant similaires peuvent effectuer la plupart des examens en mode « livre ouvert », ce qui rend leurs performances beaucoup moins impressionnantes. »
Ce travail contribue à étayer la thèse d'une ouverture significative dans l'IA et met en lumière un nombre croissant d'alternatives à ChatGPT. Il intervient peu de temps après que la Faculté des Arts de l'Université Radboud a publié des orientations sur l'IA générative et l'intégrité de la recherche, qui appellent à une meilleure connaissance critique de l'IA parmi les chercheurs envisageant d'utiliser l'IA générative.