Définir ce qu’est l’IA Open Source est un cauchemar. Et les puristes ne veulent pas céder

Définir ce qu’est l’IA Open Source est un cauchemar. Et les puristes ne veulent pas céder

La définition de l’Open Source est claire et est très bien définie depuis des années. La définition de l’IA Open Source, non. C’est précisément ce manque de consensus lorsqu’il s’agit de savoir si une IA est véritablement Open Source ou non qui a suscité une certaine controverse, et nombreux sont ceux qui sortent la poitrine en déclarant que leurs modèles sont Open Source alors qu’ils ne le sont probablement pas. Meta est le meilleur exemple de cette situation.

C'est précisément ce que tente de résoudre l'Open Source Initiative (OSI), qui est à l'origine de la définition originale du concept et qui cherche désormais également à proposer une définition universelle et standardisée de ce qu’est l’IA Open Source.

L'effort semble avancer et l'OSI a annoncé la publication de la première version candidate (RC1) de cette définition. Il précise quatre libertés fondamentales qu’un système d’IA doit posséder pour être considéré comme Open Source :

  • Peut être utilisé à n’importe quelle fin sans autorisation
  • Peut être étudié pour analyser son fonctionnement
  • Peut être modifié à n’importe quelle fin
  • Peut être partagé avec ou sans modifications

Puristes et entreprises, confrontés

Toutefois, cette proposition de définition comporte également certains éléments qui génèrent également un débat entre puristes et les défenseurs d'une définition plus souple du concept.

L'OSI souhaitait céder légèrement sur l'aspect des données de formation. Ils reconnaissent qu’il n’est pas facile pour les entreprises de partager tous les détails des ensembles de données qu’elles ont utilisés pour entraîner leurs modèles. Cela a conduit à ce que ce RC1 exige « des informations suffisamment détaillées sur les données utilisées pour entraîner le système » au lieu de fournir l'ensemble complet des données. L’objectif de l’OSI est de trouver un équilibre entre la transparence et les considérations juridiques et pratiques.

Mais pour les puristes, ce n'est pas suffisant. Pour eux, si le système d’IA ne propose pas de données totalement ouvertes sur les données qu’il utilise, alors les LLM basés sur lesdites données ne peuvent pas être considérés comme Open Source.

Fermé
Fermé

Elon Musk a posté cette image sur X en se plaignant qu'OpenAI devrait s'appeler ClosedAI. Le message n'est plus disponible, mais il a clairement indiqué que même parmi les entreprises possédant des modèles propriétaires, ce débat existe.

L’OSI a ici un argument puissant : si les systèmes d’IA sont obligés de fournir toutes ces informations, cela « relèguera l’IA Open Source dans une niche de systèmes d’IA ne pouvant être entraînés qu’avec des données ouvertes ».

La transparence totale est une utopie

Comme l'explique Stefano Maffulli, directeur de l'OSI, les données de formation peuvent être classées en quatre grands groupes : ouvertes, publiques, accessibles et non partageables. Pour l'OSI, « les exigences légales sont différentes pour chacun d'eux. Elles doivent toutes être partagées dans la mesure où la loi le permet ». Le raisonnement de l'OSI est logique : il est difficile de partager des donnéesou du moins une partie d'entre eux.

Dans une interview avec ZDNet, Maffulli a indiqué que les puristes de l'Open Source ne sont pas les seuls à rendre les choses difficiles pour cette définition d'une IA Open Source.

Mark Zuckerberg ne cesse de répéter que son modèle d'IA est Open Source. Vous abusez du terme

À l’autre extrême, nous avons les entreprises « qui considèrent leurs plans de formation et la manière dont elles organisent la formation, rassemblent et filtrent les ensembles de données et créent des ensembles de données comme des secrets commerciaux ». Pour ces entreprises, révéler cette information, c'est presque comme si nous avions demandé à Microsoft de révéler le code source de Windows dans les années 90.

Dans cette définition proposée, l’OSI a intégré deux innovations intéressantes par rapport aux versions précédentes. La première, que le modèle doit fournir suffisamment d’informations pour comprendre comment la formation s’est déroulée. Cela permet, entre autres, de créer des variantes (« forks ») des systèmes d’IA.

La seconde est que les créateurs peuvent explicitement exiger des conditions de copyleft (favorisant l’utilisation et la distribution gratuites d’une œuvre) pour le code, les données et les paramètres de l’IA open source. Cela permettrait, par exemple, de forcer le code d'entraînement à être lié avec une licence copyleft à l'ensemble de données pour entraîner le modèle.

La publication de cette première version candidate de la définition constitue sans aucun doute une étape importante vers la recherche d’un consensus sur cette question unique, mais il est clair qu’il reste encore des questions à résoudre. La version finale 1.0 de l'Open Source AI Definition est attendue sera annoncé le 28 octobre prochain à la conférence All Things Open. Et pourtant, ce ne sera que cela. Une première version.

Images | Méta Connect 2024

À Simseo | Nous savons déjà ce pour quoi Apple paie OpenAI en utilisant ChatGPT : zéro unité en euros