Nous avons déjà une définition de ce qu’est « l’IA Open Source ». Et comme prévu, Meta n'aime pas trop ça
Se vanter qu’une IA est Open Source va être désormais plus compliqué. Jusqu'à présent, il n'existait pas de définition claire de ce qui différenciait un modèle d'IA Open Source d'un autre qui ne l'était pas, mais après plusieurs mois d'efforts, nous disposons désormais d'un bon moyen d'y parvenir. L’Open Source Initiative (OSI), l’organisme qui œuvre (entre autres) à établir ce type de consensus, vient de publier la version 1.0 de cette définition.
OSAID. La définition dite de l'IA Open Source (OSAID) vient d'être annoncée. Pour y parvenir, l’OSI a pris en compte des critères issus à la fois des milieux industriels et académiques voire réglementaires.
Recréable. C’est essentiellement l’exigence selon laquelle une IA doit être Open Source. Le créateur du modèle doit fournir suffisamment d’informations pour que quiconque puisse le recréer. Ainsi, le modèle doit fournir des détails sur l'ensemble de données de formation, notamment son origine, la manière dont les données ont été traitées et la manière dont elles peuvent être obtenues ou sous licence.
Utiliser, modifier, partager. Comme pour le code Open Source, une IA Open Source doit pouvoir être utilisée librement, mais elle doit également pouvoir être modifiée ou partagée sans demander la permission de quiconque. Stefano Maffulli, l'un des responsables de la définition, a expliqué combien il est important de « pouvoir créer quelque chose sur cette base », défendant ainsi les fameuses « forks » ou itérations d'un modèle qui le prennent comme base pour créer d'autres dérivés. , comme cela arrive également avec le code.
Meta n'est pas d'accord. Selon TechCrunch, Meta n'est pas d'accord avec cette définition. « Il n'existe pas de définition unique de l'IA Open Source, et la définir est un défi car les définitions précédentes de l'Open Source ne tiennent pas compte de la complexité des modèles d'IA et de leur évolution rapide. » Pour eux, leur modèle Llama est « gratuit et librement disponible », et les restrictions qu’ils appliquent dans certains cas – surtout si le modèle dérivé est un succès majeur – sont en place pour « assurer la sécurité des personnes ».
Où avez-vous obtenu les données d'entraînement ? C’est précisément l’une des grandes questions que se posent ceux qui développent des modèles d’IA, mais la transparence est presque toujours inexistante. C'est certainement le cas de la part de Meta, mais aussi de la part d'autres comme Google, qui précise même que si le contenu est public, ils l'utiliseront potentiellement pour entraîner leurs modèles.
Ceci n'est que la version 1.0. Cette définition est, comme nous l'avons dit, la version 1.0, et l'idée est qu'au fil du temps, elle évoluera pour pouvoir mieux refléter les différents aspects qui entourent ces évolutions. Par exemple, il existe une certaine controverse sur la manière dont l’OSI considère qu’un modèle d’IA peut être Open Source même si les données utilisées pour le former ne sont pas disponibles gratuitement.
Et le droit d'auteur ? La définition permet d'exclure certaines données dans le cadre de l'ensemble de données de formation. Chez OSI, ils affirment que cela est fait pour permettre que des données sensibles et protégées, comme celles liées à la santé, ne soient pas partagées dans le modèle Open Source. Le droit d’auteur n’est pas abordé en détail, ce qui indique clairement que cette définition devra encore être travaillée.
Images | Antoine Quintano
À Simseo | L’Open Source est en plein essor et connaît un âge d’or, mais il y a aussi quelques postures