La plate-forme décentralisée permet aux utilisateurs de posséder un morceau des modèles d'IA formés sur leurs données

La plate-forme décentralisée permet aux utilisateurs de posséder un morceau des modèles d’IA formés sur leurs données

En février 2024, Reddit a conclu un accord de 60 millions de dollars avec Google pour permettre au géant de la recherche utiliser des données sur la plate-forme pour former ses modèles d’intelligence artificielle. Les utilisateurs de Reddit étaient notamment absents des discussions, dont les données étaient vendues.

L’accord reflétait la réalité d’Internet moderne: les grandes entreprises technologiques possèdent pratiquement toutes nos données en ligne et décident quoi faire avec ces données. Sans surprise, de nombreuses plateformes monétisent leurs données, et le moyen la plus rapide pour accomplir que aujourd’hui est de les vendre à des sociétés d’IA, qui sont eux-mêmes des entreprises technologiques massives utilisant les données pour former des modèles de plus en plus puissants.

La plate-forme décentralisée Vana, qui a commencé comme un projet de classe au MIT, est en mission pour rendre le pouvoir aux utilisateurs. L’entreprise a créé un réseau entièrement appartenant à des utilisateurs qui permet aux individus de télécharger leurs données et de gouverner la façon dont ils sont utilisés. Les développeurs d’IA peuvent présenter aux utilisateurs des idées de nouveaux modèles, et si les utilisateurs acceptent de contribuer leurs données pour la formation, ils obtiennent une propriété proportionnelle dans les modèles.

L’idée est de donner à chacun un intérêt dans les systèmes d’IA qui façonnera de plus en plus notre société tout en déverrouillant de nouveaux pools de données pour faire progresser la technologie.

« Ces données sont nécessaires pour créer de meilleurs systèmes d’IA », explique Anna Kazlauskas ’19, co-fondatrice de Vana. « Nous avons créé un système décentralisé pour obtenir de meilleures données – qui se trouve dans les grandes entreprises technologiques aujourd’hui, tout en permettant aux utilisateurs de conserver la propriété ultime. »

De l’économie à la blockchain

Beaucoup d’élèves du secondaire ont des photos de pop stars ou d’athlètes sur les murs de leur chambre. Kazlauskas avait une photo de l’ancienne secrétaire aux États-Unis du Trésor Janet Yellen.

Kazlauskas est venue au MIT qu’elle serait devenue économiste, mais elle a fini par être l’un des cinq étudiants à rejoindre le MIT Bitcoin Club en 2015, et cette expérience l’a conduite dans le monde des blockchains et des crypto-monnaies.

De son dortoir à MacGregor House, elle a commencé à exploiter la crypto-monnaie Ethereum. Elle a même parfois parcouru les bennes à bennes sur le campus à la recherche de puces informatiques jetées.

« Cela m’a intéressé à tout autour de l’informatique et du réseautage », explique Kazlauskas. « Cela impliquait, du point de vue de la blockchain, les systèmes distribués et comment ils peuvent déplacer le pouvoir économique vers les individus, ainsi que l’intelligence artificielle et l’économétrie. »

Kazlauskas a rencontré Art Abal, qui fréquentait ensuite l’Université de Harvard, dans l’ancienne classe de médias émergente, et le couple a décidé de travailler sur de nouvelles façons d’obtenir des données pour former des systèmes d’IA.

« Notre question était: comment pourriez-vous avoir un grand nombre de personnes contribuant à ces systèmes d’IA en utilisant davantage de réseau distribué? » Kazlauskas se souvient.

Kazlauskas et Abal tentaient de traiter le statu quo, où la plupart des modèles sont formés en grattant les données publiques sur Internet. Les grandes entreprises technologiques achètent souvent également de grands ensembles de données auprès d’autres sociétés.

L’approche des fondateurs a évolué au fil des ans et a été informée par l’expérience de Kazlauskas à travailler chez la société financière Blockchain Celo après l’obtention du diplôme. Mais Kazlauskas attribue son temps au MIT pour l’aider à réfléchir à ces problèmes, et l’instructeur d’Emergent Ventures, Ramesh Raskar, aide toujours Vana à réfléchir aux questions de recherche sur l’IA aujourd’hui.

« C’était formidable d’avoir une occasion ouverte de simplement construire, pirater et explorer », explique Kazlauskas. « Je pense que cette éthique au MIT est vraiment importante. Il s’agit simplement de construire des choses, de voir ce qui fonctionne et de continuer à itérer. »

Aujourd’hui, Vana profite d’une loi peu connue qui permet aux utilisateurs de la plupart des grandes plateformes technologiques d’exporter directement leurs données. Les utilisateurs peuvent télécharger ces informations dans des portefeuilles numériques chiffrés dans VANA et le débourser pour former des modèles comme bon leur semble.

Les ingénieurs d’IA peuvent suggérer des idées de nouveaux modèles open source, et les gens peuvent mettre en commun leurs données pour aider à former le modèle. Dans le monde de la blockchain, les pools de données sont appelés Data Daos, qui représente une organisation autonome décentralisée. Les données peuvent également être utilisées pour créer des modèles et agents d’IA personnalisés.

Dans VANA, les données sont utilisées d’une manière qui préserve la confidentialité des utilisateurs car le système n’expose pas des informations identifiables. Une fois le modèle créé, les utilisateurs maintiennent la propriété afin que chaque fois qu’il soit utilisé, ils sont récompensés proportionnellement en fonction de la quantité de données que leurs données l’ont formé.

« Du point de vue d’un développeur, vous pouvez maintenant créer ces applications de santé hyper personnalisées qui prennent en compte exactement ce que vous avez mangé, comment vous avez dormi, comment vous faites de l’exercice », dit Kazlauskas. « Ces applications ne sont pas possibles aujourd’hui en raison de ces jardins clos des grandes entreprises technologiques. »

IA de crowdsourced, appartenant à l’utilisateur

L’année dernière, un ingénieur d’apprentissage automatique a proposé à l’aide de données utilisateur VANA pour former un modèle AI qui pourrait générer des publications Reddit. Plus de 140 000 utilisateurs de Vana ont contribué leurs données Reddit, qui contenaient des publications, des commentaires, des messages, etc. Les utilisateurs ont décidé des termes dans lesquels le modèle pouvait être utilisé et ils ont maintenu la propriété du modèle après sa création.

VANA a activé des initiatives similaires avec des données contrôlées par l’utilisateur de la plate-forme de médias sociaux X; Données de sommeil provenant de sources comme Oura Rings; Et plus. Il existe également des collaborations qui combinent des pools de données pour créer des applications d’IA plus larges.

« Disons que les utilisateurs ont des données Spotify, des données Reddit et des données de mode », explique Kazlauskas. « Habituellement, Spotify ne va pas collaborer avec ces types d’entreprises, et il y a en fait une réglementation contre cela. Mais les utilisateurs peuvent le faire s’ils accordent l’accès, donc ces ensembles de données multiplateformes peuvent être utilisés pour créer des modèles vraiment puissants. »

Vana compte plus d’un million d’utilisateurs et plus de 20 Daos de données en direct. Plus de 300 pools de données supplémentaires ont été proposés par les utilisateurs du système de Vana, et Kazlauskas dit que beaucoup seront en production cette année.

« Je pense qu’il y a beaucoup de promesses dans les modèles d’IA généralisés, la médecine personnalisée et les nouvelles applications de consommation, car il est difficile de combiner toutes ces données ou d’y accéder en premier lieu », explique Kazlauskas.

Les pools de données permettent aux groupes d’utilisateurs d’accomplir quelque chose que même les entreprises technologiques les plus puissantes ont du mal aujourd’hui.

« Aujourd’hui, les grandes entreprises technologiques ont construit ces dons de données, donc les meilleurs ensembles de données ne sont disponibles pour personne », explique Kazlauskas. «C’est un problème d’action collectif, où mes données ne sont pas si précieuses, mais un pool de données avec des dizaines de milliers ou des millions de personnes est vraiment précieux. Vana permet de construire ces pools.

« C’est un gagnant-gagnant: les utilisateurs peuvent bénéficier de la montée en puissance de l’IA car ils possèdent les modèles. Ensuite, vous ne vous retrouvez pas dans un scénario où vous n’avez pas une seule entreprise contrôlant un modèle d’IA tout-puissant. Vous obtenez une meilleure technologie, mais tout le monde en profite. »