Google est clair sur la façon dont il formera ses modèles d'IA. Prenant tout ce que nous publions sur Internet

On sait généralement à quoi s’attendre lors de l’utilisation des services Google. C’est le Big Brother ultime, et nous savons que la collecte de données est une constante lors de l’utilisation de l’une de ses plateformes. C’est un sacrifice que l’on accepte implicitement lorsqu’on utilise des outils comme Gmail, YouTube ou Google Maps, mais les choses peuvent aller encore plus loin. En fait, ils l’ont fait.

Nouvelles conditions de confidentialité. Comme indiqué dans Gizmodo, Google a mis à jour sa politique de confidentialité il y a quelques jours. Ils l’ont fait avec un changement majeur qui mentionne spécifiquement la façon dont ils entraînent leurs modèles d’IA. Dans le document officiel, ils expliquent ce qui suit:

« Google peut collecter des informations accessibles au public en ligne ou provenant d’autres sources publiques, pour aider à former les modèles d’IA de Google et développer des produits et des fonctionnalités comme Google Translate, Bard et les fonctionnalités Cloud AI. »

S’il s’agit de contenu public, ils l’utiliseront (potentiellement). Il est important de noter que Google parle d’informations accessibles au public en ligne. La société semble donc se réserver le droit de collecter et potentiellement d’exploiter du contenu sur le Web, et de le faire précisément parce que ce contenu est public.

Faites attention à ce que vous publiez. Ce n’est donc pas une mauvaise idée de réfléchir à tout ce que nous publions ou téléchargeons sur Internet sans plus tarder. À moins que nous marquions ce contenu comme privé ou protégé par des droits d’auteur, Google pourra l’utiliser pour des choses comme la formation de ses modèles d’intelligence artificielle. Ils le disent bien chez Gizmodo : l’important n’est pas tant qui peut voir les informations que nous publions, mais comment ils finissent par les utiliser (car ils peuvent finir par le faire).

transparence presque nulle. Et pendant ce temps, les entreprises qui proposent des modèles d’IA générative n’offrent toujours pas de données claires sur la manière dont elles entraînent leurs plateformes. Google est l’un des rares à exposer ces « jeux de données » utilisés dans certains modèles : le soi-disant Google C4 est un gigantesque jeu de données qui nous permet de découvrir que les sources les plus pertinentes sont Google Patents, Wikipedia et Scribd.

Parmi les sources de données, Wikipédia semble être éclipsée par d’autres sources telles que Reddit ou la navigation Web brute, qui collecte des informations accessibles au public sur Internet (« Common Crawl »). Source : Architecte de la vie

Cependant, il n’y a presque pas de données sur Infiniset, l’ensemble de données utilisé pour le modèle de langage LaMDA utilisé dans Bard. Nous ne savons pas grand-chose sur PaLM2, et on ne sait pas trop comment OpenAI a formé le modèle GPT-3 — il y a une étude de ses ingénieurs qui ne clarifie pas trop la question — et l’opacité est devenue un maximum ces derniers temps : les entreprises révèlent de moins en moins de détails car la concurrence est féroce.

Mais ils utilisent tous Internet sans pitié. Ce qui est clair, c’est que le contenu publié sur Internet sur toutes sortes de plateformes — blogs, réseaux sociaux, forums, etc. — finit par être potentiellement utilisé pour entraîner ces modèles de données. Ce que nous ne savons pas dans la plupart des cas, c’est si ce que nous publions y sera ou non, et sans connaître les sources spécifiques, il n’est pas possible de comprendre dans quelle mesure le ChatGPT ou Bard du monde peut avoir certains préjugés dans un sens ou dans un autre.

C’est pourquoi Reddit et Twitter agissent. Ce que Google vient de faire en modifiant sa politique de confidentialité a beaucoup à voir avec la décision de Reddit et Twitter de limiter l’accès à leurs API : si vous ne payez pas, vous ne pourrez pas y accéder. Ou ce qui revient au même : si ce n’est pas payant, utiliser les énormes quantités de contenus publiés sur ces réseaux est beaucoup plus difficile pour les entreprises qui veulent entraîner leurs modèles d’IA avec ces données.

Internautes sans voix ni vote. Et pendant ce temps, les internautes qui publient ces contenus ne semblent pouvoir rien y faire. Lorsque nous publions quelque chose sur Internet, où qu’il se trouve, nous le faisons généralement automatiquement et sans nous demander si ce contenu doit être soumis à une licence. Mon blog, par exemple, utilise une licence Creative Commons qui nécessite une attribution. Bien que l’ensemble de données Google C4 ait collecté certains de mes messages pour la formation, on ne m’a jamais demandé la permission (en fait, ils ne devraient pas avoir à le faire), ni n’ai-je été cité ou attribué (ce qu’ils devraient selon cette licence).

Des exigences en vue ? Google, comme tout le monde, utilise Internet comme son propre terrain d’entraînement pour travailler dans le domaine de l’intelligence artificielle, mais cela pourrait finir par lui coûter cher. OpenAI et Microsoft sont maintenant au milieu d’un procès contre GitHub Copilot et tout le code que cet outil a utilisé sans demander la permission aux développeurs.

Quelque chose de similaire arrive à Stable Diffusion avec Getty, fatiguée que l’IA vole ses photos. David Holz lui-même, fondateur de Midjourney, a admis que lors de la formation de son modèle « Il n’y a pas vraiment de moyen de prendre cent millions d’images et de savoir d’où elles viennent. Ce serait bien si les images avaient des métadonnées intégrées sur le titulaire du droit d’auteur ou quelque chose comme ça. Mais ça n’existe pas, il n’y a pas de trace. »

La loi AI poursuit ce type de problèmes. Pendant ce temps, l’approbation finale de la loi sur l’IA, sa première tentative de réglementation de l’intelligence artificielle, progresse dans l’Union européenne. Dans ce règlement, il y a une section spécifique dédiée à la transparence, et théoriquement les entreprises qui développent des modèles d’IA seront tenues d’expliquer d’où proviennent les données de formation.

C’est beaucoup plus facile à faire qu’à dire apparemment, mais nous sommes confrontés à un avenir dans lequel ce type de collecte massive de données peut avoir des problèmes supplémentaires : non seulement d’une éventuelle violation de la vie privée, mais de son utilisation dans différents scénarios. . Chez Simseo, nous avons contacté les responsables de Google, et nous mettrons à jour les nouvelles si nous recevons plus d’informations sur ces changements dans leur politique de confidentialité.