OpenAI a utilisé des millions de textes pour former ChatGPT. Le problème est que beaucoup d’entre eux sont protégés par le droit d’auteur.
ChatGPT a été formé avec une énorme quantité de données obtenues sur Internet. Pas seulement des sites Web, mais des articles, des livres, des publications sur les réseaux sociaux ou des études universitaires. Le modèle d’IA conversationnel créé par OpenIA ne tenait pas compte de l’origine des données : il ne regardait que le texte et les modèles appris et les relations entre les mots, les phrases ou les paragraphes. Le problème? Que la grande majorité de ces textes sont probablement protégés par le droit d’auteur. OpenAI et ChatGPT violent-ils le droit d’auteur ?
Y a-t-il eu copie de contenu pendant la formation ? Il n’y a aucune information si pendant le processus de formation, les textes utilisés par ChatGPT ont été copiés ou simplement référencés. Lorsque vous demandez ChatGPT, la réponse est au singulier :
Au cours du processus de formation, du texte provenant de diverses sources est utilisé pour former le modèle ChatGPT. Il est probable que le texte ait été copié dans une base de données interne OpenAI dans le but de former le modèle. Cependant, le texte de formation est souvent prétraité pour supprimer toute information sensible telle que les identifiants personnels, le texte protégé par le droit d’auteur, etc. De plus, le texte est également utilisé pour former le modèle et n’est pas stocké dans une base de données. Le modèle utilise le texte pour apprendre les modèles et la structure de la langue, et une fois la formation terminée, il n’a plus besoin du texte.
Malgré ce que ChatGPT indique, il est peu probable que le texte protégé par des droits d’auteur ait été supprimé, car la plupart de votre ensemble de formation est un contenu protégé par des droits d’auteur, comme on peut le voir en essayant de faire en sorte que ChatGPT imite un certain style ou
La sortie ChatGPT est-elle une œuvre dérivée ? Selon la Loi sur la propriété intellectuelle, l’œuvre dérivée peut être une modification, une adaptation ou une transformation d’une œuvre existante, où le droit d’auteur de l’œuvre originale est garanti. Les spécialistes indiquer que tout texte généré par ChatGPT pourrait être considéré comme une œuvre dérivée.
utilisation équitable. Un autre des concepts qui sont traités dans ce domaine est de savoir si OpenAI fait un usage loyal ou légitime (fair use). Même en supposant que le texte a été copié pendant le processus de formation de ChatGPT et que ce qui a été généré est une œuvre dérivée de ce texte protégé par le droit d’auteur, ChatGPT pourrait-il être considéré comme faisant un usage légitime de ce contenu ? Compte tenu du fait que ce modèle mélange le contenu de toutes sortes d’œuvres, il semble qu’il n’y ait pas ici d’utilisation injustifiée. Il pourrait cependant y avoir des scénarios dans lesquels le droit d’auteur peut être enfreint si, par exemple, nous demandions à un moteur basé sur ChatGPT de nous écrire le prochain roman Harry Potter comme s’il s’agissait de JK Rowling. Dans ce cas, si le but est également commercial, il pourrait y avoir une violation de ces termes légaux.
Il y a déjà eu des procès. La menace de poursuites est évidente pour OpenAI depuis la sortie de ce type de produits. En fait la société a été poursuivi ainsi que Microsoft et GitHub pour avoir enfreint la loi sur le droit d’auteur sur GitHub Copilot, tout comme Stable Diffusion et Midjourney. Copilot et ces plates-formes ont été formés avec des copies non autorisées de code ou d’images.
Ils n’attribuent même pas. Selon OpenAI, le système sur lequel GitHub Copilot est basé est Codex, qui « a été formé sur des dizaines de millions de référentiels publics », y compris le propre code de GitHub. Le problème, comme le souligne OnMSFT, est que les référentiels utilisés utilisent souvent une licence qui nécessite une attribution lorsque le code de ces référentiels est utilisé. Selon Microsoft, il s’agit d’une utilisation équitable du code, mais pour les programmeurs comme Matthew Butterick est « supprimer votre communauté Open-Source ».
encore moins payer. Il y a un autre problème ici, et c’est que, par exemple, certains médias tels que le Wall Street Journal ou CNN ont exigé que puisque ChatGPT utilise son contenu dans le cadre de sa formation, OpenAI doive concéder les droits pour le faire correctement . Ou ce qui revient au même, payez.
Bing avec ChatGPT donne au moins des références. Le problème Copilot touche certes Stable Diffusion, Midjourney ou DALL-E 2 dans le domaine de l’image, et c’est pourquoi des procès comme celui de Getty ont également été promus. Parmi les solutions, il y a l’attribution, et voici un bon exemple sur Bing avec ChatGPT, qui, en répondant à nos questions, fournit souvent des références aux sources sur lesquelles il est basé, ce que ChatGPT ne fait pas.
Avant c’était le droit d’auteur, maintenant la vie privée. ChatGPT devient un nain de plus en plus, d’autant plus qu’en plus des problèmes potentiels liés à cette manière aveugle d’entraîner ses modèles, il est désormais confronté à des problèmes pour ses politiques de confidentialité. Plus précisément, en raison de la manière dont il collecte les données des utilisateurs et si cela peut enfreindre le RGPD. L’Italie a déjà interdit l’utilisation de ChatGPT pour cette raison – bien qu’elle ait déjà expliqué comment elle peut lever l’interdiction – et l’Espagne et l’Europe étudient précisément s’il faut suivre cet exemple.
Image | Ouvrir l’IA
À Simseo | Êtes-vous capable de distinguer une image réelle d’une image générée par l’IA ? Voici 20 photos pour le prouver