Un éditeur universitaire a conclu un accord sur les données d'IA avec Microsoft, à l'insu de ses auteurs

Un éditeur universitaire a conclu un accord sur les données d'IA avec Microsoft, à l'insu de ses auteurs

En mai, Informa, une multinationale britannique de plusieurs milliards de dollars, a annoncé dans un communiqué de presse qu'elle avait signé un accord avec Microsoft portant sur « l'accès à des contenus et données d'apprentissage avancés, et un partenariat pour explorer les applications expertes en IA ». Informa est la société mère de Taylor & Francis, qui publie une large gamme de livres et de revues universitaires et techniques, de sorte que les données en question peuvent inclure le contenu de ces livres et revues.

Selon des informations publiées la semaine dernière, les auteurs des contenus ne semblent pas avoir été consultés ni même informés de l'accord. De plus, ils affirment qu'ils n'ont pas eu la possibilité de se retirer de l'accord et qu'ils ne toucheront aucun revenu en retour.

Les universitaires ne sont que les derniers en date d’une série de groupes de créateurs de contenu à s’offusquer de voir leurs travaux ingérés par les modèles d’IA générative qui se livrent actuellement à une course effrénée pour s’approprier les produits de la culture humaine. Les journaux, les artistes visuels et les maisons de disques poursuivent déjà les entreprises d’IA en justice.

Même si l’on ne sait pas encore comment Informa réagira aux grondements de mécontentement, l’accord rappelle aux auteurs qu’ils doivent être conscients des termes contractuels des accords d’édition qu’ils signent.

Que contient l'accord Informa ?

La mise à jour d'Informa a énoncé quatre domaines prioritaires de l'accord avec Microsoft :

  • augmenter la productivité d'Informa
  • développer un outil de citation automatisé
  • développer un logiciel d'assistance à la recherche basé sur l'IA (peut-être comme un système testé par la bibliothèque universitaire en ligne JSTOR)
  • donner accès aux données de Microsoft pour « contribuer à améliorer la pertinence et les performances des systèmes d'IA ».

Informa recevra plus de 8 millions de livres sterling (15,5 millions de dollars australiens) pour l'accès initial aux données, suivi de paiements récurrents d'un montant non spécifié pour les trois années suivantes.

Nous ne savons pas exactement ce que Microsoft prévoit de faire avec son accès aux données, mais il est probable que le contenu des livres et articles universitaires soit ajouté aux données d'entraînement des modèles d'IA génératifs de type ChatGPT. En principe, cela devrait rendre les résultats des systèmes d'IA plus précis, même si les modèles d'IA existants ont fait l'objet de vives critiques, non seulement pour avoir régurgité des données d'entraînement sans les citer (ce qui peut être considéré comme une sorte de plagiat), mais aussi pour avoir inventé de fausses informations et les avoir attribuées à des sources réelles.

Cependant, la mise à jour indique également que « l'accord protège les droits de propriété intellectuelle, y compris les limites sur les extraits de texte textuels et l'alignement sur l'importance des références de citation détaillées ».

Les « limites imposées aux extraits textuels textuels » mentionnées se rapportent probablement à la doctrine américaine de l’usage équitable, qui autorise certaines utilisations de matériel protégé par le droit d’auteur.

De nombreuses entreprises d’IA générative sont actuellement confrontées à des poursuites pour violation du droit d’auteur concernant leur utilisation des données de formation, et leur défense s’appuiera probablement sur la revendication d’une utilisation équitable.

L'importance des références de citation détaillées peut être liée au concept d'attribution dans le droit d'auteur. Il s'agit d'un droit moral dont jouissent les auteurs. Il prévoit que le créateur de l'œuvre doit être connu et attribué comme auteur lorsque son œuvre est reproduite.

Comment fonctionne habituellement l’édition scientifique ?

La plupart des universitaires ne perçoivent pas de rémunération et ne tirent aucun profit de la plupart de leurs publications scientifiques. La rédaction d'articles dans des revues et des conférences est généralement considérée comme faisant partie du travail effectué dans le cadre d'un poste permanent à temps plein. La publication renforce la crédibilité d'un universitaire et promeut ses recherches.

Le processus de base se déroule généralement comme suit : un auteur effectue des recherches et rédige un article original, puis le soumet à un éditeur de revue pour évaluation par les pairs. La plupart des évaluateurs et des membres du comité de rédaction ne reçoivent pas non plus de rémunération pour leur travail.

En fait, certaines revues peuvent exiger des auteurs qu'ils paient des « frais de traitement d'article » pour couvrir les frais d'édition et autres. Ces frais peuvent atteindre des milliers de dollars pour une publication en libre accès. En règle générale, plus la publication est prestigieuse, plus les frais sont élevés.

Si un article est approuvé par les pairs, l'auteur sera invité à signer un contrat de publication. Les conditions peuvent couvrir les modalités logistiques telles que la date de publication de l'article, le format (imprimé, en ligne ou les deux) et la répartition des redevances (le cas échéant). Des dispositions seront également prises concernant le droit d'auteur et la propriété de l'article.

En règle générale, un auteur doit également accorder à l'éditeur les droits exclusifs de distribution et de publication de l'article. Cela peut signifier que l'auteur ne peut pas publier l'article ailleurs et que l'éditeur peut également être en mesure de sous-licencier l'article à un tiers, comme une société d'IA.

Parfois, les éditeurs demandent à un auteur de leur céder les droits d'auteur de l'article via un accord de transfert de droits d'auteur permanent.

En substance, cela signifie que l'auteur cède à l'éditeur tous ses droits d'auteur en tant que titulaire du droit d'auteur sur l'œuvre. L'éditeur peut ensuite reproduire, communiquer, distribuer ou concéder sous licence l'œuvre à d'autres personnes comme il le souhaite.

Il est possible d’attribuer uniquement des droits limités, plutôt que tous les droits, et c’est quelque chose que les auteurs devraient prendre en compte.

Exploration de contenu

Il est essentiel que les auteurs comprennent les implications des licences et des cessions et qu'ils réfléchissent précisément à ce qu'ils acceptent lorsqu'ils signent un contrat. À la lumière de la tendance récente des éditeurs à conclure des accords avec des sociétés d'IA génératrice, les politiques d'IA des éditeurs doivent également être examinées de près.

Aux États-Unis, une solution standard de licence collective pour l’utilisation de contenu dans les systèmes d’IA internes a récemment été publiée, qui définit les droits et la rémunération des titulaires de droits d’auteur. Des licences similaires pour l’utilisation de contenu pour les systèmes d’IA devraient arriver très bientôt sur le marché australien.

Les accords conclus entre les éditeurs universitaires et les entreprises d’IA suscitent des inquiétudes plus larges chez de nombreux universitaires. Voulons-nous que la recherche scientifique soit réduite à un contenu destiné à l’exploration des connaissances par l’IA ? Il n’existe pas de réponse claire quant à l’éthique et à la morale de telles pratiques.