L'accord de contenu d'OpenAI avec le Financial Times est une tentative d'éviter des contestations juridiques et une « apocalypse des données

Le nouveau « partenariat stratégique » et accord de licence d'OpenAI avec le Financial Times (FT) fait suite à des accords similaires entre l'entreprise technologique américaine et des éditeurs tels qu'Associated Press, le géant allemand des médias Axel Springer et le journal français Le Monde.

OpenAI accordera une licence au contenu du FT pour l'utiliser comme données de formation pour ses produits, y compris les successeurs de son chatbot IA ChatGPT. Les systèmes d’IA développés par OpenAI sont exposés à ces données pour les aider à améliorer leurs performances en termes d’utilisation du langage, de contexte et de précision. Le FT recevra un paiement non divulgué dans le cadre de l'accord.

Cela se produit dans un contexte mondial de poursuites judiciaires intentées par des sociétés de médias alléguant une violation du droit d'auteur concernant l'utilisation de leur contenu pour former des produits d'IA. La plus médiatisée d’entre elles est une affaire intentée par le New York Times contre OpenAI. Les entreprises technologiques craignent également qu’à mesure qu’elles construisent des produits de plus en plus avancés, Internet ne dispose plus de suffisamment de données de haute qualité pour entraîner ces outils d’IA.

Alors, que signifiera cet accord pour le FT ? Il y a encore un manque de détails sur des partenariats comme celui-ci, hormis le fait que le FT sera rémunéré pour son contenu. Cependant, il existe des indices d’autres avantages potentiels.

Dans un communiqué, le directeur général du groupe FT, John Ridding, a souligné que le journal s'engage en faveur d'un « journalisme humain ». Mais il a également reconnu que le secteur de l'information ne peut pas rester immobile : « Nous sommes impatients d'explorer les résultats pratiques concernant les sources d'information et l'IA grâce à ce partenariat… Nous apprécions l'opportunité d'être dans la boucle de développement alors que les gens découvrent le contenu de nouvelles manières. « .

Le FT a précédemment déclaré qu'il « expérimenterait de manière responsable » les outils d'IA et formerait les journalistes à utiliser l'IA générative pour la « découverte d'histoires ».

OpenAI est probablement impatient d'annoncer ce partenariat car il espère qu'il contribuera à résoudre les problèmes les plus aigus auxquels sont confrontés ses produits phares. La première est que ces outils d’IA générative inventent parfois des choses, un phénomène appelé hallucination. L’utilisation d’un contenu fiable provenant du FT et d’autres sources fiables devrait y contribuer.

Le deuxième problème est que cela pourrait aider à compenser le contrôle juridique auquel OpenAI est confronté. La signature d’accords officiels avec des sources d’information permet à l’entreprise technologique de contrôler dans une certaine mesure les atteintes à sa réputation, car cela montre qu’elle essaie de se rétablir dans le monde du journalisme. Cela offre également potentiellement plus de sécurité juridique à l’avenir.

Le contenu sous licence du FT – et d’autres sources médiatiques – pourrait fournir à ChatGPT et au prochain GPT-5 des réponses plus spécifiques et référencées aux utilisateurs. Gemini, le concurrent ChatGPT de Google, tente déjà d'y parvenir en proposant des recherches Google qui soutiennent ses affirmations. Obtenir des résultats directement à partir de la source signifie qu’OpenAI dispose de preuves plus fiables sur lesquelles rechercher et se former.

Cela semble suivre la tendance de la « génération augmentée par récupération » (RAG) qui devient de plus en plus populaire dans le monde de l'IA. RAG est une technique par laquelle un grand modèle de langage (la technologie qui se trouve derrière les chatbots IA tels que ChatGPT) peut être doté d'une base de données de connaissances qui peut être recherchée pour prendre en charge ce que le chatbot sait déjà. C’est un peu comme passer un examen avec un manuel ouvert devant vous.

Cela contribue à réduire le risque d’hallucination, où l’IA produit avec autorité une réponse qui semble réelle mais qui est en réalité inventée. Avoir accès à une base de données de journalisme fiable permet de compenser les problèmes de fiabilité des produits d’IA du fait de leur formation sur Internet ouvert.

Programme de partenariat

Il y a un sous-texte à ce programme mondial de partenariats médiatiques qui n'a rien à voir avec la loi ou l'éthique. OpenAI a besoin de plus en plus de données au fil du temps pour continuer à apporter de grandes améliorations grâce aux mises à niveau de ses produits d'IA. Pourtant, ces produits manquent de données de formation de haute qualité provenant de l’Internet ouvert.

Cela est dû, au moins en partie, à la prolifération des contenus créés par l’IA sur le Web. Cela compromet potentiellement le besoin continu d'OpenAI de prouver à ses partenaires, gouvernements et investisseurs qu'elle peut apporter de grandes améliorations à ses produits phares.

Le procès du New York Times affirme que des produits tels que ChatGPT menacent les activités des sociétés de médias. Quelle que soit l'issue de cette affaire, il est dans l'intérêt d'OpenAI de maintenir ses sources de données de formation, y compris les sociétés de médias, productives et économiquement viables. Le succès de ChatGPT, du moins pour le moment, est étroitement lié au succès des personnes et des organisations qui produisent les données qui le rendent utile.

Les relations publiques du secteur de l’IA ont beaucoup contribué à promouvoir l’idée de l’inévitabilité : l’IA, sous la forme de produits tels que ChatGPT, transformera les industries – et la vie des gens en général. Pourtant, la technologie échoue tout le temps. L’accord du FT met en évidence la tension dynamique qui existe entre l’IA et les industries qu’elle transforme. ChatGPT a désormais besoin d’un journalisme fiable que ses propres capacités génératrices et méthodes de formation ont contribué à saper.

L’idée selon laquelle l’IA générative aurait empoisonné Internet n’a rien de nouveau. Certains chercheurs en IA ont comparé la propagation des déchets générés par l'IA sur Internet à la façon dont la contamination radioactive des métaux a forcé les fabricants d'acier dans les années 1950 à plonger pour récupérer l'acier provenant de navires naufragés qui avaient été fabriqués avant l'ère nucléaire. Cet acier prénucléaire était nécessaire à certaines utilisations, comme dans les accélérateurs de particules et les compteurs Geiger.

De la même manière, pour OpenAI et les entreprises similaires, former ses produits sur des « fragments » de données ne semble pas être une voie viable.

Cet article est republié à partir de The Conversation sous une licence Creative Commons. Lisez l'article original.