À l'avenir, nous verrons moins de chatbots IA génériques comme ChatGPT et d'autres plus spécialisés, adaptés à nos besoins.

La technologie de l’IA se développe rapidement. ChatGPT est devenu le service en ligne à la croissance la plus rapide de l’histoire. Google et Microsoft intègrent l’IA générative dans leurs produits. Et les dirigeants mondiaux adoptent avec enthousiasme l’IA comme outil de croissance économique.

À mesure que nous dépassons ChatGPT et Bard, nous verrons probablement les chatbots IA devenir moins génériques et plus spécialisés. Les IA sont limitées par les données auxquelles elles sont exposées afin de les rendre meilleures dans ce qu’elles font : dans ce cas, imiter la parole humaine et fournir aux utilisateurs des réponses utiles.

La formation couvre souvent un vaste réseau, les systèmes d’IA absorbant des milliers de livres et de pages Web. Mais un ensemble de données de formation plus sélectives et plus ciblées pourrait rendre les chatbots IA encore plus utiles pour les personnes travaillant dans des secteurs particuliers ou vivant dans certaines régions.

La valeur des données

Un facteur important dans cette évolution sera les coûts croissants liés à la collecte de données de formation pour les grands modèles de langage avancés (LLM), le type d’IA qui alimente ChatGPT. Les entreprises savent que les données sont précieuses : Meta et Google gagnent des milliards en vendant des publicités ciblées sur les données des utilisateurs. Mais la valeur des données est en train de changer. Meta et Google vendent des « insights » sur les données ; ils investissent dans l’analyse pour transformer de nombreux points de données en prédictions sur les utilisateurs.

Les données sont précieuses pour OpenAI, le développeur de ChatGPT, d’une manière subtilement différente. Imaginez un tweet : « Le chat était assis sur le tapis. » Ce tweet n’a pas de valeur pour les annonceurs ciblés. Cela en dit peu sur un utilisateur ou ses intérêts. Peut-être que, d’un seul coup, cela pourrait suggérer un intérêt pour la nourriture pour chats et le Dr Suess.

Mais pour OpenAI, qui construit des LLM pour produire un langage de type humain, ce tweet est un exemple précieux du fonctionnement du langage humain. Un seul tweet ne peut pas apprendre à une IA à construire des phrases, mais des milliards de tweets, d’articles de blog, d’entrées Wikipédia, etc. le peuvent certainement. Par exemple, le LLM GPT-4 avancé a probablement été construit à partir de données extraites de X (anciennement Twitter), Reddit, Wikipedia et au-delà.

La révolution de l’IA change le modèle économique des organisations riches en données. Des entreprises comme Meta et Google investissent depuis plusieurs années dans la recherche et le développement de l’IA alors qu’elles tentent d’exploiter leurs ressources de données.

Des organisations comme X et Reddit ont commencé à facturer aux tiers l’accès aux API, le système utilisé pour récupérer les données de ces sites Web. Le scraping de données coûte aux entreprises comme X argent, car elles doivent dépenser davantage en puissance de calcul pour répondre aux requêtes de données.

À l’avenir, alors que des organisations comme OpenAI cherchent à créer des versions plus puissantes de son GPT LLM, elles seront confrontées à des coûts plus élevés pour obtenir des données. Une solution à ce problème pourrait être les données synthétiques.

Passer au synthétique

Les données synthétiques sont créées à partir de zéro par les systèmes d’IA pour former des systèmes d’IA plus avancés, afin qu’ils s’améliorent. Elles sont conçues pour effectuer la même tâche que les données d’entraînement réelles mais sont générées par l’IA.

C’est une idée nouvelle, mais elle se heurte à de nombreux problèmes. Les bonnes données synthétiques doivent être suffisamment différentes des données originales sur lesquelles elles sont basées afin d’indiquer quelque chose de nouveau au modèle, tout en étant suffisamment similaires pour lui indiquer quelque chose de précis. Cela peut être difficile à réaliser. Là où les données synthétiques ne sont que des copies convaincantes de données du monde réel, les modèles d’IA qui en résultent peuvent avoir du mal à faire preuve de créativité, renforçant ainsi les préjugés existants.

Un autre problème est celui de « l’IA des Habsbourg ». Cela suggère que la formation de l’IA sur des données synthétiques entraînera une baisse de l’efficacité de ces systèmes – d’où l’analogie utilisant la fameuse consanguinité de la famille royale des Habsbourg. Certaines études suggèrent que cela se produit déjà avec des systèmes comme ChatGPT.

L’une des raisons pour lesquelles ChatGPT est si efficace est qu’il utilise l’apprentissage par renforcement avec retour humain (RLHF), où les gens évaluent ses résultats en termes d’exactitude. Si les données synthétiques générées par une IA comportent des inexactitudes, les modèles d’IA entraînés sur ces données seront eux-mêmes inexacts. La demande de retour d’information humain pour corriger ces inexactitudes est donc susceptible d’augmenter.

Cependant, alors que la plupart des gens seraient en mesure de dire si une phrase est grammaticalement exacte, moins nombreux seraient en mesure de commenter son exactitude factuelle, en particulier lorsque le résultat est technique ou spécialisé. Les résultats inexacts sur des sujets spécialisés sont moins susceptibles d’être détectés par le RLHF. Si les données synthétiques signifient qu’il y a davantage d’inexactitudes à détecter, la qualité des LLM à usage général pourrait stagner ou décliner même si ces modèles « apprennent » davantage.

Petits modèles de langage

Ces problèmes contribuent à expliquer certaines tendances émergentes en matière d’IA. Les ingénieurs de Google ont révélé que peu de choses empêchent des tiers de recréer des LLM comme GPT-3 ou l’IA LaMDA de Google. De nombreuses organisations pourraient créer leurs propres systèmes d’IA internes, en utilisant leurs propres données spécialisées, pour atteindre leurs propres objectifs. Ceux-ci seront probablement plus précieux pour ces organisations que ChatGPT à long terme.

Récemment, le gouvernement japonais a noté que le développement d’une version de ChatGPT centrée sur le Japon pourrait être utile à sa stratégie d’IA, car ChatGPT n’est pas suffisamment représentatif du Japon. L’éditeur de logiciels SAP a récemment lancé sa « feuille de route » en matière d’IA pour offrir des capacités de développement d’IA aux organisations professionnelles. Cela permettra aux entreprises de créer plus facilement leurs propres versions sur mesure de ChatGPT.

Des cabinets de conseil tels que McKinsey et KPMG explorent la formation de modèles d’IA à des « fins spécifiques ». Des guides sur la façon de créer des versions privées et personnelles de ChatGPT peuvent être facilement trouvés en ligne. Des systèmes open source, tels que GPT4All, existent déjà.

À mesure que les défis de développement, associés aux obstacles réglementaires potentiels, augmentent pour les LLM génériques, il est possible que l’avenir de l’IA soit constitué de nombreux petits modèles spécifiques plutôt que de grands modèles linguistiques. Les petits modèles de langage pourraient avoir des difficultés s’ils sont formés sur moins de données que des systèmes tels que GPT-4.

Mais ils pourraient également présenter un avantage en termes de RLHF, dans la mesure où peu de modèles de langage sont susceptibles d’être développés à des fins spécifiques. Les employés qui possèdent une connaissance approfondie de leur organisation et de ses objectifs peuvent fournir des commentaires beaucoup plus précieux à de tels systèmes d’IA, par rapport aux commentaires génériques pour un système d’IA générique. Cela pourrait permettre de surmonter les inconvénients liés à moins de données.