Qu'est-ce que l'effondrement d'un modèle ? Un expert explique les rumeurs sur la fin imminente de l'IA
Les prophètes et les marchands d’informations sur l’intelligence artificielle (IA) prédisent la fin du battage médiatique autour de l’IA générative, en évoquant un « effondrement du modèle » catastrophique imminent.
Mais dans quelle mesure ces prédictions sont-elles réalistes ? Et qu'est-ce que l'effondrement d'un modèle ?
Discuté en 2023, mais popularisé plus récemment, « l'effondrement du modèle » fait référence à un scénario hypothétique dans lequel les futurs systèmes d'IA deviennent progressivement plus stupides en raison de l'augmentation des données générées par l'IA sur Internet.
Le besoin de données
Les systèmes d'IA modernes sont construits à l'aide de l'apprentissage automatique. Les programmeurs établissent la structure mathématique sous-jacente, mais la véritable « intelligence » provient de l'entraînement du système à imiter des modèles dans les données.
Mais pas n’importe quelles données. Les systèmes d’IA générative actuels ont besoin de données de haute qualité, et en grande quantité.
Pour obtenir ces données, les grandes entreprises technologiques telles qu’OpenAI, Google, Meta et Nvidia parcourent en permanence Internet, récupérant des téraoctets de contenu pour alimenter les machines. Mais depuis l’avènement des systèmes d’IA générative largement disponibles et utiles en 2022, les gens téléchargent et partagent de plus en plus de contenus créés, en partie ou en totalité, par l’IA.
En 2023, les chercheurs ont commencé à se demander s’ils pourraient s’en sortir en s’appuyant uniquement sur des données créées par l’IA pour la formation, au lieu de données générées par l’homme.
Il existe d'énormes incitations à y parvenir. En plus de proliférer sur Internet, le contenu créé par l'IA est bien moins cher à exploiter que les données humaines. Il n'est pas non plus éthiquement et légalement discutable de le collecter en masse.
Cependant, les chercheurs ont découvert que sans données humaines de haute qualité, les systèmes d'IA formés à partir de données générées par l'IA deviennent de plus en plus stupides à mesure que chaque modèle apprend du précédent. C'est comme une version numérique du problème de la consanguinité.
Cet « entraînement régurgitif » semble conduire à une réduction de la qualité et de la diversité du comportement des modèles. La qualité signifie ici grosso modo une combinaison d'utilité, d'innocuité et d'honnêteté. La diversité fait référence à la variation des réponses et aux perspectives culturelles et sociales des individus représentées dans les résultats de l'IA.
En bref : en utilisant autant les systèmes d’IA, nous risquons de polluer la source même de données dont nous avons besoin pour les rendre utiles en premier lieu.
Éviter l’effondrement
Les grandes entreprises technologiques ne peuvent-elles pas simplement filtrer le contenu généré par l'IA ? Pas vraiment. Les entreprises technologiques consacrent déjà beaucoup de temps et d'argent au nettoyage et au filtrage des données qu'elles récupèrent. Un initié du secteur a récemment confié qu'elles rejetaient parfois jusqu'à 90 % des données qu'elles collectaient initialement pour former des modèles.
Ces efforts pourraient devenir plus exigeants à mesure que la nécessité de supprimer spécifiquement le contenu généré par l’IA augmente. Mais plus important encore, à long terme, il deviendra de plus en plus difficile de distinguer le contenu généré par l’IA. Le filtrage et la suppression des données synthétiques deviendront alors un jeu de rendements (financiers) décroissants.
En fin de compte, les recherches menées jusqu'à présent montrent que nous ne pouvons pas nous passer complètement des données humaines. Après tout, c'est de là que vient le « I » de l'IA.
Allons-nous vers une catastrophe ?
Certains indices laissent penser que les développeurs doivent déjà redoubler d’efforts pour obtenir des données de qualité. Par exemple, la documentation accompagnant la version GPT-4 a fait état d’un nombre sans précédent de collaborateurs impliqués dans les parties du projet liées aux données.
Il se pourrait aussi que nous soyons à court de nouvelles données humaines. Selon certaines estimations, le réservoir de données textuelles générées par l’homme pourrait être épuisé dès 2026.
C'est probablement la raison pour laquelle OpenAI et d'autres s'efforcent de consolider des partenariats exclusifs avec des géants du secteur tels que Shutterstock, Associated Press et NewsCorp. Ils possèdent de vastes collections propriétaires de données humaines qui ne sont pas facilement accessibles sur l'Internet public.
Toutefois, les risques d’effondrement catastrophique du modèle sont peut-être exagérés. La plupart des recherches menées jusqu’à présent portent sur des cas où des données synthétiques remplacent des données humaines. Dans la pratique, les données humaines et celles issues de l’IA sont susceptibles de s’accumuler en parallèle, ce qui réduit la probabilité d’effondrement.
Le scénario le plus probable à l’avenir verra également un écosystème de plateformes d’IA génératives quelque peu diverses utilisées pour créer et publier du contenu, plutôt qu’un modèle monolithique. Cela augmente également la résistance à l’effondrement.
C’est une bonne raison pour que les régulateurs favorisent une concurrence saine en limitant les monopoles dans le secteur de l’IA et en finançant le développement de technologies d’intérêt public.
Les vraies préoccupations
Il existe également des risques plus subtils liés à un contenu trop important créé par l’IA.
Un flot de contenu synthétique ne constitue peut-être pas une menace existentielle pour le progrès du développement de l’IA, mais il menace le bien public numérique de l’Internet (humain).
Par exemple, les chercheurs ont constaté une baisse de 16 % de l’activité sur le site de codage StackOverflow un an après la sortie de ChatGPT. Cela suggère que l’assistance de l’IA pourrait déjà réduire les interactions interpersonnelles dans certaines communautés en ligne.
L'hyperproduction des fermes de contenu alimentées par l'IA rend également plus difficile la recherche de contenu qui ne soit pas un appât à clics bourré de publicités.
Il devient impossible de distinguer de manière fiable les contenus créés par des humains de ceux créés par l'IA. Une méthode pour remédier à ce problème consisterait à tatouer ou à étiqueter les contenus générés par l'IA, comme moi et de nombreuses autres personnes l'avons récemment souligné, et comme le reflète la récente législation provisoire du gouvernement australien.
Il existe également un autre risque. À mesure que le contenu généré par l’IA devient systématiquement homogène, nous risquons de perdre notre diversité socioculturelle et certains groupes de personnes pourraient même connaître un effacement culturel. Nous avons besoin d’urgence de recherches interdisciplinaires sur les défis sociaux et culturels posés par les systèmes d’IA.
Les interactions et les données humaines sont importantes et nous devons les protéger. Pour notre propre bien, mais aussi peut-être en raison du risque potentiel d’un effondrement futur du modèle.