Une étude explore le potentiel et les lacunes de ChatGPT dans le SPC, l'éducation et la recherche

Crédit : Megahed et al

Fin novembre 2022, la société OpenAI basée à San Francisco a lancé son prototype de ChatGPT, un chatbot basé sur l’intelligence artificielle (IA) qui peut répondre à un large éventail de questions en peu de temps. Depuis lors, des utilisateurs du monde entier testent le chatbot et discutent de ses applications possibles dans différents domaines.

ChatGPT est basé sur un soi-disant grand modèle de langage (LLM), une technique d’apprentissage en profondeur qui utilise des réseaux de neurones multicouches formés sur un vaste pool de textes. Au fil du temps, ces modèles peuvent apprendre à faire des prédictions sur la façon de composer des phrases et de répondre à des requêtes linguistiques spécifiques.

GPT-3, le modèle qui sous-tend ChatGPT, est l’un des LLM les plus puissants au monde, car il comprend plus de 175 milliards de paramètres et peut s’attaquer à un large éventail de tâches écrites. Par exemple, le chatbot peut traduire et résumer des textes écrits, composer des poèmes de base ou des paroles de chansons et proposer des définitions pour des termes particuliers.

Des chercheurs de l’Université de Miami, de l’Université de Dayton et de l’Université Helmut Schmidt de Hambourg ont récemment mené une étude évaluant la valeur potentielle et les limites de ChatGPT dans différents domaines, notamment l’éducation, la recherche et le contrôle statistique des processus (SPC), qui est l’utilisation de statistiques des outils pour contrôler un processus ou une méthode de production. Leur article, publié sur le pre-print arXiv server, suggère que bien que ChatGPT et d’autres LLM très performants puissent parfois être utiles dans ces paramètres, les réponses qu’il fournit ne sont pas toujours fiables et doivent donc toujours être validées à l’aide de sources fiables.

« Nous explorons la capacité de ChatGPT à fournir du code, à expliquer les concepts de base et à créer des connaissances liées à la pratique, à l’apprentissage et à la recherche SPC », ont écrit Fadel Megahed Ying-Ju Chen et leurs collègues dans leur article. « Nous demandons, ‘que peuvent faire maintenant les outils d’IA génératifs basés sur le LLM pour augmenter les rôles des praticiens, des éducateurs et des chercheurs SPC?’ Pour rendre notre tâche plus facile, nous nous concentrerons principalement sur l’évaluation de l’utilité de ChatGPT (et de son moteur GPT-3.5 sous-jacent) car il : (a) est le plus connu de ces outils d’IA générative et (b) combine les fonctionnalités de le chatbot génératif avec un LLM sous-jacent qui peut générer à la fois du texte et du code. À notre avis, cette évaluation explicative peut fournir une référence pour les futures évaluations de la prochaine génération de modèles d’IA générative.

Pour évaluer le potentiel de ChatGPT en tant qu’outil d’assistance aux professionnels dans différents domaines, Megahed, Chen et leurs collègues ont demandé au chatbot de répondre à différents types de questions. Plus précisément, ils lui ont demandé de fournir du code pour une tâche particulière, d’expliquer des concepts de base et de générer des informations liées à chacun des trois domaines sur lesquels ils se sont concentrés.

Les chercheurs ont ensuite examiné de près le code, les réponses et les informations générées par ChatGPT, pour déterminer leur exactitude et leur valeur dans ces différents domaines. Dans l’ensemble, ils ont constaté que si le chatbot basé sur LLM pouvait être utile, en particulier en tant qu’outil de traduction de textes, de brainstorming ou d’assistant pour les programmeurs humains qualifiés, le code et les réponses qu’il générait seuls ne pouvaient pas être considérés comme fonctionnels, fiables et fiables. précis.

« Notre étude indique que la version actuelle de ChatGPT fonctionne bien pour les tâches structurées, telles que la traduction de code d’une langue à une autre et l’explication de concepts bien connus, mais se débat avec des tâches plus nuancées, telles que l’explication de termes moins connus et la création de code à partir de zéro », ont expliqué Fadel Megahed Ying-Ju Chen et leurs collègues dans leur article.

« Nous constatons que l’utilisation de nouveaux outils d’IA peut aider les praticiens, les éducateurs et les chercheurs à être plus efficaces et productifs. Cependant, à leurs stades actuels de développement, certains résultats sont trompeurs et erronés. Dans l’ensemble, l’utilisation de modèles d’IA génératifs dans la CPS doit être correctement validé et utilisé en conjonction avec d’autres méthodes pour garantir des résultats précis. »

À l’avenir, les observations recueillies par cette équipe de chercheurs pourraient guider les praticiens, les éducateurs et les chercheurs du SPC, en les aidant à déterminer quand les LLM comme ChatGPT peuvent être utiles et dans quels cas faire confiance à leurs résultats pourrait être imprudent. Megahed, Chen et leurs collègues espèrent que cela favorisera l’innovation alimentée par le LLM dans leur domaine, tout en réduisant la survenue d’erreurs et la diffusion d’informations non fiables.