Ils ont fait une étude et la moitié de leurs réponses sont fausses

Ils ont fait une étude et la moitié de leurs réponses sont fausses

Rechercher des réponses sur Stack Overflow ou rechercher sur Google n'est plus aussi cool. De nombreux programmeurs ont trouvé ChatGPT un excellent outil pour rationalisez votre travail et dépendent moins des plateformes susmentionnées. Cependant, le chatbot d'intelligence artificielle (IA) d'OpenAI est loin d'être parfait, et s'appuyer entièrement sur lui n'est peut-être pas judicieux.

ChatGPT, comme tout autre outil basé sur un grand modèle de langage (LLM), présente plusieurs limitations. L'entreprise elle-même, dirigée par Sam Altman, souligne sur son site Internet que le chatbot « peut faire des erreurs » et vous invite à vérifier les informations importantes. Maintenant, dans le monde de la programmation, dans quelle mesure (ou mal) fait-il son travail ? Voyons ce que disent certains chercheurs.

Lorsque plus de 50 % des réponses sont incorrectes

Un groupe de chercheurs de l’Université Purdue a présenté ce mois-ci des recherches motivées par la « popularité croissante de ChatGPT » et la dynamique des LLM pour «générer des textes inventés» qui sont généralement difficiles à reconnaître par des utilisateurs manquant d’une certaine expérience sur le sujet en question. En fait, de nombreuses réponses sont plausibles, mais fausses.

« Nous avons constaté que 52 % des réponses ChatGPT contiennent des informations erronées », déclarent les chercheurs. En ce sens, ils ajoutent que 77 % des réponses sont plus détaillées que les réponses humaines (ce qui ne garantit pas leur exactitude) et que 78 % d’entre elles souffrent de différents degrés d’incohérence. Ce sont des chiffres qui ne passent vraiment pas inaperçus.

Pour obtenir ces valeurs, les chercheurs ont répondu à 517 questions de programmation de Stack Overflow. Ils ont ensuite examiné l'exactitude, la cohérence, exhaustivité et concision des réponses avec ChatGPT basée sur GPT-3.5 et a mené une analyse linguistique à grande échelle telle qu'une étude utilisateur pour comprendre les réponses ChatGPT de différents points de vue.

Programmation 1

Les chercheurs de Purdue ont choisi GPT-3.5 au lieu de GPT-4, la dernière version du modèle de langage au moment de l'étude, qui est la version gratuite la plus utilisée. Il convient de noter qu’ils ont également effectué des tests parallèles avec GPT-4 et ont conclu que même si le modèle le plus récent fonctionne « légèrement mieux », les deux ont un taux d’inexactitude élevé.

Lorsque nous parlons de ChatGPT, nous faisons référence à un chatbot IA qui peut être utilisé pour différentes tâches. De nous aider à programmer même écrire une lettre. Dans le monde de la programmation, nous disposons également d'autres outils basés sur l'IA conçus spécifiquement pour les développeurs, tels que GitHub Copilot, qui s'intègre aux environnements de développement.

Le moteur de recherche Google vit la révolution la plus importante de son histoire.  Pour l'instant c'est un désastre

Quoi qu’il en soit, nous sommes témoins de la façon dont l’IA change notre façon de travailler et, ce faisant, nous découvrons les avantages et les défauts des outils que nous utilisons. Pour l’instant, ChatGPT semble loin de pouvoir surpasser les réponses humaines dans le domaine de la programmation. En effet, il est interdit de poster des réponses avec cet outil sur Stack Overflow.

Images | Gemme Saputera | Rivage

À Simseo | Copilot, ChatGPT et GPT-4 ont changé à jamais le monde de la programmation. C'est ce que pensent les programmeurs

À Simseo | Elon Musk et xAI veulent gagner la guerre de l'IA : ils viennent de recevoir 6 milliards de dollars pour y parvenir