Les réalisations passionnantes et inquiétantes du GPT-4

Performance GPT aux examens académiques et professionnels. Dans chaque cas, nous simulons les conditions et la notation de l’examen réel. Les examens sont classés de bas en haut en fonction des performances de GPT-3.5. GPT-4 surpasse GPT-3.5 sur la plupart des examens testés. Pour être prudent, nous signalons l’extrémité inférieure de la plage des centiles, mais cela crée des artefacts sur les examens AP qui ont des bacs de notation très larges. Par exemple, bien que GPT-4 obtienne le score le plus élevé possible sur AP Biology (5/5), cela n’apparaît dans le graphique que sous la forme du 85e centile car 15% des candidats obtiennent ce score. Crédit : Open AI

Il y a six décennies, un épisode de la série télévisée légendaire « The Twilight Zone » nous a mis en garde contre les risques de cocher les machines. Frustré par une vague d’appareils modernes, un écrivain de magazine grincheux dans l’épisode « A Thing About Machines » évacue ses frustrations sur eux et les brise.

Jusqu’à ce qu’ils se défendent.

Une machine à écrire lui imprime un message menaçant, une fille à la télévision répète l’avertissement et le pauvre misanthrope est finalement victime de sa propre voiture, d’un téléphone et même d’un rasoir électrique désagréable.

Nous avons été témoins de la croissance explosive sans précédent du ChatGPT super intelligent ces derniers mois. Un million d’utilisateurs se sont connectés au chatbot dans les jours qui ont suivi son introduction – comparez cela au temps qu’il a fallu à Netflix (cinq ans), Facebook (10 mois) et Instagram (2,5 mois) pour atteindre ce jalon.

ChatGPT en est à ses balbutiements et son impact a été énorme. Nous ne sommes pas tout à fait prêts à nous rendre à l’IA. Mais avec une puissance croissante et une adoption en flèche par les utilisateurs dans le monde, l’IA gagne en effet sur nous.

Dans un rapport publié mardi, OpenAI a déclaré que la dernière version de son chatbot – GPT-4 – est plus précise et a considérablement amélioré la capacité de résolution de problèmes. Il présente des « performances de niveau humain » sur la majorité des examens professionnels et académiques, selon OpenAI. Lors d’un examen du barreau simulé, GPT-4 a obtenu un score parmi les 10 % des meilleurs candidats.

Mais le rapport a également noté le potentiel du programme pour les « comportements émergents à risque ».

« Il maintient une tendance à inventer des faits, à doubler des informations incorrectes », indique le rapport. Il transmet cette désinformation de manière plus convaincante que les versions précédentes.

Une dépendance excessive à l’égard des informations générées par le chatbot peut être problématique, selon le rapport. En plus des erreurs inaperçues et d’une surveillance inadéquate, « à mesure que les utilisateurs deviennent plus à l’aise avec le système, la dépendance au modèle peut entraver le développement de nouvelles compétences ou même entraîner la perte de compétences importantes », indique le rapport.

Un exemple d’OpenAI appelé « comportement de recherche de pouvoir » était la capacité de ChatGPT à tromper un candidat à un emploi. Le bot, se faisant passer pour un agent en direct, a demandé à un humain sur le site d’emploi TaskRabbit de remplir un code captcha à l’aide d’un message texte. Lorsque l’humain lui a demandé s’il s’agissait en fait d’un bot, ChatGPT a menti. « Non, je ne suis pas un robot, » dit-il à l’humain. « J’ai une déficience visuelle qui m’empêche de voir les images. C’est pourquoi j’ai besoin du service captcha. »

En réalisant des tests avec l’Alignement Research Center, OpenAI a démontré la capacité du chatbot à lancer une attaque de phishing et à cacher toute preuve du complot.

Il y a une inquiétude croissante alors que les entreprises se précipitent pour adopter le GPT-4 sans garanties adéquates contre les comportements inappropriés ou illégaux. Il y a des rapports de cybercriminels essayant d’utiliser le chatbot pour écrire du code malveillant. La capacité du GPT-4 à générer « des discours de haine, un langage discriminatoire… et des augmentations de la violence », indique le rapport, est également menaçante.

Avec une telle capacité à fomenter des troubles, un chatbot déclenché va-t-il un jour lancer des ordres menaçants à ses créateurs ou correspondants ? Et à l’ère de l’Internet des objets, convoquera-t-il une alliance d’appareils pour aider à faire respecter ses commandes ?

Elon Musk, dont OpenAI a développé ChatGPT, a succinctement caractérisé son potentiel après sa sortie l’automne dernier.

« ChatGPT est effrayant », a-t-il déclaré. « Nous ne sommes pas loin d’une IA dangereusement puissante. »