Par les créateurs de "Sam Altman dirige le comité chargé de superviser les actions de Sam Altman", voici GPT-4 qui supervise GPT-4.

Par les créateurs de « Sam Altman dirige le comité chargé de superviser les actions de Sam Altman », voici GPT-4 qui supervise GPT-4.

« GPT-4 pour détecter les erreurs GPT-4 », c'est avec ces mots que le président d'OpenAI, Greg Brockman, a présenté la proposition la plus récente de la société d'intelligence artificielle pour améliorez votre modèle phare dans le domaine de la programmation. Nous parlons de CriticGPT, un modèle basé sur GPT-4 spécialement conçu pour détecter les erreurs dans la sortie du code ChatGPT.

La société soutenue par Microsoft affirme que CriticGPT s'est avéré très efficace pour aider les gens à détecter les erreurs dans les réponses du célèbre chatbot. Lors des tests internes, expliquent-ils, les résultats des personnes ayant reçu l'aide de CriticGPT ont dépassé de 60 % ceux qui ont effectué le travail seuls. Désormais, ce modèle est prêt à passer à l’étape suivante.

Un nouvel outil pour l’apprentissage par renforcement

Dans les tâches de formation modèles telles que GPT-4, ce que l’on appelle l’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) entre en jeu. Il s'agit d'une technique d'apprentissage automatique qui, de manière générale, utilise réponses créées par l'hommeles soi-disant entraîneurs d'IA, pour améliorer la précision du modèle pour certaines tâches.

OpenAI commencera à déployer des modèles de type CriticGPT auprès de ses formateurs pour les aider à détecter les bogues de plus en plus subtils que GPT-4 reproduit généralement via ChatGPT. « Il s'agit d'une étape vers la possibilité d'évaluer les résultats de systèmes d'IA avancés qui peuvent être difficiles à qualifier sans de meilleurs outils », a déclaré la société sur son blog.

Lampe de bureau à code

Mais comment fonctionne CriticGPT ? Comme nous pouvons le voir dans l'image ci-dessus, le modèle écrit des « avis » sur les réponses ChatGPT. Ces critiques ne sont pas toujours exactes, mais elles peuvent aider les formateurs humains à rendre les problèmes visibles cela aurait pu passer inaperçu. OpenAI décrit ce mécanisme comme une « assistance » au processus RLHF.

gpt4
gpt4

CriticGPT, étant basé sur GPT-4, a également suivi le processus d'apprentissage par renforcement à partir des commentaires humains. Aussi curieux que cela puisse paraître, à la lumière des tests, il semble être une bonne idée que ChatGPT basé sur GPT-4 s'améliore dans les tâches de programmation, un domaine où certaines études ont mis en évidence le pourcentage important de réponses incorrectes du modèle.

Une chaîne de magasins de jouets vient de publier le premier spot publicitaire réalisé avec Sora : le réalisme est à mi-chemin

L'entreprise tente également d'améliorer la sécurité de ses modèles après la dissolution de son équipe « super alignement ». Pour ce faire, il dispose d'un comité dirigé par Sam Altman. L'une des missions de ce comité est présenter des recommandations au conseil d'administration présidé par Greg Brockman, mais de la société dont le PDG est Sam Altman.

Images | OpenAI | Milad Fakurian | Village Mondial

À Simseo | YouTube voit un avenir dans lequel l'IA clonera la musique d'aujourd'hui. Convaincre les maisons de disques ne sera pas chose facile.