arrête d'halluciner autant
Comptons les R.
Si vous demandez à GPT-4o de vous dire combien de R il y a dans le mot « Fraise », Il aura tort et te dira qu'il y en a deux. Comment peut-on faire une si grosse erreur sur une question pareille ? La raison est simple : ce modèle ne traite pas le texte comme nous le faisons, mais le divise plutôt en jetons, ce qui provoque cet échec.
C’est une erreur surprenante que commettent également d’autres modèles. C'est Claude, d'Anthropic, considéré comme l'un des plus puissants aujourd'hui. On pourrait se moquer de ces modèles, théoriquement spectaculaires dans d'autres domaines, mais qui ne sont pas capables de résoudre ce problème simple, mais nous ne devrions pas le faire. Et la raison en est qu’ils ne sont pas conçus pour résoudre ce type de problèmes.


Claude a tort.
En fait, en testant avec la version basique et gratuite de ChatGPT, la réponse est correcte, mais c'est parce que le chatbot triche : au lieu de les compter comme il a été conçu, il crée un petit programme qui compte les R et l'applique à le mot que nous avons demandé. Ce n'était pas le cas à l'origine, croyez-moi : il est probable que le comportement ait changé après que plusieurs utilisateurs ont rejeté la mauvaise solution.
Et c’est là qu’intervient la « magie » du nouveau modèle OpenAI, baptisé o1. Pour le moment, seules des versions préliminaires du modèle sont proposées, mais même ces versions constituent une avancée importante par rapport aux autres chatbots et modèles comme GPT-4o, car elles font simplement moins d'erreurs.
Dans l'une des vidéos de démonstration d'o1, l'un des responsables de son développement a précisément donné l'exemple des R dans le mot « Strawberry ». Le modèle o1 était capable de donner la bonne réponse rapidement, et selon ledit responsable,
« Avoir un raisonnement (capacité) intégré peut vous aider à éviter les erreurs, car vous pouvez examiner votre propre résultat, le réviser et être plus prudent. »
Cette affirmation est importante, mais trompeuse. Le modèle o1 « ne raisonne pas »du moins au sens « humain » du terme, car le modèle ne sait toujours pas ce qu'il dit. Ce qu’il fait, comme le souligne cet ingénieur à la fin, est quelque chose d’important.
Revoir.
C'est la véritable clé de o1, un modèle qui met plus de temps à répondre car il fonctionne probablement aussi vite que GPT-4o (ou peut-être plus rapidement) pour fournir une solution, mais ne la propose pas directement à l'utilisateur. Plutôt, Il l'examine et s'il trouve des erreurs, il effectue une nouvelle itération sur lui-même.corrigeant l'erreur, proposant à nouveau une solution et la révisant. Et ainsi de suite jusqu'à ce qu'il détecte qu'il n'y a pas d'erreur (ou qu'il pense qu'il n'y en a pas).
Ce processus itératif d'essais et d'erreurs semble être la base de o1, comme on peut le voir dans cette deuxième vidéo de démonstration. Le problème de puzzle posé avec l'âge de la princesse et du prince montre comment o1 affiche d'abord des messages dans lesquels il informe qu'il détecte les variables et les équations, puis les examine, résout le problème et valide la solution.
La réponse finale démontre précisément cette manière de traiter l’information et de résoudre le problème, mais elle n’est donnée qu’après avoir vérifié que tout s’est bien passé. Il ne répond pas premier et « comme un fou » comme pouvaient le faire ses prédécesseurs.
Tous sont trop confiants et leur ton clair et énergique nous fait comprendre que ce qu’ils nous disent sera toujours la bonne réponse, alors que ce n’est pas le cas. Avec o1 le ton clair et percutant reste similaire, mais ici au moins nous avons la garantie que le modèle a revu ce qu'il dit avant de nous le montrer.

Est-ce une révolution ? Je ne dirais pas grand-chose, et comme l'expert Gary Marcus l'a expliqué avec autant de clarté et de force, « ce n'est pas AGI, même pas proche ». C'est certainement un pas intéressant dans l'atténuation des erreurs et des hallucinations, et peut être particulièrement utile dans les scénarios où cela ne vous dérange pas d'attendre un peu plus longtemps pour éviter les erreurs et les mécanismes pour les corriger.
Nous en avons un bon exemple dans le monde de la programmation, où l’IA générative a pris son essor et est utilisée par la grande majorité des développeurs. Le problème est que, par exemple, ChatGPT échoue beaucoup plus qu’il ne le devrait dans ce domaine, et précisément en le faisant moins simplifiera encore plus la vie des programmeurs.


Les responsables de GitHub et ceux de Devin l'ont commenté, qui dans un article intéressant a expliqué que o1 représente effectivement un saut qualitatif important. Ils ont donné un exemple de tâche dans laquelle ils ont demandé à Devin d'analyser les publications de X à l'aide des bibliothèques d'apprentissage automatique textblob et text2emotion.
En essayant de résoudre le problème, Devin a généré le message suivant : « AttributeError : le module 'emoji' n'a pas d'attribut 'UNICODE_EMOJI'. » Alors que GPT-4o a essayé de résoudre cette exception, il a eu des ennuis car le problème n'était pas là, mais dans la version de la bibliothèque emoji. Le modèle o1-preview qu'ils ont utilisé « Je suis arrivé à la bonne conclusion en effectuant des recherches en ligne comme l'aurait fait un ingénieur humain »ils se sont démarqués.

Cela signifie-t-il que o1 ne fera pas d’erreurs ? Du tout. Le modèle fait encore des erreurs – ici un Sam Altman lui-même l'a prévenu en l'annonçant sur Twitter : « o1 est toujours buggé, il est toujours limité, et il semble toujours plus impressionnant à la première utilisation qu'après y avoir passé plus de temps. »
Et même ainsi, il s’agit d’une avancée singulière dans des scénarios dans lesquels il importe bien plus que la réponse soit correcte (avec une bonne probabilité) que qu’elle soit rapide. Il est probable qu'à l'avenir les deux choses convergent et nous avons des modèles capables de réviser (« raisonner ») et de répondre presque instantanément, et ce sera à ce moment-là, par exemple, que la capacité de parole du GPT-4o sera encore plus frappante.


À propos : les nouvelles options de synthèse vocale ne sont toujours pas disponibles, même pour les utilisateurs payants, et lorsqu'on lui a demandé à ce sujet, Altman a répondu avec une certaine arrogance en disant « et si tu disais merci pour quelques semaines pour cette intelligence magique tombée du ciel ». , et ensuite d'autres jouets arriveront ? »
À Simseo | Copilot, ChatGPT et GPT-4 ont changé à jamais le monde de la programmation. C'est ce que pensent les programmeurs
