Les derniers modèles OpenAI inventent plus du compte

L’intelligence artificielle (IA) n’évolue pas: elle décolle. En seulement deux ans et demi, nous sommes passés de GPT-3.5 à GPT-4O, et celui qui a essayé les deux sait: la différence dans l’expérience de conversation est énorme. GPT-3.5 a marqué A avant et après lors de l’inauguration de l’ère Chatgpt, mais aujourd’hui, personne ne l’utiliserait probablement à nouveau s’il avait des modèles plus avancés.

Maintenant, qu’est-ce que cela signifie qu’un modèle est plus avancé? La réponse est complexe. Nous parlons de Windows de contexte plus larges (c’est-à-dire la possibilité de lire et de traiter plus d’informations en même temps), de résultats plus élaborés et, en théorie, de moins d’erreurs. Mais il y a un point qui est encore épineux: les hallucinations. Et ne progressez pas toujours dans la bonne direction.

Que sont les hallucinations? Dans l’IA, halluciner signifie inventer des choses. Ce sont des réponses qui sonnent bien, même convaincantes, mais qui sont fausses. Le modèle ne ment pas car il veut, il génère simplement du texte en fonction des modèles. Si vous n’avez pas assez de données, vous les imaginez. Et cela peut passer inaperçu. Il y a le risque.

O3 et O4-Mini: plus de raisonnement, plus d’erreurs. En septembre de l’année dernière, les modèles de raisonnement So-Salled sont arrivés. Ils ont supposé un saut important: ils ont introduit une sorte de chaîne de pensée qui a amélioré leurs performances dans des tâches complexes. Mais ils n’étaient pas parfaits. O1-Pro était plus cher que O3-MinI, et pas toujours plus efficace. Malgré cela, toute cette ligne a été présentée avec une promesse: réduire les hallucinations.

Le problème est que, selon les propres données d’Openai, cela ne se produit pas. TechCrunch cite un rapport technique de l’entreprise où il est reconnu que O3 et O4-Mini hallucinent plus que ses prédécesseurs. Littéralement. Dans les tests internes avec PersonQA, O3 a échoué dans 33% des réponses, deux fois en O1 et O3-MinI. O4-MinI a aggravé les choses: 48%.

D’autres analyses, telles que le laboratoire indépendant, montrent que O3 a même inventé des actions: il a dit qu’il avait exécuté du code dans un MacBook Pro en dehors de Chatgpt et avait ensuite copié les résultats. Quelque chose qui ne peut tout simplement pas faire.

Les États-Unis offrent à Huawei une excellente occasion: obtenir sa nouvelle puce pour l'IA avec le marché Nvidia en Chine

Un défi qui est toujours en attente. L’idée d’avoir des modèles qui n’hallucinent pas semble fantastique. Ce serait l’étape définitive de faire pleinement confiance à vos réponses. Mais, en attendant, il est temps de vivre avec ce problème. Surtout lorsque nous utilisons l’IA pour les tâches délicates: résumer des documents, consulter des données, préparer des rapports. Dans ces cas, il doit être examiné à deux fois.

Parce qu’il y a déjà eu de graves erreurs. Le plus populaire était celui d’un avocat qui a présenté aux documents du juge généré par Chatgpt. Ils étaient convaincants, oui, mais aussi fictifs: le modèle a inventé plusieurs affaires juridiques. L’IA avancera, mais le jugement critique, pour le moment, reste notre truc.

Images | Simseo avec chatgpt | Openai

Dans Simseo | Certains utilisateurs utilisent Openai O3 et O4-Mini pour découvrir l’emplacement des photos: c’est un cauchemar pour la vie privée

Dans Simseo | Si vous avez déjà eu peur de vous poursuivre un robot, la Chine a organisé un demi-marathon pour respirer calme