Openai bat Deepseek sur le raisonnement au niveau de la phrase

Openai bat Deepseek sur le raisonnement au niveau de la phrase

Chatgpt et d’autres chatbots d’IA basés sur des modèles de grands langues sont connus pour inventer des choses, y compris les citations scientifiques et juridiques. Il s’avère que la mesure de la précision des citations d’un modèle d’IA est un bon moyen d’évaluer les capacités de raisonnement du modèle.

Un modèle d’IA « raisonne » en décomposant une requête en étapes et en les travaillant dans l’ordre. Pensez à la façon dont vous avez appris à résoudre des problèmes de mots mathématiques à l’école.

Idéalement, pour générer des citations, un modèle d’IA comprendrait les concepts clés d’un document, générer une liste classée des articles pertinents à citer et fournir un raisonnement convaincant sur la façon dont chaque article suggéré soutient le texte correspondant. Il mettrait en évidence des connexions spécifiques entre le texte et la recherche citée, clarifiant pourquoi chaque source est importante.

La question est de savoir si les modèles d’aujourd’hui peuvent faire confiance pour établir ces connexions et fournir un raisonnement clair qui justifie leurs choix de source? La réponse va au-delà de la précision de la citation pour résoudre l’utilité des modèles de grande langue utiles et précis à des fins de récupération d’informations.

Je suis un informaticien. Mes collègues – des chercheurs de l’Institut AI de l’Université de Caroline du Sud, de l’Ohio State University et de l’Université du Maryland Baltimore County – et j’ai développé les raisons de référence pour tester la façon dont les modèles de langue importants peuvent générer automatiquement des citations de recherche et fournir un raisonnement compréhensible.

Nous avons utilisé la référence pour comparer les performances de deux modèles de raisonnement AI populaires, R1 de Deepseek et O1 d’OpenAI. Bien que Deepseek ait fait la une des journaux avec son efficacité étonnante et sa rentabilité, le parvenu chinois a un chemin à parcourir pour correspondre aux performances du raisonnement d’Openai.

Spécifique à la phrase

La précision des citations a beaucoup à voir avec le fait que le modèle d’IA raisonne sur les informations au niveau de la phrase plutôt que le niveau de paragraphe ou de document. Les citations au niveau des paragraphes et au niveau des documents peuvent être considérées comme jetant une grande partie des informations dans un grand modèle de langue et lui demandant de fournir de nombreuses citations.

Dans ce processus, le modèle grand langage généralise et interprète mal les phrases individuelles. L’utilisateur se retrouve avec des citations qui expliquent l’ensemble du paragraphe ou du document, pas les informations à grain relativement fin de la phrase.

De plus, le raisonnement souffre lorsque vous demandez au modèle de grande langue de lire un document entier. Ces modèles reposent principalement sur des modèles de mémorisation qu’ils sont généralement meilleurs pour trouver au début et à la fin des textes plus longs qu’au milieu. Cela rend difficile pour eux de comprendre pleinement toutes les informations importantes à travers un long document.

Les modèles de grande langue sont confus car les paragraphes et les documents contiennent de nombreuses informations, ce qui affecte la génération de citations et le processus de raisonnement. Par conséquent, le raisonnement à partir de modèles de grande langue sur les paragraphes et les documents ressemble davantage à résumer ou à paraphraser.

Les raisons de référence abordent cette faiblesse en examinant la génération et le raisonnement de citation des modèles de grande langue.

Tester les citations et le raisonnement

Après la publication de Deepseek R1 en janvier 2025, nous voulions examiner sa précision dans la génération de citations et sa qualité de raisonnement et la comparer avec le modèle O1 d’Openai. Nous avons créé un paragraphe qui avait des phrases de différentes sources, donné aux modèles des phrases individuelles de ce paragraphe et avons demandé des citations et un raisonnement.

Pour commencer notre test, nous avons développé un petit banc d’essai d’environ 4 100 articles de recherche autour de quatre sujets clés qui sont liés au cerveau humain et à l’informatique: les neurones et la cognition, l’interaction humaine-ordinateur, les bases de données et l’intelligence artificielle. Nous avons évalué les modèles en utilisant deux mesures: le score F-1, qui mesure la précision de la citation fournie et le taux d’hallucination, qui mesure le son du raisonnement du modèle – c’est-à-dire à quelle fréquence il produit une réponse inexacte ou trompeuse.

Nos tests ont révélé des différences de performances significatives entre OpenAI O1 et Deepseek R1 dans différents domaines scientifiques. L’O1 d’OpenAI a bien connecté des informations entre différents sujets, tels que la compréhension de la façon dont la recherche sur les neurones et la cognition se connecte à l’interaction humaine-ordinateur, puis aux concepts de l’intelligence artificielle, tout en restant précis. Ses métriques de performance ont constamment dépassé les R1 profonds dans toutes les catégories d’évaluation, en particulier pour réduire les hallucinations et accomplir avec succès les tâches assignées.

OpenAI O1 était mieux pour combiner des idées sémantiquement, tandis que R1 s’est concentré sur la garantie qu’il a généré une réponse pour chaque tâche d’attribution, ce qui à son tour a augmenté l’hallucination pendant le raisonnement. Openai O1 avait un taux d’hallucination d’environ 35% par rapport au taux de profondeur de R1 de près de 85% dans la tâche de raisonnement basée sur l’attribution.

En termes de précision et de compétence linguistique, Openai O1 a marqué environ 0,65 sur le test F-1, ce qui signifie qu’il était juste environ 65% du temps pour répondre aux questions. Il a également obtenu environ 0,70 sur le test BLEU, qui mesure la façon dont un modèle de langue écrit en langage naturel. Ce sont de très bons scores.

Deepseek R1 a obtenu un score inférieur, avec environ 0,35 sur le test F-1, ce qui signifie qu’il avait raison d’environ 35% du temps. Cependant, son score BLEU n’était qu’environ 0,2, ce qui signifie que son écriture n’était pas aussi naturel que l’O1 d’Openai. Cela montre que l’O1 était mieux dans la présentation de ces informations en langue claire et naturelle.

Openai détient l’avantage

Sur d’autres références, Deepseek R1 se produit à égalité avec Openai O1 sur les tâches mathématiques, codantes et scientifiques. Mais la différence substantielle sur notre référence suggère que O1 fournit des informations plus fiables, tandis que R1 se débat avec la cohérence factuelle.

Bien que nous ayons inclus d’autres modèles dans nos tests complets, l’écart de performance entre O1 et R1 met en évidence spécifiquement le paysage concurrentiel actuel dans le développement de l’IA, l’offre d’OpenAI conservant un avantage significatif dans les capacités de raisonnement et d’intégration des connaissances.

Ces résultats suggèrent qu’Openai a encore une longueur d’avance en ce qui concerne l’attribution et le raisonnement de la source, peut-être en raison de la nature et du volume des données sur lesquelles elle a été formée. La société a récemment annoncé son outil de recherche en profondeur, qui peut créer des rapports avec des citations, poser des questions de suivi et fournir un raisonnement à la réponse générée.

Le jury est toujours sur la valeur de l’outil pour les chercheurs, mais la mise en garde demeure pour tout le monde: revérifiez toutes les citations qu’une IA vous donne.