Les LLM sont plus aptes à prédire ce qui vient ensuite que ce qui vient avant

Des chercheurs ont découvert que les grands modèles linguistiques de l'IA, comme GPT-4, sont plus efficaces pour prédire ce qui vient après que ce qui vient avant dans une phrase. Cet effet de « flèche du temps » pourrait remodeler notre compréhension de la structure du langage naturel et la façon dont ces modèles le comprennent.

Les grands modèles linguistiques (LLM) tels que GPT-4 sont devenus indispensables pour des tâches telles que la génération de texte, le codage, l’utilisation de chatbots, la traduction et bien d’autres. À la base, les LLM fonctionnent en prédisant le mot suivant dans une phrase en fonction des mots précédents, une idée simple mais puissante qui motive une grande partie de leur fonctionnalité.

Mais que se passe-t-il lorsque nous demandons à ces modèles de prédire à rebours, de « remonter dans le temps » et de déterminer le mot précédent à partir des suivants ?

Cette question a conduit le professeur Clément Hongler de l’EPFL et Jérémie Wenger de Goldsmiths (Londres) à étudier si les LLM pouvaient construire une histoire à l’envers, en partant de la fin. En collaboration avec Vassilis Papadopoulos, chercheur en apprentissage automatique à l’EPFL, ils ont découvert quelque chose de surprenant : les LLM sont systématiquement moins précis dans leurs prédictions à l’envers que dans celles à l’endroit.

Une asymétrie fondamentale

Les chercheurs ont testé des LLM de différentes architectures et tailles, notamment des transformateurs pré-entraînés génératifs (GPT), des unités récurrentes à portes (GRU) et des réseaux neuronaux à mémoire à long terme (LSTM). Chacun d'entre eux a montré le biais de la « flèche du temps », révélant une asymétrie fondamentale dans la façon dont les LLM traitent le texte.

Hongler explique : « Cette découverte montre que même si les modèles de langage sont très efficaces pour prédire le mot suivant et le mot précédent dans un texte, ils sont toujours légèrement moins performants dans le sens inverse que dans le sens inverse : leur performance pour prédire le mot précédent est toujours de quelques pour cent inférieure à celle pour prédire le mot suivant. Ce phénomène est universel dans toutes les langues et peut être observé avec n'importe quel grand modèle linguistique. »

Ces travaux sont également liés aux travaux de Claude Shannon, le père de la théorie de l’information, dans son article fondateur de 1951. Shannon a cherché à savoir si prédire la lettre suivante d’une séquence était aussi facile que prédire la lettre précédente. Il a découvert que, même si les deux tâches devraient théoriquement être aussi difficiles, les humains trouvaient la prédiction rétrospective plus difficile, même si la différence de performance était minime.

Agents intelligents

« En théorie, il ne devrait pas y avoir de différence entre les directions avant et arrière, mais les LLM semblent être d'une certaine manière sensibles à la direction temporelle dans laquelle ils traitent le texte », explique Hongler. « Il est intéressant de noter que cela est lié à une propriété profonde de la structure du langage qui n'a pu être découverte qu'avec l'émergence de grands modèles linguistiques au cours des cinq dernières années. »

Les chercheurs associent cette propriété à la présence d'agents intelligents traitant l'information, ce qui signifie qu'elle pourrait être utilisée comme un outil pour détecter l'intelligence ou la vie, et aider à concevoir des LLM plus puissants. Enfin, elle pourrait ouvrir de nouvelles voies à la quête de longue date visant à comprendre le passage du temps en tant que phénomène émergent en physique.

L'ouvrage est publié sur le arXiv serveur de préimpression.

Du théâtre aux mathématiques

L'étude elle-même a une histoire fascinante, que Hongler raconte. « En 2020, avec Jérémie [Wenger]nous collaborions avec l'école de théâtre The Manufacture pour réaliser un chatbot qui jouerait aux côtés des acteurs pour faire de l'impro ; en impro, on a souvent envie de continuer l'histoire, tout en sachant à quoi doit ressembler la fin.

« Pour créer des histoires qui se terminent d'une manière spécifique, nous avons eu l'idée d'entraîner le chatbot à parler « à l'envers », ce qui lui permet de générer une histoire en fonction de sa fin. Par exemple, si la fin est « ils vécurent heureux pour toujours », le modèle pourrait vous dire comment cela s'est passé. Nous avons donc entraîné les modèles à faire cela et nous avons remarqué qu'ils étaient un peu moins bons à l'envers qu'à l'endroit.

« Avec Vassilis [Papadopoulos]nous avons réalisé plus tard que c'était une caractéristique profonde du langage, et que c'était un phénomène complètement nouveau, qui a des liens profonds avec le passage du temps, l'intelligence et la notion de causalité. Plutôt cool pour un projet de théâtre. »

L'enthousiasme de Hongler pour cette œuvre est en grande partie dû aux surprises inattendues qui se sont présentées en cours de route. « Seul le temps pouvait dire que ce qui avait commencé comme un projet théâtral finirait par nous donner de nouveaux outils pour comprendre tant de choses sur le monde. »