Qu'est-ce qu'un jeton lorsque nous parlons d'IA et pourquoi est-il important que Gemini en prenne en charge un million

Lorsqu'une entreprise comme OpenAI ou Google présente quelque chose de nouveau lié à ses modèles de langage (GPT, Gemini), il est normal qu'elle se vante de jetons. Des jetons, des jetons, des jetons. L'autre jour, lors de Google I/O, la société de Mountain View a mis un accent particulier sur le fait que Gemini 1.5 Pro prend en charge un million de tokens et dans certains cas, jusqu'à deux millions. La question est : qu’est-ce qu’un jeton exactement quand on parle d’intelligence artificielle ? De plus, pourquoi devrions-nous nous en soucier ? Débarrassons-nous des doutes.

Qu'est-ce qu'un jeton ? Commençons par les bases. Le moyen le plus simple de comprendre les jetons est de les imaginer comme des fragments de mots, comme l’unité minimale de texte dans un modèle d’IA. Lorsque nous saisissons un texte dans ChatGPT ou Gemini, le modèle prend ce texte, le divise à l'aide d'un algorithme de tokenisation en fragments plus petits en suivant certaines règles (par exemple, commence-t-il par une lettre majuscule ? A-t-il un point à la fin ? il a un accent ?) et le traite.

Blague des Gémeaux

Elle sera aussi intelligente que vous le souhaitez, mais ils ne gèrent pas bien l'humour | Capture : Simseo

Bien que nous puissions faire l’association « un jeton, un mot », il n’est pas obligatoire qu’il en soit ainsi. En fait, un mot en anglais n’utilise pas les mêmes symboles que le même mot en espagnol ou en français. Les jetons ne sont pas coupés exactement là où commencent et se terminent les mots, car ils peuvent inclure des espaces de fin, des sous-mots, des points, des virgules, des émojis…

Pouvez-vous m'expliquer avec un exemple ? Bien sûr. Nous utiliserons le texte suivant, qui est le premier paragraphe de « Don Quichotte de la Manche ». Nous voyons le texte comme suit :

« Dans un endroit de La Manche, dont je ne veux pas me souvenir du nom, vivait il n'y a pas longtemps un de ces messieurs avec une lance dans un chantier naval, un vieux bouclier, un canasson maigre et un lévrier de course. Un pot de quelque chose de plus de bœuf que de mouton, saupoudré de plus de nuits, de duels et de défaites le samedi, de lentilles le vendredi, de palomino supplémentaire le dimanche, ils consommaient trois parties de leur propriété, le reste comprenait une chemise de nuit, des leggings en laine pour les vacances, avec. leurs pantoufles de même et, les jours de semaine, il s'honorait de son plus beau velours.

Eh bien, si nous le mettons dans une IA comme GPT-4, l'algorithme de tokenisation le divisera en jetons et le décomposera en unités minimales d'informations comme suit :

Le premier paragraphe de Don Quichotte équivaut à 174 jetons | Capture : Simseo

Si on ajoute le même paragraphe, mais en anglais :

« Dans un village de La Mancha, dont je n'ai pas envie de rappeler le nom, vivait il n'y a pas longtemps un de ces messieurs qui gardaient une lance dans le porte-lance, un vieux bouclier, un maigre hache et un un lévrier comme plat. Un pot d'un peu plus de bœuf que de mouton, une salade la plupart des soirs, des restes le samedi, des lentilles le vendredi et un pigeon en plus le dimanche, emporté les trois quarts de ses revenus. pourpoint de drap fin et culottes et chaussures de velours assorties pour les vacances, tandis que les jours de semaine, il faisait une figure courageuse dans son plus beau tissu de maison.

GPT-4 le divise comme suit :

Le premier paragraphe de Don Quichotte en anglais équivaut à 138 jetons | Capture : Simseo

Et combien de mots représente un jeton ? Cela dépend de la langue, du contexte, de la phrase… C'est quelque chose de plus complexe que de dire « un signe, un mot ». Cependant, une règle de base que nous pouvons utiliser est celle proposée par OpenAI :

Un jeton ± quatre caractères anglais ou 3/4 de mot.
100 jetons ± 75 mots.
Un paragraphe ± 100 jetons.
1 500 mots : 2 048 jetons.
Jusqu'à présent cet article, y compris cette dernière ligne : 724 jetons.

La fenêtre contextuelle. Maintenant que nous savons ce qu'est un token, il est temps de passer à un autre concept important : la fenêtre contextuelle. Comment utiliser ChatGPT, Gemini et compagnie ? Généralement, nous lui envoyons un texte et il renvoie une réponse sous forme de texte. Autrement dit, nous envoyons un texte, il est converti en jetons, ils sont traités et une réponse est générée sous la forme de jetons que nous considérons comme un, deux ou autant de paragraphes que GPT, Gemini et la société jugent appropriés.

OpenAI vient de nous rapprocher plus que jamais de 'Elle' : son nouveau modèle de voix nous accompagnera (et nous fera peut-être tomber amoureux)

Eh bien, le nombre maximum de jetons qu'un modèle peut traiter à la fois s'appelle la fenêtre contextuelle. Plus la fenêtre contextuelle est grande, plus nous pouvons inclure d'informations en entrée afin que l'IA puisse ensuite nous répondre sur la base de toutes ces informations.

Et cela veut dire… Reprenons un autre exemple : « José ferma la porte et se dirigea vers le salon ». Qu'avons-nous dans cette phrase ? Des mots, oui, mais dans un contexte. Nous savons que « José » est probablement le protagoniste de l'histoire, que « fermé » fait référence à une action physique au passé et que « porte » est un objet qui permet d'entrer ou de sortir d'une pièce. Nous savons également que « tête » signifie mouvement et que « hall » est probablement un endroit spécifique dans une maison.

Dans ce cas, l’IA comprend parfaitement ce que l’on veut dire car la phrase est très courte, elle n’a pratiquement pas besoin de jetons. Mais que se passe-t-il si on met 20 PDF de 300 pages chacun ? Les choses changent. Nous aurons besoin d'une fenêtre contextuelle beaucoup plus grande pour que le modèle puisse gérer autant d'informations à la fois.

ChatGPT comprend non seulement le texte, mais nous permet également d'utiliser l'IA via l'audio | Image : Solen Feyissa sur Pexels

IA multimodale. Jusqu'à présent, nous avons parlé de texte, mais la vérité est que la tendance est au multimodal. Une IA multimodale est une IA qui non seulement comprend le texte, mais peut traiter plusieurs types de données en même temps, comme le texte, la vidéo et l'audio. Le projet Astra ou les dernières avancées d’OpenAI sont justement des exemples d’intelligence artificielle multimodale. Et en effet, une heure de vidéo n’équivaut pas à dix pages de texte.

Pourquoi sommes-nous intéressés par une fenêtre contextuelle plus grande ? Car l’intelligence artificielle multimodale doit traiter beaucoup d’informations en même temps. Pensez à toutes les entrées que peut contenir une vidéo marchant dans la rue en seulement dix secondes : noms, panneaux, nombre de personnes, couleurs de vêtements, magasins, restaurants…

Qu'une IA dispose d'une fenêtre contextuelle d'un ou deux millions de jetons n'est pas pour qu'elle puisse comprendre une thèse de doctorat en texte (ça aussi), mais pour travailler avec des textes, des audios et des vidéos de plus en plus longs et obtenir des informations, des réponses et tout. de données provenant d’eux.

Images | Solen Feyissa sur Pexels

À Simseo | Grâce à GPT-4o, ChatGPT devient le professeur particulier idéal. C'est une autre révolution pour l'enseignement