GPT-4 arrivera la semaine prochaine selon Microsoft. Et sa grande nouveauté, c'est qu'il sera "multimodal"

Cette semaine, quatre ingénieurs de Microsoft dans sa division allemande ont organisé un événement dédié à la révolution que les LLM (Large Language Models) comme GPT apportent à l’entreprise. Dans le cadre de cette conférence, ils ont donné des détails surprenants sur la nouvelle version attendue du modèle OpenAI.

GPT-4. Lorsque GPT-3 est apparu en 2020, c’était sous la forme d’une bêta privée. Cela a empêché ce modèle de démontrer sa capacité, mais en 2022, l’apparition de ChatGPT – basé sur une itération de GPT-3 – a tout changé. Depuis des mois, on parle de ce qui nous attend avec GPT-4, et le CTO de Microsoft en Allemagne, Andreas Braun, a déclaré selon Heise en ligne que ce moteur arrivera la semaine prochaine.

Cosmos-1. L’arrivée du GPT-4 semblait particulièrement proche après l’annonce par Microsoft début mars de la lancement de Kosmos-1, un modèle de grand langage multimodal (MLLM) qui répond non seulement aux invites de texte, mais aussi aux images. Cela le fait se comporter d’une certaine manière comme Google Lens et est capable d’extraire des informations et du contexte d’une image.

plus grand mieux. L’une des caractéristiques claires attendues de GPT-4 est qu’il a une taille plus grande que GPT-3. Bien que cela ait 175 milliards de paramètres, on parle que GPT-4 aura 100 billions de paramètres, ce que Sam Altman, PDG d’AI, a expliqué « est complètement stupide ». Néanmoins, ce qui est certain, c’est qu’il sera plus grand, ce qui lui permettra de pouvoir répondre à des situations plus complexes et de générer des réponses encore plus « humaines ».

Multimodal ? C’est l’une des grandes innovations – si ce n’est la plus grande – de GPT-4, un modèle multimodal qui, comme déjà décrit dans Kosmos-1, permettra à l’entrée de provenir de différentes sources ou « modalités » telles que du texte – ce qui est utilisé dans ChatGPT—, images, vidéo, voix parlée ou autres formats.

Donnez-moi des données, je les analyse déjà. Ces modèles utilisent l’apprentissage en profondeur et le traitement du langage naturel pour comprendre les relations et les corrélations entre ces différents types de données. En combinant plusieurs « modalités », le modèle d’IA peut améliorer sa précision et fournir une analyse de données complexes.

Un exemple : la vidéo. Une application pratique immédiate de ces modèles est celle de la vidéo. Avec GPT-4, théoriquement, une vidéo et son audio associé peuvent être donnés en entrée afin que le moteur comprenne la conversation et même les émotions de ceux qui y participent. Vous pourrez également reconnaître des objets (ou des personnes) et extraire des informations. Ainsi, on pourrait obtenir un résumé d’un film ou d’une vidéo YouTube comme nous recevons maintenant des résumés de réunion.

gagner du temps. L’un des ingénieurs de Microsoft a souligné à quel point ce type de moteur serait utile dans les centres d’appels, où GPT-4 pourrait transcrire les appels puis les résumer, ce que les agents humains doivent normalement faire. Selon ses estimations, cela pourrait faire gagner 500 heures de travail par jour à un client Microsoft aux Pays-Bas qui reçoit 30 000 appels par jour : le prototype a été créé en deux heures, un développeur a passé quelques semaines dessus et le résultat a été apparemment un succès.

GPT-4 continuera à faire des erreurs. Même si le nouveau modèle sera sans aucun doute plus puissant, chez Microsoft ils ont tenu à préciser que l’intelligence artificielle ne répondra pas toujours correctement et qu’il faudra valider les réponses.

Au cas où, soyons prudents. L’attente avec GPT-4 est énorme, et en fait même Sam Altman lui-même, PDG d’OpenAI, a déjà clairement indiqué il y a des semaines que l’industrie et les utilisateurs devraient réduire ces attentes parce que « les gens pleurent d’être déçus, et c’est ce qui va arriver. »

À Simseo | « Je ne pouvais pas m’endormir en le regardant grandir »: nous avons parlé au créateur d’Abbreviame, le bot viral basé sur ChatGPT