Quelqu'un a donné à Gemini 1.5 une vidéo de lui en train de faire de l'exercice. Il est capable de devenir entraîneur personnel

L’introduction il y a quelques jours de Gemini 1.5 s’est déroulée sur la pointe des pieds autour de la technologie actuelle, mais ce modèle d’IA de Google est peut-être bien plus intéressant qu’on ne le pense a priori. Surtout, pour sa capacité d’analyse vidéo, l’une des caractéristiques qui démontre que les chatbots multimodaux – qui acceptent la vidéo, le texte ou les images en entrée – sont une évolution prometteuse des ChatGPT du monde.

Gémeaux, regarde comment je fais de l’exercice. Mckay Wrigley, développeur de solutions d’IA, expliqué sur Twitter comment il a enregistré une vidéo d’environ 21 minutes en soulevant des poids, puis a téléchargé cette vidéo sur Gemini pour analyse. Le résultat était surprenant.

Mon entraîneur personnel est une IA. Ce développeur a demandé à Gemini 1.5 de créer un fichier JSON avec le nom de chaque exercice, le nombre de séries, les répétitions par exercice, le poids et surtout de générer une série de recommandations basées sur la vidéo. Après soixante-dix secondes, il l’a fait parfaitement. Selon lui, l’idée a fonctionné exceptionnellement bien et confirmait qu’un système comme celui-ci pouvait servir d’entraîneur personnel basé sur l’IA.

Et cela pourrait être combiné avec d’autres données. En fait, selon Wrigley, d’autres informations pourraient être ajoutées à ces informations, comme certaines données médicales, des enregistrements de notre alimentation, des photos de progrès, permettant ainsi à ce chatbot de s’adapter parfaitement à ce domaine pour créer un entraîneur personnel et diététiste encore plus intéressant.

Un bon cas d’utilisation pour le GPT Store. Ce type d’application donne une idée de la direction que peuvent prendre les choses dans l’OpenAI GPT Store. Avec ChatGPT Plus vous avez accès à la création de chatbots personnalisés, et vous pourrez bien sûr analyser notre entraînement physique et ensuite nous donner des conseils aussi bien pour perfectionner ces exercices que pour les varier et améliorer ces routines.

La promesse des chatbots multimodaux. L’introduction de Gemini 1.5 a démontré que ce type d’option multimodale peut être très pertinent. Le modèle peut également recevoir en entrée environ 700 000 mots à la fois (environ 30 000 lignes de code), en plus de jusqu’à 11 heures d’audio et une heure de vidéo à analyser ultérieurement. À partir de là, les options sont très larges, qu’il s’agisse d’analyser ces entrées ou de travailler avec elles.

Analysez et résumez-moi cette vidéo. Cette capacité est facilement démontrée dans Gemini 1.5 en lui demandant d’analyser n’importe quelle vidéo YouTube et de la résumer pour nous en quelques points clés. Nous l’avons essayé avec une vidéo de notre chaîne Simseo, mais l’espagnol n’est pas pris en charge pour le moment, nous avons donc essayé l’une des dernières vidéos MKBHD. En seulement 10 secondes, il a réalisé un résumé remarquable du contenu.

Images | John Arano

À Simseo | Nous avons demandé à deux nutritionnistes d’évaluer aveuglément un menu hebdomadaire créé avec GPT-4. ça s’est très bien passé