Multimodalité comme le prochain grand saut pour l'IA
En tant que chef du laboratoire de traitement du langage naturel de l'EPFL, Antoine Bosselut garde de près le développement d'outils d'intelligence artificielle générative tels que Chatgpt. Il revient sur leur évolution au cours des deux dernières années et suggère quelques voies pour l'avenir.
Nous avons pris la parole il y a deux ans, lorsque Chatgpt est devenu public. Avec le recul, diriez-vous que c'était le début d'une nouvelle ère?
Oui, je pense qu'il y a eu en effet un « moment de chatpt » qui a changé le paradigme de l'IA de deux manières. Tout d'abord, d'un point de vue technique: nous sommes passés des systèmes basés sur les tâches aux systèmes basés sur l'instruction, ou ce que l'on appelle une IA générative. Avant ce moment Chatgpt, les systèmes d'IA individuels ont été formés pour effectuer des tâches très spécifiques.
ChatGpt a changé la donne, car vous pouviez convertir une multitude d'instructions en différentes sorties représentant une tâche donnée, toutes basées sur une énorme quantité de données utilisées pour former le système. Ce changement technique a également créé un changement perceptuel. Avec cette IA basée sur l'instruction, n'importe qui peut utiliser de tels systèmes, et le grand public a compris que l'IA pouvait être intégrée dans divers aspects de sa vie quotidienne.
Les concurrents ont rapidement lancé leurs propres solutions. Openai était-il vraiment un précurseur?
De nombreuses entreprises travaillaient déjà sur des approches similaires. Anthropic, qui a lancé Claude, a été fondée un an avant la sortie de Chatgpt, par un groupe d'anciens ingénieurs. Google travaillait depuis de nombreuses années sur des modèles d'apprentissage par instruction.
La version Openai était une étape par rapport à ce que quelqu'un d'autre avait fait, mais le véritable changement était qu'il avait réussi à mettre la technologie dans un produit. Cela a changé la perception des utilisateurs sur la maturité de cette technologie, ce qui a forcé un changement de concentration de tous les grands acteurs technologiques.
Qu'en est-il de Deepseek, lancé fin 2024? Est-ce différent des autres modèles?
Il’s trop tôt pour dire s'il s'agit d'un saut similaire à ce que nous avons vu il y a deux ans. Une grande partie de l'excitation autour de Deepseek est basée sur le coût, pas nécessairement de nouvelles capacités. La vérité est que nous ne faisons toujours pas’Je connais vraiment beaucoup sur ce modèle lui-même. Le prix qu'ils ont annoncé est basé sur le tour de formation final. Nous donnions’Je connais le coût du modèle pré-formé.
Le dire’S « Open-source » serait un tronçon. On peut utiliser son code pour l'intégrer dans d'autres applications et le développer davantage, mais nous ne faisons pas’Je sais vraiment quelles sont ses fondations depuis là’s peu d'informations sur les données de formation. Tu ne fais pas’Je sais ce que tu’Rediffusation sur le dessus de.
Nous voyons une course massive pour investir dans l'IA: les États-Unis ont annoncé 500 milliards de dollars, l'Europe a mentionné 200 milliards d'euros. Cela vaut-il vraiment la peine de dépenser autant d'argent?
Toi’Je vais quand même dépenser cet argent; La question est, qui l'obtient? L'IA ne va nulle part et continuera de se développer en tant que technologie que les gens utilisent chaque jour. Si l'Europe ne parvient pas à développer des solutions de génération d'IA convaincantes, les utilisateurs se tourneront vers nous ou des services chinois, avec tous les risques que cela impliquent autour de la souveraineté.
Qu'en est-il du lieu de la Suisse dans tout cela?
EPFL et ETH Zurich sont excellents pour former la prochaine génération de spécialistes, développant des connaissances théoriques solides et la mettant à la disposition de la société dans son ensemble, fournissant ainsi une alternative de confiance aux outils étrangers. À cet égard, c'est exactement ce que l'initiative Suisse IA et l'institut national d'IA suisse ont été créés pour faire – en train de faire la jeune génération d'ingénieurs et de scientifiques, les mettent à la disposition de la société.
Laisser’S Revenons à la grande partie des modèles. Y a-t-il un risque que la pollution des données de formation – en particulier par les données générées par l'IA elle-même – nuise à sa qualité?
Il y a un risque théorique. Mais paradoxalement, grâce aux filtres et au nettoyage des résultats qui sont développés en parallèle, les données synthétiques qui servent de sources sont plutôt de très haute qualité. Inversement, beaucoup de contenu non filtré généré par les humains peuvent être faux ou biaisés. Par conséquent, il’est difficile de dire si cette peur est justifiée.
Dans quel domaine prévoyez-vous que l'IA générative jouant un rôle majeur?
Il pourrait être plus facile de penser aux champs dans lesquels l'IA a gagné’t jouer n'importe quel rôle… il y a des champs – santé, sécurité nationale, informations confidentielles – dans les données sensibles, afin que nous puissions’T transfèrent facilement les serveurs où les systèmes d'IA génératifs sont hébergés. La confiance envers ces systèmes et leurs propriétaires resteront un point d'interrogation pendant de nombreuses années.
Jusqu'à présent, nous’VE a observé un saut technologique tous les deux à trois ans. Quoi’S suivant?
Malgré les capacités toujours accélérantes de ces modèles, elles restent fondamentalement basées sur le texte. En termes concrètes, tout aujourd'hui est basé sur un vocabulaire d'environ 50 000 mots. Cela peut suffire à donner aux utilisateurs humains l'impression que la machine est capable de raisonner. Mais le raisonnement humain est beaucoup plus complexe et utilise également d'autres modes de perception: les solides, les images ou même les odeurs.
Je pense que la prochaine grande évolution viendra lorsque les modèles seront également en mesure d'intégrer directement d'autres types de contenu, tels que des images, des sons et des vidéos. Cette « IA multimodale » se rapprochera alors encore plus de la « pensée » artificielle – même si sa définition reste plus philosophique que technique.
