Vers une IA à la fois générative et explicable

Laure Sanita. Crédit : Université Bocconi

Les dernières avancées en matière d’intelligence artificielle (IA) s’appuient sur des réseaux de neurones profonds, un type spécifique de système d’IA. Aujourd’hui, leurs applications sont connues du grand public dans plusieurs domaines, notamment les modèles dits de grande langue capables de produire des textes et des conversations ressemblant à des humains (ChatGPT, Bing AI, Bard) et les modèles génératifs text-to-image. qui peuvent produire des images saisissantes à partir de légendes de texte (DALL-E 2, Imagen, Stable Diffusion, Midjourney), ainsi que d’autres liées à la reconnaissance, la production et la traduction de la parole et du son.

Qu’est-ce qui explique le succès de ces techniques ? Les domaines dans lesquels ces succès se sont produits ne sont pas aléatoires ou aléatoires, mais plutôt parfaitement adaptés aux forces des réseaux de neurones tels qu’ils existent aujourd’hui. En effet, les réseaux de neurones sont capables d’émuler des actions complexes, même lorsqu’elles sont difficiles à définir en termes précis, tant que nous pouvons leur fournir d’énormes quantités d’exemples à partir desquels apprendre. Par exemple, il est difficile de définir une image, un son ou un texte « beaux » ou même « bien formés », en termes mathématiques précis. Nous avons, cependant, de grandes quantités de chacun à apprendre.

Cependant, un grand défi auquel l’IA est actuellement confrontée pour élargir sa gamme d’applications est que les réseaux de neurones profonds sont impénétrables. En effet, les fondements des systèmes d’IA actuels sont essentiellement un gigantesque tableau de chiffres. Ce ne sont pas n’importe quels nombres aléatoires : les systèmes d’IA trouvent les nombres qui leur permettent de reproduire au mieux les exemples dont ils ont tiré des leçons. Cependant, la taille et la composition du tableau deviennent si complexes qu’elles sont dépourvues de toute véritable structure sémantique. En conséquence, nous ne comprenons comment les réseaux de neurones fonctionnent que dans un sens superficiel : nous pourrions calculer les chiffres et reproduire n’importe quelle sortie à partir d’une sortie donnée.

Mais nous ne savons pratiquement rien au-delà de cela. Pour cette raison, ils sont appelés systèmes de boîte noire, notoirement incapables de fournir une justification de leur production. Cela peut convenir pour certaines génération d’images, de textes ou de sons : une pièce laide ou malformée ne compromet pas l’utilité de l’outil si beaucoup d’autres sont bonnes. Cependant, il pourrait être décidément inapproprié pour des décisions politiques, éthiques, financières ou commerciales : ici, on veut être en mesure d’expliquer pourquoi une certaine décision est considérée comme la bonne. De plus, imiter les processus de décision passés sans avoir/comprendre la logique sous-jacente pourrait nous faire oublier d’éventuels biais ou erreurs latentes.

Afin d’élargir l’applicabilité de l’IA, il convient donc d’adopter des algorithmes qui justifient leurs réponses (« IA explicable »). Pour les réseaux de neurones, cela implique de compléter les efforts d’ingénierie massifs des dernières années (qui ont amené les récents résultats étonnants) avec une compréhension plus profonde de leur structure d’un point de vue mathématique et théorique. Les approches d’optimisation mathématique sont une voie privilégiée pour combler ce manque de compréhension.

À elle seule, l’optimisation est l’instrument clé pour résoudre de nombreux problèmes d’exploitation. En gros, il s’agit de sélectionner la meilleure solution pour un problème donné, parmi un ensemble de solutions possibles. Le point crucial est de prouver formellement (c’est-à-dire d’expliquer) l’optimalité d’une solution donnée sans énumérer toutes les possibilités, mais plutôt en exploitant la structure mathématique du problème considéré. Sans surprise, l’optimisation est un pilier des fondements mathématiques de l’IA moderne.

En effet, de tels systèmes traitent de trouver les algorithmes et les paramètres qui modélisent le mieux une tâche donnée, et cela, en soi, peut être vu comme un problème d’optimisation. De plus, les problèmes d’optimisation sont souvent formalisés comme la maximisation d’une fonction objectif soumise à des contraintes données, où l’objectif et les contraintes sont spécifiés en des termes facilement compréhensibles par les humains. C’est pourquoi le renforcement de l’interaction des systèmes d’IA et des techniques d’optimisation peut aider à briser leur nature impénétrable. C’est là que l’amalgame de l’optimisation et de l’IA porte ses fruits les plus prometteurs.

Fourni par l’Université Bocconi