Comment changer deux variables conduit à des résultats très différents

Comment changer deux variables conduit à des résultats très différents

À une époque où l’intelligence artificielle (IA) transforme les secteurs de la santé à la finance, il est plus crucial que jamais de comprendre comment ces cerveaux numériques apprennent. Aujourd’hui, deux chercheurs de l’EPFL, Antonia Sclocchi et Matthieu Wyart, ont mis en lumière ce processus, en se concentrant sur une méthode populaire connue sous le nom de Descente de Gradient Stochastique (SGD).

Les algorithmes sont au cœur du processus d’apprentissage d’une IA : des ensembles de règles qui guident les IA dans leurs améliorations en fonction des données qu’elles reçoivent. SGD est l’un de ces algorithmes, telle une étoile directrice qui aide les IA à naviguer dans un paysage complexe d’informations pour trouver les meilleures solutions possibles, petit à petit.

Cependant, tous les parcours d’apprentissage ne sont pas égaux. L’étude de l’EPFL, publiée dans Actes de l’Académie nationale des sciences révèle comment différentes approches du SGD peuvent affecter de manière significative l’efficacité et la qualité de l’apprentissage de l’IA. Plus précisément, les chercheurs ont examiné comment la modification de deux variables clés peut conduire à des résultats d’apprentissage très différents.

Les deux variables étaient la taille des échantillons de données à partir desquels l’IA apprend en même temps (c’est ce qu’on appelle la « taille du lot ») et l’ampleur de ses étapes d’apprentissage (c’est le « taux d’apprentissage »). Ils ont identifié trois scénarios (« régimes ») distincts, chacun présentant des caractéristiques uniques qui affectent différemment le processus d’apprentissage de l’IA.

Dans le premier scénario, comme l’exploration d’une nouvelle ville sans carte, l’IA effectue de petites étapes aléatoires, en utilisant de petits lots et des taux d’apprentissage élevés, ce qui lui permet de tomber sur des solutions qu’elle n’aurait peut-être pas trouvées autrement. Cette approche est bénéfique pour explorer un large éventail de possibilités, mais peut être chaotique et imprévisible.

Le deuxième scénario implique que l’IA franchisse une étape initiale significative en fonction de sa première impression, en utilisant des lots et des taux d’apprentissage plus importants, suivie d’étapes exploratoires plus petites. Ce régime peut accélérer le processus d’apprentissage, mais risque de passer à côté de meilleures solutions qu’une approche plus prudente pourrait découvrir.

Le troisième scénario revient à utiliser une carte détaillée pour naviguer directement vers des destinations connues. Ici, l’IA utilise de gros lots et des taux d’apprentissage plus faibles, ce qui rend son processus d’apprentissage plus prévisible et moins sujet à une exploration aléatoire. Cette approche est efficace mais ne conduit pas toujours aux solutions les plus créatives ou optimales.

L’étude offre une compréhension plus approfondie des compromis impliqués dans la formation des modèles d’IA et souligne l’importance d’adapter le processus d’apprentissage aux besoins particuliers de chaque application. Par exemple, les diagnostics médicaux pourraient bénéficier d’une approche plus exploratoire où la précision est primordiale, tandis que la reconnaissance vocale pourrait favoriser des parcours d’apprentissage plus directs pour plus de rapidité et d’efficacité.