L'apprentissage par renforcement évolutif promet de nouvelles avancées dans l'apprentissage automatique

Principaux domaines de recherche en apprentissage par renforcement évolutif. Crédit : Hui Bai et al.

L’apprentissage par renforcement évolutif est une frontière passionnante dans l’apprentissage automatique, combinant les forces de deux approches distinctes : l’apprentissage par renforcement et le calcul évolutif. Dans l’apprentissage par renforcement évolutif, un agent intelligent apprend des stratégies optimales en explorant activement différentes approches et en recevant des récompenses pour ses performances réussies.

Ce paradigme innovant combine l’apprentissage par essais et erreurs de l’apprentissage par renforcement avec la capacité des algorithmes évolutionnaires à imiter la sélection naturelle, ce qui donne une méthodologie puissante pour le développement de l’intelligence artificielle qui promet des percées dans divers domaines.

Un article de synthèse sur l’apprentissage par renforcement évolutif a été publié dans Informatique intelligente. Il met en lumière les dernières avancées dans l’intégration du calcul évolutif avec l’apprentissage par renforcement et présente un aperçu complet des méthodes de pointe.

L’apprentissage par renforcement, un sous-domaine de l’apprentissage automatique, se concentre sur le développement d’algorithmes qui apprennent à prendre des décisions en fonction des commentaires de l’environnement. Des exemples remarquables d’apprentissage par renforcement réussi incluent AlphaGo et, plus récemment, les robots Google DeepMind qui jouent au football.

Cependant, l’apprentissage par renforcement est toujours confronté à plusieurs défis, notamment le compromis entre l’exploration et l’exploitation, la conception des récompenses, la généralisation et l’attribution de crédits.

Le calcul évolutionnaire, qui émule le processus d’évolution naturelle pour résoudre des problèmes, offre une solution potentielle aux problèmes d’apprentissage par renforcement. En combinant ces deux approches, les chercheurs ont créé le domaine de l’apprentissage par renforcement évolutif.

L’apprentissage par renforcement évolutif englobe six domaines de recherche clés :

Optimisation des hyperparamètres : les méthodes de calcul évolutionnaire peuvent être utilisées pour l’optimisation des hyperparamètres. Autrement dit, ils peuvent déterminer automatiquement les meilleurs paramètres pour les systèmes d’apprentissage par renforcement. Découvrir manuellement les meilleurs paramètres peut être difficile en raison de la multitude de facteurs impliqués, tels que la vitesse d’apprentissage de l’algorithme et son inclinaison vers les récompenses futures. De plus, la performance de l’apprentissage par renforcement dépend fortement de l’architecture du réseau neuronal utilisé, y compris des facteurs tels que le nombre et la taille de ses couches.
Recherche de politiques : la recherche de politiques consiste à trouver la meilleure approche pour une tâche en expérimentant différentes stratégies, à l’aide de réseaux de neurones. Ces réseaux, qui s’apparentent à de puissantes calculatrices, se rapprochent de l’exécution des tâches et utilisent les progrès de l’apprentissage en profondeur. Puisqu’il existe de nombreuses possibilités d’exécution de tâches, le processus de recherche ressemble à la navigation dans un vaste labyrinthe. La descente de gradient stochastique est une méthode courante pour former des réseaux de neurones et naviguer dans ce labyrinthe. L’informatique évolutive propose des méthodes alternatives de « neuroévolution » basées sur des stratégies d’évolution, des algorithmes génétiques et la programmation génétique. Ces méthodes peuvent déterminer les meilleurs poids et autres propriétés des réseaux de neurones pour l’apprentissage par renforcement.
Exploration : les agents d’apprentissage par renforcement s’améliorent en interagissant avec leur environnement. Trop peu d’exploration peut conduire à de mauvaises décisions, tandis que trop d’exploration coûte cher. Il y a donc un compromis entre l’exploration d’un agent pour découvrir de bons comportements et l’exploitation par un agent des bons comportements découverts. Les agents explorent en ajoutant du hasard à leurs actions. Une exploration efficace est confrontée à des défis : un grand nombre d’actions possibles, des récompenses rares et différées, des environnements imprévisibles et des scénarios multi-agents complexes. Les méthodes de calcul évolutionnaires répondent à ces défis en favorisant la compétition, la coopération et la parallélisation. Ils encouragent l’exploration par la diversité et l’évolution guidée.
Mise en forme des récompenses : les récompenses sont importantes dans l’apprentissage par renforcement, mais elles sont souvent rares et difficiles à apprendre pour les agents. La mise en forme des récompenses ajoute des récompenses plus précises pour aider les agents à mieux apprendre. Cependant, ces récompenses peuvent modifier le comportement des agents de manière indésirable, et déterminer exactement ce que ces récompenses supplémentaires devraient être, comment les équilibrer et comment attribuer un crédit à plusieurs agents nécessite généralement une connaissance spécifique de la tâche à accomplir. Pour relever le défi de la conception des récompenses, les chercheurs ont utilisé le calcul évolutif pour ajuster les récompenses supplémentaires et leurs paramètres dans l’apprentissage par renforcement à agent unique et à agents multiples.
Apprentissage par méta-renforcement : L’apprentissage par méta-renforcement vise à développer un algorithme d’apprentissage général qui s’adapte à différentes tâches en utilisant les connaissances des précédentes. Cette approche résout le problème de la nécessité d’un grand nombre d’échantillons pour apprendre chaque tâche à partir de zéro dans l’apprentissage par renforcement traditionnel. Cependant, le nombre et la complexité des tâches qui peuvent être résolues à l’aide de l’apprentissage par méta-renforcement sont encore limités, et le coût de calcul qui y est associé est élevé. Par conséquent, l’exploitation des propriétés indépendantes du modèle et hautement parallèles du calcul évolutif est une direction prometteuse pour libérer tout le potentiel de l’apprentissage par méta-renforcement, lui permettant d’apprendre, de généraliser et d’être plus efficace en termes de calcul dans des scénarios du monde réel.
Apprentissage par renforcement multi-objectifs : dans certains problèmes du monde réel, plusieurs objectifs sont en conflit les uns avec les autres. Un algorithme évolutif multi-objectifs peut équilibrer ces buts et proposer un compromis lorsqu’aucune solution ne semble meilleure que les autres. Les méthodes d’apprentissage par renforcement multi-objectifs peuvent être regroupées en deux types : celles qui combinent plusieurs objectifs en un seul pour trouver une seule meilleure solution et celles qui trouvent une gamme de bonnes solutions. Inversement, certains problèmes à but unique peuvent être utilement décomposés en plusieurs buts pour faciliter la résolution de problèmes.

L’apprentissage par renforcement évolutif peut résoudre des tâches complexes d’apprentissage par renforcement, même dans des scénarios avec des récompenses rares ou trompeuses. Cependant, il nécessite des ressources de calcul importantes, ce qui le rend coûteux en calcul. Il existe un besoin croissant de méthodes plus efficaces, y compris des améliorations du codage, de l’échantillonnage, des opérateurs de recherche, des cadres algorithmiques et de l’évaluation.

Bien que l’apprentissage par renforcement évolutif ait montré des résultats prometteurs pour résoudre les problèmes complexes d’apprentissage par renforcement, d’autres progrès sont encore possibles. En améliorant son efficacité de calcul et en explorant de nouvelles références, plates-formes et applications, les chercheurs dans le domaine de l’apprentissage par renforcement évolutif peuvent rendre les méthodes évolutives encore plus efficaces et utiles pour résoudre des tâches complexes d’apprentissage par renforcement.

Fourni par l’informatique intelligente