Le nouvel algorithme "bandit" utilise la lumière pour de meilleurs paris

L’agent choisit l’une des quatre actions indiquées par des flèches noires, reçoit une récompense et passe à la cellule suivante. Si l’agent arrive dans l’une des deux cellules spéciales A ou B, la récompense est importante et l’agent saute dans une autre cellule, comme indiqué par les flèches rouges. Crédit : Hiroaki Shinkawa et al.

Comment un joueur maximise-t-il les gains d’une rangée de machines à sous ? C’est l’inspiration du « problème du bandit multi-armé », une tâche courante dans l’apprentissage par renforcement dans laquelle les « agents » font des choix pour gagner des récompenses. Récemment, une équipe de recherche internationale dirigée par Hiroaki Shinkawa de l’Université de Tokyo a développé un schéma d’apprentissage par renforcement photonique étendu qui passe du problème des bandits statiques à un environnement dynamique plus difficile. Cette étude a été publiée dans Informatique intelligente.

Le succès du schéma repose à la fois sur un système photonique pour améliorer la qualité de l’apprentissage et sur un algorithme de support. En examinant une « implémentation photonique potentielle », les auteurs ont développé un algorithme d’apprentissage Q bandit modifié et validé son efficacité par des simulations numériques.

Ils ont également testé leur algorithme avec une architecture parallèle, où plusieurs agents fonctionnent en même temps, et ont découvert que la clé pour accélérer le processus d’apprentissage parallèle est d’éviter les décisions conflictuelles en tirant parti de l’interférence quantique des photons.

Bien que l’utilisation de l’interférence quantique des photons ne soit pas nouvelle dans ce domaine, les auteurs pensent que cette étude est « la première à relier la notion de prise de décision coopérative photonique au Q-learning et à l’appliquer à un environnement dynamique ». Les problèmes d’apprentissage par renforcement sont généralement définis dans un environnement dynamique qui change avec les actions des agents et sont donc plus complexes que l’environnement statique d’un problème de bandit.

Cette étude cible un monde en grille, une collection de cellules détenant des récompenses variables. Chaque agent peut monter, descendre, gauche ou droite et obtenir une récompense en fonction de son déplacement et de son emplacement actuels. Dans cet environnement, le prochain déplacement de l’agent est entièrement déterminé par son déplacement et son emplacement actuels.

Les simulations de cette étude utilisent une grille de 5 × 5 cellules ; chaque cellule est appelée un « état », chaque mouvement effectué par un agent à chaque pas de temps est appelé une « action » et la règle déterminant comment un agent sélectionne une certaine action dans chaque état est appelée une « politique ». Le processus de prise de décision est conçu comme un scénario de problème de bandit, où chaque paire état-action est considérée comme une machine à sous et les changements de valeur Q – les valeurs des paires état-action – sont considérés comme les récompenses.

Contrairement aux algorithmes d’apprentissage Q de base, qui se concentrent généralement sur la recherche du chemin optimal pour maximiser les récompenses, l’algorithme d’apprentissage Q bandit modifié vise à apprendre la valeur Q optimale pour chaque paire état-action dans l’ensemble de l’environnement, de manière efficace et précise.

Par conséquent, il est essentiel pour un agent de garder un bon équilibre entre « exploiter » les paires familières avec des valeurs élevées pour un apprentissage plus rapide et « explorer » des paires non fréquentées pour des valeurs potentiellement plus élevées. L’algorithme softmax, un modèle populaire qui excelle dans ce type d’équilibrage, est utilisé comme politique.

La future priorité des auteurs est de concevoir un système photonique prenant en charge la prise de décision sans conflit entre au moins trois agents, en espérant que son ajout à leur schéma proposé aidera les agents à éviter de prendre des décisions conflictuelles. En attendant, ils prévoient de développer des algorithmes permettant aux agents d’agir en continu et d’appliquer leur algorithme d’apprentissage Q bandit à des tâches d’apprentissage par renforcement plus compliquées.

Fourni par l’informatique intelligente