Des chercheurs développent un algorithme d'apprentissage par méta-renforcement pour le contrôle des feux de circulation

des signaux de trafic — Crédit : domaine public Unsplash/CC0

Le contrôle des feux de circulation affecte la vie quotidienne des personnes vivant dans les zones urbaines. Le système existant repose sur un contrôleur théorique ou basé sur des règles chargé de modifier les feux de signalisation en fonction des conditions de circulation. L’objectif est de réduire le retard des véhicules dans des conditions de circulation non saturées et de maximiser le débit des véhicules pendant les embouteillages.

Cependant, le contrôleur de feux de circulation existant ne peut pas remplir de tels objectifs, et un contrôleur humain ne peut gérer que quelques intersections. Dans cette optique, les progrès récents de l’intelligence artificielle se sont concentrés sur l’activation d’autres moyens de contrôle des feux de circulation.

La recherche actuelle sur ce front a exploré les algorithmes d’apprentissage par renforcement (RL) comme une approche possible. Cependant, les algorithmes RL ne fonctionnent pas toujours en raison de la nature dynamique des environnements de trafic, c’est-à-dire que le trafic à une intersection dépend des conditions de circulation à d’autres intersections à proximité. Alors que le RL multi-agents peut résoudre ce problème d’interférence, il souffre d’une dimensionnalité à croissance exponentielle avec l’augmentation des intersections.

Récemment, une équipe de chercheurs de l’Université Chung Ang en Corée dirigée par le professeur Keemin Sohn a proposé un modèle méta-RL pour résoudre ce problème. Plus précisément, l’équipe a développé un modèle méta-RL basé sur le contexte intégré au réseau Q profond étendu (EDQN) pour le contrôle des feux de circulation.

« Les études existantes ont mis au point des algorithmes méta-RL basés sur la géométrie des intersections, les phases des feux de circulation ou les conditions de circulation. La présente recherche traite de l’aspect non stationnaire du contrôle des signaux en fonction des niveaux de congestion. Le méta-RL fonctionne de manière autonome dans la détection du trafic. états, en classifiant les régimes de trafic et en attribuant des phases de signal », explique le professeur Sohn, à propos de leur étude publiée dans Ingénierie civile et des infrastructures assistée par ordinateur.

Le modèle fonctionne comme suit. Il détermine le régime de trafic – saturé ou non saturé – en utilisant une variable latente qui indique la condition environnementale globale. Basé sur le flux de trafic, le modèle maximise le débit ou minimise les retards comme un contrôleur humain. Pour ce faire, il met en œuvre des phases de signalisation routière (action).

Comme avec les agents d’apprentissage intelligents, l’action est contrôlée par la fourniture d’une « récompense ». Ici, la fonction de récompense est fixée à +1 ou -1 correspondant à une performance meilleure ou pire dans la gestion du trafic par rapport à l’intervalle précédent, respectivement. De plus, l’EDQN agit comme un décodeur pour contrôler conjointement les feux de circulation pour plusieurs intersections.

Suite à son développement théorique, les chercheurs ont formé et testé leur algorithme méta-RL à l’aide de Vissim v21.0, un simulateur de trafic commercial, pour imiter les conditions de circulation réelles. En outre, un réseau de transport dans le sud-ouest de Séoul composé de 15 intersections a été choisi comme banc d’essai réel. Suite à la méta-formation, le modèle pourrait s’adapter à de nouvelles tâches lors des méta-tests sans ajuster ses paramètres.

Les expériences de simulation ont révélé que le modèle proposé pouvait changer de tâche de contrôle (via des transitions) sans aucune information de trafic explicite. Il pourrait également différencier les récompenses en fonction du niveau de saturation des conditions de circulation. En outre, le modèle méta-RL basé sur EDQN a surpassé les algorithmes existants pour le contrôle des feux de circulation et pourrait être étendu à des tâches avec différentes transitions et récompenses.

Néanmoins, les chercheurs ont souligné la nécessité d’un algorithme encore plus précis pour considérer différents niveaux de saturation d’une intersection à l’autre. « La recherche existante a utilisé l’apprentissage par renforcement pour le contrôle des feux de circulation avec un seul objectif fixe. En revanche, ce travail a conçu un contrôleur qui peut sélectionner de manière autonome la cible optimale en fonction des dernières conditions de circulation. Le cadre, s’il est adopté par les agences de contrôle des feux de circulation , pourraient apporter des avantages de voyage qui n’ont jamais été expérimentés auparavant », conclut le professeur Sohn.

Fourni par l’Université Chung Ang