La nouvelle méthode basée sur les données élimine les calculs redondants, peut rationaliser les processus comme la planification des trains

Lorsque certains trains de banlieue arrivent à la fin de la ligne, ils doivent se rendre à une plate-forme de commutation pour être retournés afin qu’ils puissent quitter la gare plus tard, souvent à partir d’une plate-forme différente de celle où ils sont arrivés.

Les ingénieurs utilisent des logiciels appelés solveurs algorithmiques pour planifier ces mouvements, mais dans une station avec des milliers d’arrivées et de départs hebdomadaires, le problème devient trop complexe pour qu’un solveur traditionnel se démêle à la fois.

En utilisant l’apprentissage automatique, les chercheurs du MIT ont développé un système de planification amélioré qui réduit le temps de résolution jusqu’à 50% et produit une solution qui répond mieux à l’objectif d’un utilisateur, comme les départs de train à temps. La nouvelle méthode pourrait également être utilisée pour résoudre efficacement d’autres problèmes logistiques complexes, tels que la planification du personnel hospitalier, l’attribution d’équipes aériennes ou l’attribution des tâches aux machines d’usine.

Les ingénieurs décomposent souvent ces types de problèmes en une séquence de sous-problèmes qui se chevauchent qui peuvent chacun être résolus dans un temps possible. Mais les chevauchements font que de nombreuses décisions sont inutilement recomputées, il faut donc beaucoup plus de temps au solveur pour atteindre une solution optimale.

La nouvelle approche améliorée par l’intelligence artificielle apprend quelles parties de chaque sous-problème doivent rester inchangées, gelant ces variables pour éviter les calculs redondants. Ensuite, un solveur algorithmique traditionnel aborde les variables restantes.

« Souvent, une équipe dédiée pourrait passer des mois, voire des années, à concevoir un algorithme pour résoudre un seul de ces problèmes combinatoires. Le deep apprentissage moderne nous donne l’occasion d’utiliser de nouvelles avancées pour aider à rationaliser la conception de ces algorithmes. Nous pouvons prendre ce que nous savons bien et utiliser Cabot, le professeur CATHY WU, CABOTAL et CABOTAL) et le Cabot Associated Cariel et le CAEE) et le CAUE) et le Cabot Développement de carrière CABOT) de Civil and Environmental) et de Cabot Earth Institut pour les données, les systèmes et la société (IDSS) au MIT et membre du Laboratoire d’information et de systèmes de décision (LIDS).

Elle est rejointe sur le journal par l’auteur principal Sirui Li, un étudiant diplômé de l’IDSS; Wenbin Oulang, étudiant diplômé du CEE; et Yining Ma, un couvercle postdoc. La recherche sera présentée à la Conférence internationale sur les représentations de l’apprentissage.

Éliminer la redondance

Une motivation pour cette recherche est un problème pratique identifié par un étudiant de maîtrise, Devin Camille Wilkins, dans le cours de transport d’entrée de gamme de Wu. L’élève voulait appliquer l’apprentissage du renforcement à un vrai problème de dopatch de train à la station nord de Boston: l’organisation de transport en commun doit attribuer de nombreux trains à un nombre limité de plates-formes où ils peuvent être renvoyés bien avant leur arrivée à la gare.

Cela se révèle être un problème de planification combinatoire très complexe – le type exact de problème que le laboratoire de WU a passé ces dernières années à travailler.

Face à un problème à long terme qui implique d’attribuer un ensemble limité de ressources, comme des tâches d’usine, à un groupe de machines, les planificateurs résolvent souvent le problème comme une planification d’atelier d’emploi flexible.

Dans la planification flexible de l’atelier d’emploi, chaque tâche a besoin d’un délai différent, mais les tâches peuvent être affectées à n’importe quelle machine. Dans le même temps, chaque tâche est composée d’opérations qui doivent être effectuées dans le bon ordre.

De tels problèmes deviennent rapidement trop importants et trop lourds pour les résolveurs traditionnels, afin que les utilisateurs puissent utiliser l’optimisation de Rolling Horizon (RHO) pour diviser le problème en morceaux gérables qui peuvent être résolus plus rapidement.

Avec RHO, un utilisateur attribue quelques premières tâches aux machines dans un horizon de planification fixe, peut-être une fenêtre de temps de quatre heures. Ensuite, ils exécutent la première tâche de cette séquence et déplacent l’horizon de planification de quatre heures vers l’avant pour ajouter la tâche suivante, répétant le processus jusqu’à ce que tout le problème soit résolu et que le calendrier final des affectations de machine à tâche soit créé.

Un horizon de planification doit être plus long que la durée d’une tâche, car la solution sera meilleure si l’algorithme considère également les tâches qui vont arriver.

Mais lorsque l’horizon de planification progresse, cela crée un certain chevauchement des opérations dans l’horizon de planification précédent. L’algorithme a déjà trouvé des solutions préliminaires à ces opérations qui se chevauchent.

« Peut-être que ces solutions préliminaires sont bonnes et n’ont pas besoin d’être calculées, mais peut-être qu’elles ne sont pas bonnes. C’est là que l’apprentissage automatique entre en jeu », explique Wu.

Pour leur technique, qu’ils appellent l’optimisation de l’horizon roulant guidé par l’apprentissage (L-RHO), les chercheurs enseignent un modèle d’apprentissage automatique pour prédire quelles opérations, ou variables, devraient être recomputées lorsque l’horizon de planification roule vers l’avant.

Le L-RHO nécessite des données pour former le modèle, de sorte que les chercheurs résolvent un ensemble de sous-problèmes à l’aide d’un solveur algorithmique classique. Ils ont pris les meilleures solutions – celles avec le plus d’opérations qui n’ont pas besoin d’être recomputées et les ont utilisées comme données de formation.

Une fois formé, le modèle d’apprentissage automatique reçoit un nouveau sous-problème qu’il n’a jamais vu auparavant et prédit quelles opérations ne devraient pas être recomputées. Les opérations restantes sont renvoyées dans le solveur algorithmique, qui exécute la tâche, récompense ces opérations et fait avancer l’horizon de planification. Ensuite, la boucle recommence.

« Si, avec le recul, nous n’avions pas besoin de les réoptimiser, alors nous pouvons supprimer ces variables du problème. Parce que ces problèmes augmentent de façon exponentielle en taille, cela peut être assez avantageux si nous pouvons laisser tomber certaines de ces variables », ajoute-t-elle.

Une approche adaptable et évolutive

Pour tester leur approche, les chercheurs ont comparé le L-RHO à plusieurs solveurs algorithmiques de base, aux solveurs spécialisés et aux approches qui n’utilisent que l’apprentissage automatique. Il les a tous surperformés, réduisant le temps de résolution de 54% et améliorant la qualité de la solution jusqu’à 21%.

De plus, leur méthode a continué de surpasser toutes les lignes de base lorsqu’ils l’ont testé sur des variantes plus complexes du problème, comme lorsque les machines d’usine se décomposent ou en cas de congestion supplémentaire de train. Il a même surpassé les lignes de base supplémentaires que les chercheurs ont créées pour défier leur solveur.

« Notre approche peut être appliquée sans modification à toutes ces différentes variantes, ce qui est vraiment ce que nous nous sommes mis à faire avec cette ligne de recherche », dit-elle.

L-RHO peut également s’adapter si les objectifs changent, générant automatiquement un nouvel algorithme pour résoudre le problème – tout ce dont il a besoin est un nouvel ensemble de données de formation.

À l’avenir, les chercheurs veulent mieux comprendre la logique derrière la décision de leur modèle de geler certaines variables, mais pas d’autres. Ils veulent également intégrer leur approche dans d’autres types de problèmes d’optimisation complexes tels que la gestion des stocks ou le routage des véhicules.