Les ingénieurs aident l'intelligence artificielle à apprendre de manière plus sûre dans le monde réel

Crédit : Pixabay/CC0 Domaine public

Les chercheurs de Penn State recherchent un moyen plus sûr et plus efficace d’utiliser l’apprentissage automatique dans le monde réel. À l’aide d’un immeuble de bureaux simulé, ils ont développé et testé un nouvel algorithme d’apprentissage par renforcement visant à améliorer la consommation d’énergie et le confort des occupants dans un environnement réel.

Greg Pavlak, professeur adjoint d’ingénierie architecturale à Penn State, a présenté les résultats de l’article qu’il a co-écrit, « Constrained Differentiable Cross-Entropy Method for Safe Model-Based Reinforcement Learning », à l’Association for Computing Machinery International Conference on Systems for Conférence Energy-Efficient Built Environments (BuildSys), qui s’est tenue les 9 et 10 novembre à Boston.

« Les agents d’apprentissage par renforcement explorent leurs environnements pour apprendre des actions optimales par essais et erreurs », a déclaré Pavlak. « En raison des défis liés à la simulation des complexités du monde réel, il existe une tendance croissante à former des agents d’apprentissage par renforcement directement dans le monde réel plutôt qu’en simulation. »

Cependant, le déploiement de l’apprentissage par renforcement dans des environnements réels présente ses propres défis, selon les chercheurs.

« Deux exigences essentielles pour l’apprentissage par renforcement dans le monde réel sont un apprentissage efficace et des considérations de sécurité », a déclaré le co-auteur de l’article Sam Mottahedi, qui était étudiant au doctorat en ingénierie architecturale de Penn State lorsque l’étude a été menée. « Certains systèmes d’apprentissage par renforcement nécessitent des millions d’interactions et plusieurs années pour apprendre la politique optimale, ce qui n’est pas pratique dans les scénarios du monde réel. De plus, ils peuvent prendre de mauvaises décisions qui génèrent des résultats indésirables ou conduisent à des résultats dangereux. »

Cette préoccupation a conduit les chercheurs à se poser la question : comment développer des algorithmes permettant à ces types d’agents d’apprentissage par renforcement d’apprendre en toute sécurité dans le monde réel sans prendre de très mauvaises décisions qui causent des problèmes ou des blessures ?

Les chercheurs ont utilisé une approche existante d’apprentissage par renforcement basée sur un modèle pour entraîner leur modèle à prendre des décisions. Cet agent d’intelligence artificielle – l’algorithme de contrôle – utilise des essais et des erreurs pour interagir avec l’environnement, qui pour leur projet était un bâtiment.

« Le facteur critique de sécurité de notre recherche était, au minimum, de ne rien casser dans le bâtiment et de s’assurer que les occupants sont toujours à l’aise », a déclaré Pavlak. « Bien que nous n’ayons pas à nous soucier du fait que quelqu’un soit heurté par une voiture, ce qui est une préoccupation pour l’apprentissage par renforcement dans les voitures autonomes, nous devons nous soucier des contraintes de fonctionnement des équipements de construction. »

Les chercheurs ont voulu minimiser la consommation d’énergie sans violer le confort thermique, qui va de -3, trop froid, à +3, trop chaud. Si l’algorithme de contrôle effectuait une action entraînant un confort en dehors de la plage -0,5/+0,5, il serait pénalisé. L’algorithme de contrôle a pu maintenir un -0,5/+0,5, ce qui est une norme acceptable dans l’industrie du bâtiment.

« Si le contrôleur est configuré pour trouver la meilleure consommation d’énergie, par exemple, il sera récompensé pour avoir atteint ce bon comportement », a déclaré Pavlak. « Alternativement, s’il fait quelque chose qui augmente la consommation d’énergie, il sera pénalisé pour un mauvais comportement. Cette approche par essais et erreurs renforce l’apprentissage en recueillant des informations afin que le contrôleur puisse décider quoi faire ensuite. »

Pour ce projet, les chercheurs ont simulé un grand immeuble de bureaux dans une zone climatique de Chicago. Un problème d’équipement dans un vrai bâtiment de 30 étages peut inclure tout ce qui a un gros moteur, comme les refroidisseurs qui sont utilisés pour refroidir le bâtiment.

« Les gros moteurs n’aiment pas se déplacer rapidement », a déclaré Pavlak. « Par exemple, un grand refroidisseur peut être allumé une fois par jour et éteint une fois par jour – un total de deux événements – pour éviter d’endommager l’équipement. Si les actions de notre agent ont entraîné plus de deux événements de refroidisseur en une seule journée, cela serait pénalisé. »

Les chercheurs ont comparé leur approche basée sur un modèle à d’autres approches courantes d’apprentissage par renforcement, y compris l’utilisation d’un algorithme sans modèle. Un agent basé sur un modèle peut planifier son action car il est capable d’en prédire la récompense. Un agent sans modèle a en fait besoin d’effectuer l’action pour en tirer des leçons.

« L’algorithme sans modèle a tendance à bien fonctionner mais viole certaines des contraintes de sécurité », a déclaré Pavlak. « Il faut aussi beaucoup plus de temps pour apprendre un bon comportement, parfois des années ou des dizaines d’années. »

Le modèle des chercheurs a appris environ 50 fois plus vite qu’une méthode traditionnelle sans modèle, accomplissant en un mois ce que l’autre approche a besoin d’années pour faire. Et en raison de la façon dont les chercheurs ont intégré les facteurs de sécurité, leur modèle comportait moins de violations, parfois nulles, des aspects critiques pour la sécurité.

Selon le Pavlak, l’ajout de contraintes de sécurité fait de l’apprentissage par renforcement un jeu de compromis. L’agent de renforcement pourrait maximiser la consommation d’énergie, ce qui est un bon comportement, en coupant complètement l’alimentation. Cependant, cela aurait un impact négatif sur le confort des occupants, ce qui est un mauvais comportement.

À l’avenir, les chercheurs souhaitent continuer à travailler sur la vitesse d’apprentissage et réduire le temps d’apprentissage global.

« Quand un contrôleur part de zéro, il doit tout apprendre », a déclaré Pavlak. « Mais une fois que vous avez formé ce contrôleur pour un bâtiment, vous pouvez l’essayer sur un bâtiment similaire ou en réutiliser des parties sur le prochain projet. Ne pas partir de zéro pourrait potentiellement conduire à un apprentissage plus rapide. »

Le document est également publié dans le cadre de la Actes de la 9e conférence internationale de l’ACM sur les systèmes pour des bâtiments, des villes et des transports éconergétiques.

Fourni par l’Université d’État de Pennsylvanie