Une nouvelle approche de la prise de décision intelligente en apprentissage par renforcement
Un nouvel article publié dans Informatique intelligente présente les principaux défis de l’apprentissage par renforcement pour la prise de décision intelligente dans des environnements complexes et dynamiques.
L’apprentissage par renforcement est un type d’apprentissage automatique dans lequel un agent apprend à prendre des décisions en interagissant avec un environnement et reçoit des récompenses ou des pénalités.
L’objectif de l’agent est de maximiser les récompenses à long terme en déterminant les meilleures actions à entreprendre dans différentes situations. Cependant, les chercheurs Chenyang Wu et Zongzhang Zhang de l’Université de Nanjing sont convaincus que les méthodes d’apprentissage par renforcement qui reposent uniquement sur les récompenses et les pénalités ne réussiront pas à produire des capacités intelligentes telles que l’apprentissage, la perception, l’interaction sociale, le langage, la généralisation et l’imitation.
Dans leur article, Wu et Zhang ont identifié ce qu’ils considèrent comme les lacunes des méthodes actuelles d’apprentissage par renforcement. Un problème majeur est la quantité d’informations qui doivent être collectées par essais et erreurs.
Contrairement aux humains qui peuvent utiliser leurs expériences passées pour raisonner et faire de meilleurs choix, les méthodes actuelles d’apprentissage par renforcement reposent fortement sur des agents qui essaient des choses à plusieurs reprises à grande échelle pour apprendre à effectuer des tâches. Lorsqu’ils traitent des problèmes qui impliquent de nombreux facteurs différents influençant le résultat, il est nécessaire que les agents essaient un grand nombre d’exemples pour déterminer la meilleure approche.
Si le problème augmente légèrement en complexité, le nombre d’exemples nécessaires augmente rapidement, ce qui rend impossible pour l’agent de fonctionner efficacement. Pour aggraver les choses, même si l’agent disposait de toutes les informations nécessaires pour déterminer la meilleure stratégie, la déterminer serait toujours très difficile et prendrait beaucoup de temps. Cela rend le processus d’apprentissage lent et inefficace.
Les inefficacités statistiques et les inefficacités de calcul entravent l’aspect pratique de la réalisation d’un apprentissage par renforcement général à partir de zéro. Les méthodes actuelles n’ont pas l’efficacité requise pour libérer tout le potentiel de l’apprentissage par renforcement dans le développement de diverses capacités sans ressources de calcul étendues.
Wu et Zhang soutiennent que les défis statistiques et informatiques peuvent être surmontés en accédant à des informations de grande valeur dans les observations. Ces informations peuvent permettre d’améliorer la stratégie par la seule observation, sans nécessiter d’interaction directe. Imaginez combien de temps il faudrait à un agent pour apprendre à jouer au go en jouant au go, en d’autres termes, par essais et erreurs.
Imaginez ensuite à quel point un agent pourrait apprendre plus rapidement en lisant les manuels Go, en d’autres termes, en utilisant des informations de grande valeur. De toute évidence, la capacité d’apprendre à partir d’observations riches en informations est cruciale pour résoudre efficacement des tâches complexes du monde réel.
Les informations de grande valeur possèdent deux caractéristiques distinctes qui les distinguent. Premièrement, il n’est pas indépendant et identiquement distribué, ce qui implique qu’il implique des interactions et des dépendances complexes, ce qui le distingue des observations passées. Pour bien comprendre les informations de grande valeur, il faut tenir compte de leur relation avec les informations passées et reconnaître leur contexte historique.
La deuxième caractéristique de l’information de grande valeur est sa pertinence pour les agents conscients du calcul. Les agents disposant de ressources de calcul illimitées peuvent ignorer les stratégies de haut niveau et se fier uniquement aux règles de base pour dériver des approches optimales. Ces agents ignorent les abstractions de niveau supérieur, qui peuvent introduire des inexactitudes, et privilégient l’efficacité de calcul à la précision.
Seuls les agents conscients des compromis informatiques et capables d’apprécier la valeur des informations utiles sur le plan informatique peuvent efficacement tirer parti des avantages des informations de grande valeur.
Pour que l’apprentissage par renforcement utilise efficacement des informations de grande valeur, les agents doivent être conçus de nouvelles façons. Conformément à leur formalisation de la prise de décision intelligente en tant qu' »apprentissage par renforcement optimal tout au long de la vie », Wu et Zhang ont identifié trois problèmes fondamentaux dans la conception des agents :
- Surmonter la nature non indépendante et identiquement distribuée du flux d’informations et obtenir des connaissances à la volée. Cela nécessite de relier le passé au futur et de transformer le flux continu d’informations en connaissances utiles pour une utilisation future.
Cependant, les ressources de calcul limitées rendent impossible la mémorisation et le traitement de l’intégralité de l’historique des interactions. Par conséquent, une représentation structurée des connaissances et un algorithme d’apprentissage en ligne sont nécessaires pour organiser les informations de manière incrémentielle et surmonter ces contraintes.
- Soutenir un raisonnement efficace avec des ressources limitées. Premièrement, les connaissances universelles qui permettent de comprendre, de prévoir, d’évaluer et d’agir ne suffisent plus sous la contrainte informatique. Pour relever ce défi, un raisonnement efficace exige une représentation structurée des connaissances qui exploite la structure du problème et aide l’agent à raisonner d’une manière spécifique au problème, ce qui est essentiel pour l’efficacité du calcul.
Un deuxième aspect du processus de raisonnement est la prise de décision séquentielle. Cela joue un rôle central en guidant les agents pour déterminer leurs actions, traiter les informations et développer des stratégies d’apprentissage efficaces. Par conséquent, le raisonnement au niveau méta devient nécessaire pour maximiser l’utilisation des ressources informatiques. Troisièmement, un raisonnement réussi nécessite que les agents combinent efficacement leurs capacités internes avec les informations glanées à partir d’observations externes.
- Déterminer l’objectif du raisonnement pour s’assurer que l’agent recherche des rendements à long terme et évite d’être guidé uniquement par des intérêts à court terme. C’est ce qu’on appelle le dilemme exploration-exploitation. Il s’agit de trouver un équilibre entre l’exploration de l’environnement pour recueillir de nouvelles connaissances et l’exploitation des meilleures stratégies basées sur les informations existantes.
Ce dilemme devient plus compliqué lorsque l’on considère la perspective informatique, car l’agent dispose de ressources limitées et doit trouver un équilibre entre l’exploration d’une autre méthode de calcul et l’exploitation de la meilleure approche existante. Parce qu’il n’est pas pratique de tout explorer dans un environnement complexe, l’agent s’appuie sur ses connaissances existantes pour généraliser à des situations inconnues. Résoudre ce dilemme nécessite d’aligner l’objectif du raisonnement sur les intérêts à long terme de l’agent. Il reste encore beaucoup à comprendre, en particulier du point de vue informatique.
Fourni par l’informatique intelligente