Apprentissage par renforcement pour les débutants

L’apprentissage par renforcement (RL) est un modèle d’apprentissage automatique dans lequel l’agent apprend par essais et erreurs pour atteindre l’objectif. Il s’agit d’un algorithme orienté objectif dans lequel un agent reçoit une récompense lorsqu’il effectue l’action correcte. Ces récompenses aident les agents à naviguer dans un environnement complexe pour atteindre l’objectif final. Tout comme un tout-petit apprend à marcher seul par essais et erreurs. De même, une machine apprend à effectuer des tâches complexes sans intervention humaine.

RL est assez différent des autres algorithmes d’apprentissage automatique. Il apprend de l’environnement et atteint de meilleures performances que les humains. Alors que les modèles d’apprentissage supervisés et non supervisés dépendent de données existantes collectées auprès d’humains et se limitent à l’intelligence humaine. Par exemple, Deepmind Alpha Go a appris diverses stratégies par lui-même pour vaincre le champion du monde du jeu de société Go.

Prenons l’exemple d’un jeu Mario. Au début du jeu, l’agent (Mario) est à l’état zéro, en fonction de son état, l’agent effectuera une action. Dans ce cas, Mario avancera. L’agent est maintenant dans un nouvel état (nouvelle trame). L’agent recevra une récompense au fur et à mesure qu’il aura survécu. L’agent continuera à faire des mouvements jusqu’à ce qu’il ait terminé l’étape ou qu’il soit mort dans le processus. L’objectif principal de RL est de maximiser la collecte de récompenses en prenant des mesures minimales.

À l’heure actuelle, les applications d’apprentissage automatique sont limitées à une seule tâche et dépendent des données existantes. Mais à l’avenir, tout cela va changer, nous combinerons RL avec la vision par ordinateur, la traduction automatique et divers types de modèles pour atteindre des performances surhumaines, par exemple :

Voitures autonomes: voyager devient plus sûr et rapide
Automatisation de l’industrie: gestion d’entrepôt
Commerce et finance: prévision du cours de l’action
TAL (Traitement du Langage Naturel): synthèse de texte, réponse aux questions et traduction automatique
Soins de santé: détection et traitement efficaces des maladies
Ingénierie: optimiser la production à grande échelle
Systèmes de recommandation : meilleures actualités, films et recommandations de produits.
Jeux: créer de meilleurs niveaux de jeu pour optimiser l’engagement des joueurs
Marketing et publicité: identifier les individus et les cibler avec des annonces en fonction des besoins.
Robotique: effectuer des tâches complexes et répétitives.

Il y a tellement de choses à apprendre sur RL avant de commencer à construire le nôtre. Dans cette section, nous apprendrons les composants clés de l’apprentissage par renforcement et comment chaque composant interagit les uns avec les autres.

Agent: il peut s’agir d’un personnage de jeu, d’un robot ou d’une voiture. Un agent est un algorithme qui effectue une action. Dans la vraie vie, l’agent est un humain.
Mesure (A): est un ensemble de tous les mouvements possibles qu’un agent peut effectuer. Par exemple, Mario peut sauter, se déplacer à gauche, à droite et se baisser.
Facteur de remise: les récompenses futures sont réduites, il vaut donc moins qu’une action immédiate pour imposer un hédonisme à court terme à l’agent.
Environnement: c’est un monde qui interagit avec des agents. Dans Mario, l’environnement est la carte. Il prend l’état actuel et l’action de l’agent comme entrée et renvoie la récompense et l’état suivant.
États): c’est comme un cadre. Lorsqu’un agent entreprend une action, l’état passe de l’image actuelle à l’image suivante dans un jeu Mario. L’état actuel et suivant est fourni par l’environnement.
Récompense (R): est une rétroaction ou un prix donné à un agent en fonction de l’action précédente. Il peut être positif si l’agent a terminé la tâche et négatif en cas d’échec. Les récompenses peuvent également être immédiates et différées.
Politique (?): est une stratégie qui permet aux agents d’obtenir les récompenses les plus élevées possibles en fonction de l’état et de l’action. En termes simples, il définit comment un agent agira en fonction de l’état actuel.
Valeur (V): est un rendement attendu à long terme avec une décote.
Trajectoire: est une séquence d’états et d’actions influencées par ces états.
Épisode: un cycle complet d’un agent, du début à la fin. Par exemple, Mario commence au début et lorsque l’étape en cours est terminée, le premier épisode est terminé. L’épisode est également terminé lorsque Mario meurt.
Exploiter: prendre les meilleures mesures pour maximiser la collecte de récompenses.
Explorer action aléatoire prise pour explorer l’environnement sans tenir compte des récompenses.

Éléments clés de l'apprentissage par renforcement

Ce n’est qu’un début et si vous voulez en savoir plus sur l’apprentissage par renforcement, commencez par apprendre les bases. Suivez un tutoriel Youtube ou suivez un cours. Après cela, commencez à travailler sur un projet ou participez à un concours. J’ai tout appris sur RL en participant à des concours Kaggle, et dans la foulée si je coince, je lis des blogs ou divers tutoriels pour approfondir mes connaissances.