Random Forest et Tree Bag, qu’est-ce qu’ils sont et comment ils sont utilisés
Algorithmes d’apprentissage Sac aléatoire de forêt et d’arbre ce n’est pas la même chose et, en réalité, le premier peut être considéré comme une version évoluée de l’autre.
Pour mieux comprendre ce qu’est l’algorithme Random Forest, il est utile de définir le Tree Bag, également connu sous le nom d’arbres en sac de Bootstrp Aggregation et qui, en fait, est une méthode d’apprentissage qui utilise plusieurs arbres de décision, chacun formé sur un ensemble de données aléatoires.
En même temps, l’algorithme Random Forest est une extension du bagging et, au lieu d’utiliser toutes les variables qui ont contribué à la construction des arbres de décision, il se base uniquement sur un sous-ensemble aléatoire de variables afin de réduire la variance du modèle lui-même. .
Une discussion abstraite et complexe qui mérite d’être explorée en profondeur, à partir du concept même de arbre de décision.
Que sont les arbres de décision
Utilisés en Machine Learning, les Arbres de Décision sont des algorithmes qui relèvent de l’apprentissage supervisé et permettent de :
- activités de classification : les arbres déterminent si un événement attendu s’est produit ou non
- activités de régression : processus statistiques qui permettent de prédire (estimer) les relations entre variables.
Le but de la régression et la classification consiste à identifier les relations entre les données d’entrée qui permettent de renvoyer une sortie correcte.
Les arbres de décision commencent à partir d’une racine (nœud racine), se ramifient le long de sous-nœuds (nœud interne) et se terminent par des nœuds feuilles qui, généralement, ils représentent le résultat final de l’arbre entier prise de décision.
Un arbre de décision tente de trouver la meilleure façon de découper les données à l’aide de métriques appropriées.
Le nœud racine représente un ensemble de données complet et constitue le point à partir duquel l’arborescence commence. Les nœuds internes représentent des fonctionnalités qui divisent les données en sous-ensembles selon des métriques et des spécifications uniques, puis les nœuds feuilles sont les sous-ensembles de données qui ne peuvent pas être divisés davantage.
Il n’est pas totalement déplacé de dessiner un comparaison entre un arbre de décision et un organigrammeen gardant à l’esprit qu’à partir du nœud racine, se développent plusieurs nœuds de prise de décision (les nœuds internes) qui répondent à des questions dont dérivent plusieurs réponses (les nœuds finaux, appelés « feuilles »).
Dans le domaine du machine learning, les arbres de décision ils constituent une méthode efficace de prise de décisioncar ils permettent d’aborder un problème sous toutes ses facettes et d’évaluer les résultats possibles.
Que sont les algorithmes Random Forest et Tree Bag
Random Forest est un algorithme d’apprentissage automatique qui combine les résultats renvoyés par différents arbres de décision afin d’avoir un résultat unique. Un algorithme qui gère à la fois les problèmes de classification et de régression et cela a sans aucun doute favorisé sa diffusion et son utilisation.
L’évaluation de toutes les issues possibles d’un problème il permet d’analyser les conséquences de chaque décision et constitue un atout tant pour les processus décisionnels d’une organisation que pour les développeurs d’applications.
Être capable d’avoir une représentation visuelle des possibilités à venir apporte de la clarté à n’importe quel niveau ou département de l’entreprise.
Le modèle de forêt aléatoire il s’agit donc d’une structure composée de multiples arbres de décision d’où surgissent des questions qui forment les nœuds de la structure elle-même et qui visent à trouver la meilleure façon de diviser les données. Ces structures sont généralement formées à l’aide de l’algorithme CART (Classification and Regression Tree) et grâce à l’utilisation de métriques, notamment :
- L’Impureté Gini: Mesure la fréquence à laquelle un élément choisi au hasard peut être mal étiqueté si l’étiquetage était également aléatoire. En termes simples et pratiques, l’impureté de Gini indique la probabilité qu’il y ait une mauvaise classification des données en fonction des informations présentes dans un nœud. Plus le résultat tend vers zéro, plus les prédictions peuvent être considérées comme fiables
- L’erreur quadratique moyenne: mesure utilisée en statistique pour évaluer les écarts entre les valeurs estimées et observées
- l’acquisition d’informations: En termes simples, le gain d’informations établit l’utilité d’une caractéristique d’un élément de données pour prédire la sortie. Il est calculé avec la différence entre l’entropie d’un nœud parent et l’entropie moyenne de ses nœuds enfants.
- entropie: quantifie l’impureté (ou l’incertitude) dans un ensemble de données.
Ces métriques sont utilisées pour évaluer la qualité de la division des données en sous-ensembles.
C’est là que se trouvent les algorithmes Tree Bag, une méthode d’ensemble qui améliore la généralisation. Construit plusieurs arbres pour faire la moyenne des prédictions résultantes, en utilisant un échantillon choisi au hasard dans un ensemble de données utilisé pour la formation. Cet échantillon est sélectionné avec remplacement, c’est-à-dire avec la possibilité que les données soient choisies plus d’une fois et, en fonction de l’activité à réaliser (classification ou régression), la moyenne des prédictions produites fournit une estimation plus précise. Ceci est cohérent avec la réduction de la variance d’un ensemble de données bruité. La variance mesure le degré de variabilité des valeurs: en d’autres termes, il indique dans quelle mesure les données d’un ensemble s’écartent de la valeur moyenne.
Comme il est évident, Random Forest et Tree Bag sont deux algorithmes différents.
Comment fonctionne la forêt aléatoire
Un algorithme Random Forest nécessite de définir trois paramètres principaux. je suis ici la taille des nœuds, le nombre d’arbres et le nombre d’entités échantillonnées:
après avoir ajusté ces trois paramètres vous pouvez procéder à la formation et trouver des réponses aux problèmes de régression ou de classification.
En résumé, l’algorithme Random Forest est une version évoluée de l’ensachage et exploite le caractère aléatoire pour créer un ensemble d’arbres de décision plus préciscar ils sont moins corrélés les uns aux autres.
Avantages et inconvénients de Random Forest
L’utilisation de l’algorithme Random Forest pour des problèmes de classification ou de régression il n’est pas exempt de problèmes critiques et apporte certains avantages. En commençant par ce dernier :
- risque moindre de surapprentissage. En statistique (et en informatique), le surapprentissage se produit lorsque un modèle complexe s’adapte à l’échantillon de données en raison d’un excès de paramètres par rapport aux observations faites et cela peut récompenser des modèles complètement erronés. Lorsque dans une Random Forest, il y a un grand nombre d’arbres de décision le classificateur ne s’adapte pas au modèle
- donne de la flexibilité. Cela en fait une méthode utilisée par les Data scientists, également du fait qu’elle peut être utilisée à la fois dans des activités de classification et de régression.
- aide à déterminer les caractéristiques : Random Forest facilite l’évaluation de l’importance des variablesen observant quand l’exclusion ou l’inclusion de l’un d’entre eux affecte la précision du modèle.
Les inconvénients ne sont pas seulement interprétatifs. C’est vrai que la prédiction fournie par un arbre de décision unique est plus facile à interpréter par rapport à une forêt d’arbres mais, en plus, il faut considérer que :
- Algorithmes de forêt aléatoire nécessitent plus de ressources parce qu’ils traitent une plus grande quantité de données
- ils prennent du temps précisément parce que, pour fournir des prévisions plus précisesils doivent calculer les données pour chaque arbre de décision individuel.
La diffusion des algorithmes Random Forest est pourtant un élément valable pour comprendre comment, dans l’éternelle relation entre avantages et inconvénients, ils sont les premiers à l’emporter.
Applications des algorithmes Random Forest
Dédiés à soutenir la prise de meilleures décisions, les algorithmes Random Forest sont actuellement utilisés dans divers secteurs, parmi lesquels la finance se démarque qui l’utilise pour évaluer les clients à haut risque et détecter les fraudes.
Qu’un algorithme serve la finance n’est pas surprenant, surtout s’il est utile pour affiner le champ d’un grand nombre de scénarios plausibles.
Ils trouvent l’un des leurs application également dans le domaine de la santéoù ils permettent – par exemple – l’annotation de séquences génétiques ou la découverte de biomarqueurs, permettant ainsi de mieux comprendre la pharmacopée dans la mesure où il se révèle compétent en thérapies.
Random Forest est également utilisé dans le commerce électronique et permet de prédire les ventes.