définir une tranche personnalisée - Simseo

Améliorez les performances du modèle avec Simseo Sliced ​​Insights

Il existe d’innombrables mesures qui aident les data scientists à mieux comprendre les performances des modèles. Mais les mesures de précision des modèles et les graphiques de diagnostic, malgré leur utilité, sont tous des agrégations : ils peuvent masquer des informations critiques sur des situations dans lesquelles un modèle pourrait ne pas fonctionner comme prévu. Nous pourrions construire un modèle ayant une précision globale élevée, mais sous-performe sans le savoir dans des scénarios spécifiquesun peu comme un disque vinyle qui peut paraître entier, mais qui présente des rayures impossibles à découvrir tant que vous n’avez pas lu une partie spécifique du disque.

Toute personne utilisant des modèles (des data scientists aux dirigeants) peut avoir besoin de plus de détails pour décider si un modèle est vraiment prêt pour la production et, si ce n’est pas le cas, comment l’améliorer. Ces informations peuvent se trouver dans des segments spécifiques de vos données de modélisation.

Pourquoi la segmentation des modèles est importante

Dans de nombreux cas, la création de modèles distincts pour différents segments de données produira de meilleures performances globales du modèle que l’approche « un modèle pour les gouverner tous ».

Disons que vous prévoyez des revenus pour votre entreprise. Vous disposez de deux unités commerciales principales : une unité Entreprise/B2B et une unité Consommateur/B2C. Vous pouvez commencer par créer un modèle unique pour prévoir les revenus globaux. Mais lorsque vous mesurez la qualité de vos prévisions, vous constaterez peut-être qu’elles ne sont pas aussi bonnes que ce dont votre équipe aurait besoin. Dans cette situation, la création d’un modèle pour votre unité B2B et d’un modèle distinct pour votre unité B2C améliorera probablement les performances de les deux.

En divisant un modèle en modèles plus petits et plus spécifiques formés sur des sous-groupes de nos données, nous pouvons développer des informations plus spécifiques, adapter le modèle à ce groupe distinct (population, SKU, etc.) et finalement améliorer les performances du modèle.

Cela est particulièrement vrai si :

  1. Vos données comportent des clusters naturels, comme vos unités B2B et B2C distinctes.
  2. Vous avez des regroupements déséquilibrés dans l’ensemble de données. Les groupes plus grands dans les données peuvent dominer les plus petits et un modèle avec une précision globale élevée pourrait masquer des performances inférieures pour les sous-groupes. Si votre entreprise B2B représente 80 % de vos revenus, votre approche « un modèle unique pour les gouverner tous » peut s’avérer extrêmement erronée pour votre entreprise B2C, mais ce fait est masqué par la taille relative de votre entreprise B2B.

Mais jusqu’où allez-vous dans cette voie ? Est-il utile de diviser davantage l’activité B2B en chacun des 20 canaux ou lignes de produits différents ? Sachant qu’une seule mesure de précision globale pour l’ensemble de votre ensemble de données peut masquer des informations importantes, existe-t-il un moyen simple de savoir quels sous-groupes sont les plus importants ou quels sous-groupes souffrent de mauvaises performances ? Qu’en est-il des informations : les mêmes facteurs stimulent-ils les ventes dans les activités B2B et B2C, ou existe-t-il des différences entre ces segments ? Pour guider ces décisions, nous devons comprendre rapidement les informations du modèle pour différents segments de nos données – informations liées à la fois aux performances et à l’explicabilité du modèle. Simseo Sliced ​​Insights facilite cela.

Simseo Sliced ​​Insights, désormais disponible dans Simseo AI Platform, permet aux utilisateurs d’examiner les performances du modèle sur des sous-ensembles spécifiques de leurs données. Les utilisateurs peuvent rapidement définir des segments d’intérêt dans leurs données, appelés Slices, et évaluer les performances sur ces segments. Ils peuvent également générer rapidement des informations connexes et les partager avec les parties prenantes.

Comment générer des informations découpées

Sliced ​​Insights peut être généré entièrement dans l’interface utilisateur – aucun code n’est requis. Tout d’abord, définissez une tranche basée sur jusqu’à trois filtres : des fonctionnalités numériques ou catégorielles qui définissent un segment d’intérêt. En superposant plusieurs filtres, les utilisateurs peuvent définir des groupes personnalisés qui les intéressent. Par exemple, si j’évalue un modèle de réadmission à l’hôpital, je pourrais définir une tranche personnalisée en fonction du sexe, de la tranche d’âge, du nombre de procédures qu’un patient a subies ou de toute combinaison de ceux-ci.

Après avoir défini une tranche, les utilisateurs génèrent des informations tranchées en appliquant cette tranche aux principaux outils de performances et d’explicabilité de Simseo : effets de fonctionnalités, impact des fonctionnalités, graphique de levage, résidus et courbe ROC.

Impact des fonctionnalités – Explicabilité de l'IA de Simseo

Ce processus est souvent itératif. En tant que data scientist, je pourrais commencer par définir des tranches pour des segments clés de mes données, par exemple les patients admis pendant une semaine ou plus par rapport à ceux qui ne sont restés qu’un jour ou deux.

À partir de là, je peux creuser plus profondément en ajoutant plus de filtres. Lors d’une réunion, mes dirigeants peuvent m’interroger sur l’impact de conditions préexistantes. Désormais, en quelques clics, je peux voir l’effet que cela a sur les performances de mon modèle et les informations associées. Basculer d’une tranche à l’autre conduit à de nouvelles et différentes informations sur les tranches. Pour des informations plus détaillées sur la configuration et l’utilisation des Slices, visitez la page de documentation.

Étude de cas : non-présentation à l’hôpital

Je travaillais récemment avec un système hospitalier qui avait construit un modèle de non-présentation des patients. Les performances semblaient assez précises : le modèle distinguait les patients présentant le risque de non-présentation le plus faible de ceux présentant un risque plus élevé, et il semblait bien calibré (les lignes prédites et réelles se suivent de près). Ils voulaient néanmoins être sûrs que cela générerait de la valeur pour leurs équipes d’utilisateurs finaux lors de son déploiement.

Graphique d'ascenseur - Simseo AI Platform

L’équipe pensait qu’il y aurait des modèles de comportement très différents entre les départements. Ils avaient quelques grands départements (médecine interne, médecine familiale) et une longue liste de plus petits (oncologie, gastroentérologie, neurologie, transplantation). Certains départements ont un taux de non-présentation élevé (jusqu’à 20%), tandis que d’autres ont rarement des non-présentations (<5%).

Ils voulaient savoir s’ils devaient élaborer un modèle pour chaque ministère ou si un seul modèle pour tous les ministères suffirait.

Grâce à Sliced ​​Insights, il est rapidement devenu évident que créer un modèle unique pour tous les départements était un mauvais choix. En raison du déséquilibre de classe dans les données, le modèle s’adaptait bien aux grands départements et présentait une précision globale élevée qui masquait les mauvaises performances des petits départements.

Tranche : Médecine interne

Tableau de levage - Médecine interne - Simseo
Le modèle convenait bien au service de médecine interne, qui était de grande taille.

Tranche : Gastroentérologie

Prédictions de gastroentérologie - Simseo
Le modèle s’adaptait extrêmement mal à un département plus petit, celui de gastroentérologie, générant des prédictions souvent éloignées des valeurs réelles.

En conséquence, l’équipe a choisi de limiter la portée de son modèle « général » aux seuls départements où elle disposait du plus de données et où le modèle ajoutait de la valeur. Pour les départements plus petits, l’équipe a utilisé son expertise du domaine pour regrouper les départements en fonction des types de patients qu’ils ont vus, puis a formé un modèle pour chaque cluster. Sliced ​​Insights a guidé cette équipe médicale pour créer le bon ensemble de groupes et de modèles pour leur cas d’utilisation spécifique, afin que chaque service puisse générer de la valeur.

Des informations découpées pour une meilleure segmentation des modèles

Sliced ​​Insights aide les utilisateurs à évaluer les performances de leurs modèles à un niveau plus approfondi qu’en examinant les métriques globales. Un modèle qui répond aux exigences globales de précision peut systématiquement échouer pour des segments importants des données, comme pour les groupes démographiques sous-représentés ou les petites unités commerciales. En définissant des tranches et en évaluant les informations du modèle par rapport à ces tranches, les utilisateurs peuvent déterminer plus facilement si la segmentation du modèle est nécessaire ou non, faire rapidement apparaître ces informations pour mieux communiquer avec les parties prenantes et, en fin de compte, aider les organisations à prendre des décisions plus éclairées sur comment et quand. un modèle doit être appliqué.