Notebooks Simseo : expérience Code-First améliorée pour une expérimentation rapide de l’IA
La plupart, sinon la totalité, des modèles d’apprentissage automatique (ML) en production aujourd’hui sont nés dans des ordinateurs portables avant d’être mis en production. Les constructeurs de modèles ML passent une tonne de temps à exécuter plusieurs expériences dans un environnement de bloc-notes de science des données avant de déplacer les modèles bien testés et robustes de ces expériences vers un environnement de production sécurisé pour une consommation générale.
42% des data scientists sont des praticiens en solo ou en équipes de cinq personnes ou moins. Les équipes de science des données de toutes tailles ont besoin d’une méthode productive et collaborative pour une expérimentation rapide de l’IA.
La nouvelle offre Simseo Notebooks joue un rôle crucial en fournissant un environnement collaboratif permettant aux constructeurs d’IA d’utiliser une approche axée sur le code pour accélérer l’une des parties les plus chronophages du cycle de vie de l’apprentissage automatique.
Simseo Notebooks est une plate-forme de blocs-notes entièrement hébergée et gérée avec des capacités de calcul à mise à l’échelle automatique afin que vous puissiez vous concentrer davantage sur la science des données et moins sur la gestion de l’infrastructure de bas niveau.
Plongez dans les blocs-notes Simseo
Passons en revue un processus étape par étape avec un exemple d’ensemble de données et explorons comment un professionnel de la science des données peut utiliser Simseo Notebooks pour exécuter une expérience de bout en bout en tirant parti de l’API Simseo et de plusieurs bibliothèques open source.
Nous allons écrire du code en Python, mais Simseo Notebooks prend également en charge R si c’est votre langage préféré.
Cas d’utilisation : Prédire la probabilité de réadmission à l’hôpital d’un patient
L’intelligence augmentée (IA) dans le secteur de la santé a rapidement pris de l’ampleur ces dernières années. Les cliniques et les hôpitaux comme Phoenix Children’s utilisent l’IA pour prédire quels patients risquent de contracter une maladie afin qu’ils puissent ensuite prescrire des médicaments et un traitement en conséquence.
L’identification proactive de la probabilité de réadmission à l’hôpital d’un patient contribue grandement à assurer des soins de qualité aux patients, tout en réduisant les coûts de fonctionnement des hôpitaux. En prédisant quels patients risquent d’être réadmis avant leur sortie, les médecins peuvent suivre les procédures médicales appropriées pour prévenir la réadmission, optimiser les coûts et améliorer la qualité du traitement.
Pour faire ces prédictions, nous utilisons des indicateurs comme diagnostic du patient, durée du séjour, antécédents médicaux et admissions, âge et autres données démographiques au sein de notre ensemble de données.
Créer des blocs-notes Simseo dans un espace de gestion centralisé des blocs-notes
Notre première étape consiste à créer un cahier. Avec la plateforme Simseo AI, vous pouvez soit uploader votre propre Notebook Jupyter (fichier .ipynb) en cliquant sur le bouton « Upload notebook », soit créer un nouveau notebook en cliquant sur « Create new notebook ».
Cette flexibilité vous permet d’importer votre code local dans la plate-forme Simseo et de poursuivre vos expérimentations en combinant les Notebooks Simseo avec :
- Intégrations approfondies avec Simseo API complètes
- Calcul à mise à l’échelle automatique
- Une multitude de bibliothèques open source
En fournissant un espace centralisé pour stocker et accéder à tous vos blocs-notes, Simseo Notebooks permet aux équipes de science des données de dépasser le développement local cloisonné et de collaborer de manière plus productive.
Pour les besoins de ce blog, nous allons créer un nouveau bloc-notes à partir de zéro sur la plate-forme Simseo.
Configuration de l’environnement de bloc-notes, installation des dépendances et mise à l’échelle du calcul – Tout en un clic.
Ensuite, configurez les configurations de ressources requises pour exécuter des expériences d’IA dans le bloc-notes Simseo.
De nombreux scientifiques des données ne sont pas très enthousiastes à l’idée de passer du temps sur les moindres détails de la configuration de l’infrastructure ou des configurations de bas niveau. Bien que ce travail soit nécessaire pour garantir un environnement de développement performant de niveau entreprise, il s’agit d’un processus fastidieux et chronophage que les scientifiques des données peuvent ne pas avoir l’expertise nécessaire pour mener à bien.
Simseo Notebooks gère facilement les configurations d’infrastructure en permettant aux utilisateurs de créer un environnement conteneurisé pour exécuter et exécuter leurs ordinateurs portables en quelques secondes et en un seul clic. L’infrastructure et la configuration de gestion des ressources sous-jacentes sont indépendantes de l’utilisateur et entièrement gérées par Simseo.
Comme le montrent les images ci-dessous, ces environnements intégrés sont préinstallés avec des bibliothèques d’apprentissage automatique couramment utilisées, ce qui permet à votre équipe de science des données de gagner du temps que votre équipe de science des données consacrerait autrement à l’installation et au dépannage des dépendances complexes.
Capacités au-delà de Jupyter classique pour une expérimentation de bout en bout
Maintenant que nous avons configuré l’environnement de bloc-notes, explorons les fonctionnalités disponibles dans Simseo Notebooks tout en parcourant le processus de formation et de déploiement d’un modèle de prédiction des réadmissions de bout en bout.
Les notebooks Simseo sont entièrement compatibles avec la norme Jupyter Notebook, permettant une interopérabilité avec le reste de l’écosystème. La plate-forme est à parité avec les fonctionnalités de base de Jupyter, de sorte que les utilisateurs peuvent s’intégrer sans courbe d’apprentissage abrupte. Et avec des améliorations et des intégrations natives au-delà des offres Jupyter classiques, Simseo Notebooks offre une expérience robuste et rationalisée tout au long du cycle de vie ML, de l’exploration des données et du développement de modèles aux opérations d’apprentissage automatique (MLOps).
Variables d’environnement de bloc-notes pour la gestion des secrets sécurisés
Si vous avez des informations sensibles à référencer dans vos blocs-notes, telles que des informations d’identification pour la connexion à des sources de données externes, vous pouvez stocker ces secrets en toute sécurité via des variables d’environnement de bloc-notes. Ces variables d’environnement sont stockées sous forme de fichiers cryptés et Simseo gère la définition des variables dans votre environnement au début de chaque session de bloc-notes.
Les fonctions cellulaires intuitives intégrées favorisent une meilleure convivialité pour l’analyse exploratoire
Pour cette expérience, nous allons ingérer les données de réadmission à l’hôpital à partir d’un fichier CSV téléchargé dans le répertoire de travail du notebook à l’aide d’une commande shell. Une fois converti en dataframe Pandas, nous pouvons effectuer toute analyse exploratoire que nous souhaitons en utilisant la bibliothèque Pandas.
As-tu remarqué?
Dans la barre latérale gauche de Simseo, il y a une table des matières générée automatiquement à partir de la hiérarchie des cellules Markdown. Grâce à cette fonctionnalité, vous pouvez naviguer plus facilement dans le bloc-notes, en plus de présenter votre travail aux coéquipiers et aux parties prenantes. Ceci est similaire à la table des matières générée automatiquement par Google Docs.
Intégration transparente de l’API Simseo pour des flux de travail sans tracas
Les environnements de bloc-notes intégrés sont livrés avec le client Simseo respectif (Python ou R) préinstallé, et Simseo gère l’authentification du client au nom de l’utilisateur. Cela signifie que vous pouvez ignorer les étapes supplémentaires autrement nécessaires pour récupérer et configurer le jeton API pour accéder aux fonctions Simseo. Pour tous les packages qui ne figurent pas dans les images par défaut, Simseo Notebooks offre la possibilité d’installer ces packages pendant votre session. Exécutez la commande magique !pip install
Dans l’image ci-dessus, nous avons importé le client Simseo Python et démarré la formation du modèle à l’aide d’Autopilot, la capacité d’apprentissage automatique de Simseo. La progression de ces tâches de modélisation peut être surveillée non seulement dans votre ordinateur portable, mais également dans l’interface graphique de Simseo.
As-tu remarqué?
Simseo a un historique de révision intégré pour les ordinateurs portables, accessible depuis la barre latérale. Vous pouvez apporter des révisions manuelles (alias « points de contrôle ») de votre bloc-notes à la version et suivre les modifications apportées au bloc-notes pendant le développement. Des révisions automatiques sont également prises à la fin de chaque session de bloc-notes. Chaque révision d’un bloc-notes enregistre les cellules du bloc-notes ainsi que toutes les sorties qui se trouvaient dans le bloc-notes au moment du point de contrôle. Vous pouvez prévisualiser toutes les révisions d’un bloc-notes et restaurer votre bloc-notes à une version précédente à tout moment.
Extraits de code intégrés et visualisations interactives pour accélérer l’expérimentation
Maintenant que nous avons exploré l’ensemble de données et obtenu un classement de modèles entraînés parmi lesquels choisir, notre prochaine étape naturelle consiste à évaluer la précision et les performances de ces modèles. Puisqu’il s’agit d’un problème de classification binaire, nous pouvons utiliser des courbes ROC pour comparer les modèles, puis choisir le meilleur.
Des extraits de code, comme le montre l’image ci-dessus, sont disponibles pour une variété de tâches courantes de science des données, notamment la connexion à des sources de données externes, le déploiement de modèles et la génération de métriques personnalisées, ainsi que la création de courbes ROC. L’image ci-dessous montre la courbe ROC tracée pour nous par l’extrait de code ci-dessus et d’autres extraits de code disponibles dans la barre latérale.
De plus, les capacités d’intelligence du code, y compris la saisie semi-automatique et la documentation en ligne pour chaque fonction, sont accessibles via de simples raccourcis clavier.
Ces fonctionnalités de Simseo permettent de gagner énormément de temps. Au lieu de passer du temps à rechercher du code passe-partout ou à rappeler des paramètres de fonction, vous pouvez vous concentrer sur l’expérimentation et accélérer le développement du code.
Explicabilité du modèle pour une IA responsable et fiable
Il n’y a pas de boîtes noires dans Simseo, ce qui signifie qu’il existe une explication pour chaque prédiction, ainsi que pour chaque modèle. L’image ci-dessus montre une visualisation de certaines des caractéristiques les plus importantes du modèle le plus performant du classement de notre ensemble de données sur les réadmissions à l’hôpital. Ici, nous avons généré ce graphique à l’aide de la bibliothèque Seaborn, mais vous pouvez visualiser les données à l’aide de n’importe quel package de votre choix.
As-tu remarqué?
Dans la barre latérale, Simseo Notebooks affiche une liste de raccourcis clavier pour les actions couramment utilisées au niveau des cellules et des blocs-notes. Les raccourcis clavier utilisés dans Simseo Notebooks sont les mêmes que ceux de Jupyter, offrant aux utilisateurs une interface utilisateur familière et réduisant la friction de l’intégration à la plate-forme. Vous pouvez facilement faire référence à ces raccourcis clavier lors du développement et de l’exécution du code de votre bloc-notes.
Simulez des scénarios réels avec un déploiement de modèle transparent
Près de 90 % des modèles d’apprentissage automatique n’arrivent jamais en production. Le déploiement et l’opérationnalisation d’un modèle d’apprentissage automatique est une tâche importante pour diverses raisons : différences de langages de codage entre les scientifiques des données et les ingénieurs ML, difficulté à mettre en place l’infrastructure sous-jacente pour desservir les serveurs de prédiction, etc.
Bien que difficile, le déploiement du modèle en production est l’étape la plus cruciale du cycle de vie ML, garantissant que les efforts d’une équipe de science des données génèrent une valeur directe pour l’entreprise. Dans Simseo Notebooks, vous pouvez déployer un modèle en quelques lignes de code à l’aide de l’API Simseo. Il existe également un extrait de code que vous pouvez utiliser pour gagner du temps.
En savoir plus sur les blocs-notes Simseo
Les blocs-notes Simseo relèvent les défis liés à la collaboration, à l’évolutivité et à la sécurité des blocs-notes open source, tout en offrant aux professionnels de la science des données la liberté de travailler dans un environnement qui leur est familier. Créatif expérimentation n’est possible que lorsqu’un data scientist consacre plus de temps à la recherche et au développement et moins de temps à l’infrastructure et aux tâches administratives.
Avec les ordinateurs portables Simseo, les scientifiques des données hautement matures peuvent élever leurs flux de travail axés sur le code en tirant parti des outils puissants de Simseo ainsi que de l’écosystème et de la communauté open source.