Comment protéger vos modèles avec Simseo : un guide complet
Dans le monde actuel axé sur les données, garantir la sécurité et la confidentialité des modèles d'apprentissage automatique est indispensable, car négliger ces aspects peut entraîner de lourdes amendes, des violations de données, des rançons aux groupes de pirates informatiques et une perte importante de réputation auprès des clients et des partenaires. Simseo propose des solutions robustes pour protéger contre les 10 principaux risques identifiés par l'Open Worldwide Application Security Project (OWASP), y compris les vulnérabilités en matière de sécurité et de confidentialité. Que vous travailliez avec des modèles personnalisés, en utilisant le terrain de jeu Simseo, ou les deux, cela Guide de sauvegarde en 7 étapes vous expliquera comment mettre en place un système de modération efficace pour votre organisation.
Étape 1 : Accédez à la bibliothèque de modération
Commencez par ouvrir la bibliothèque de gardes de Simseo, où vous pouvez sélectionner différentes gardes pour protéger vos modèles. Ces protections peuvent aider à prévenir plusieurs problèmes, tels que :
- Fuite d’informations personnelles identifiables (PII)
- Injection rapide
- Contenu préjudiciable
- Hallucinations (en utilisant Rouge-1 et Faithfulness)
- Discussion sur le concours
- Sujets non autorisés
Étape 2 : Utiliser des garde-corps personnalisés et avancés
Simseo est non seulement équipé de protections intégrées, mais offre également la flexibilité d'utiliser n'importe quel modèle personnalisé comme protection, y compris les modèles à grand langage (LLM), les modèles binaires, de régression et multi-classes. Cela vous permet d'adapter le système de modération à vos besoins spécifiques. De plus, vous pouvez utiliser des rails d'auto-vérification d'entrée et de sortie « NVIDIA NeMo » de pointe pour garantir que les modèles restent sur le sujet, évitent les mots bloqués et gèrent les conversations d'une manière prédéfinie. Que vous choisissiez les options intégrées robustes ou décidiez d'intégrer vos propres solutions personnalisées, Simseo soutient vos efforts pour maintenir des normes élevées de sécurité et d'efficacité.
Étape 3 : Configurez vos gardes
Configuration de la protection de déploiement d'évaluation
- Choisissez l’entité à laquelle l’appliquer (invite ou réponse).
- Déployez des modèles globaux à partir du registre Simseo ou utilisez les vôtres.
- Définissez le seuil de modération pour déterminer la rigueur de la garde.
Configuration des garde-corps NeMo
- Fournissez votre clé OpenAI.
- Utilisez des fichiers pré-téléchargés ou personnalisez-les en ajoutant des termes bloqués. Configurez l'invite système pour déterminer les sujets bloqués ou autorisés, les critères de modération et plus encore.
Étape 4 : Définir la logique de modération
Choisissez une méthode de modération :
- Rapport: Suivez et informez les administrateurs si les critères de modération ne sont pas remplis.
- Bloc: Bloquez l'invite ou la réponse si elle ne répond pas aux critères, en affichant un message personnalisé au lieu de la réponse LLM.
Par défaut, la modération fonctionne de la manière suivante :
- Tout d’abord, les invites sont évaluées à l’aide de gardes configurées en parallèle pour réduire la latence.
- Si une invite échoue à l'évaluation par un garde « bloquant », elle n'est pas envoyée au LLM, ce qui réduit les coûts et améliore la sécurité.
- Les invites qui répondent aux critères sont notées à l'aide de LLM, puis les réponses sont évaluées.
- Si la réponse échoue, les utilisateurs voient un message prédéfini créé par le client au lieu de la réponse LLM brute.
Étape 5 : tester et déployer
Avant de passer en ligne, testez minutieusement la logique de modération. Une fois satisfait, enregistrez et déployez votre modèle. Vous pouvez ensuite l'intégrer dans diverses applications, comme une application de questions-réponses, une application personnalisée ou même un Slackbot, pour voir la modération en action.
Étape 6 : Surveiller et auditer
Suivez les performances du système de modération grâce à des métriques personnalisées générées automatiquement. Ces mesures fournissent des informations sur :
- Le nombre d'invites et de réponses bloquées par chaque garde.
- La latence de chaque phase de modération et garde.
- Les scores moyens pour chaque garde et phase, tels que la fidélité et la toxicité.
De plus, toutes les activités modérées sont enregistrées, vous permettant de vérifier l'activité des applications et l'efficacité du système de modération.
Étape 7 : Mettre en œuvre une boucle de rétroaction humaine
En plus de la surveillance et de la journalisation automatisées, l'établissement d'une boucle de rétroaction humaine est crucial pour affiner l'efficacité de votre système de modération. Cette étape consiste à examiner régulièrement les résultats du processus de modération et les décisions prises par les gardes automatisés. En intégrant les commentaires des utilisateurs et des administrateurs, vous pouvez améliorer continuellement la précision et la réactivité des modèles. Cette approche humaine garantit que le système de modération s'adapte aux nouveaux défis et évolue en fonction des attentes des utilisateurs et de l'évolution des normes, améliorant ainsi la fiabilité de vos applications d'IA.
from datarobot.models.deployment import CustomMetric
custom_metric = CustomMetric.get(
deployment_id="5c939e08962d741e34f609f0", custom_metric_id="65f17bdcd2d66683cdfc1113")
data = ({'value': 12, 'sample_size': 3, 'timestamp': '2024-03-15T18:00:00'},
{'value': 11, 'sample_size': 5, 'timestamp': '2024-03-15T17:00:00'},
{'value': 14, 'sample_size': 3, 'timestamp': '2024-03-15T16:00:00'})
custom_metric.submit_values(data=data)
# data witch association IDs
data = ({'value': 15, 'sample_size': 2, 'timestamp': '2024-03-15T21:00:00', 'association_id': '65f44d04dbe192b552e752aa'},
{'value': 13, 'sample_size': 6, 'timestamp': '2024-03-15T20:00:00', 'association_id': '65f44d04dbe192b552e753bb'},
{'value': 17, 'sample_size': 2, 'timestamp': '2024-03-15T19:00:00', 'association_id': '65f44d04dbe192b552e754cc'})
custom_metric.submit_values(data=data)
Points à retenir
La protection de vos modèles avec les outils de modération complets de Simseo améliore non seulement la sécurité et la confidentialité, mais garantit également que vos déploiements fonctionnent de manière fluide et efficace. En utilisant les protections avancées et les options de personnalisation proposées, vous pouvez adapter votre système de modération pour répondre à des besoins et des défis spécifiques.
Les outils de surveillance et les audits détaillés vous permettent en outre de garder le contrôle sur les performances de votre application et les interactions des utilisateurs. En fin de compte, en intégrant ces stratégies de modération robustes, vous ne protégez pas seulement vos modèles : vous préservez également la confiance et l'intégrité de vos solutions d'apprentissage automatique, ouvrant ainsi la voie à des applications d'IA plus sûres et plus fiables.