Exploiter les données synthétiques pour la formation de modèles
Ce n’est un secret pour personne que les modèles ML hautement performants doivent être alimentés par de grands volumes de données d’entraînement de qualité. Sans données, il est difficile pour une organisation de tirer parti de l’IA et de réfléchir sur elle-même pour devenir plus efficace et prendre des décisions plus éclairées. On sait que le processus pour devenir une entreprise axée sur les données (et en particulier sur l’IA) n’est pas facile.
28% des entreprises qui adoptent l’IA citent le manque d’accès aux données comme raison de l’échec des déploiements. – KDNuggets
De plus, il existe des problèmes d’erreurs et de biais dans les données existantes. Ils sont un peu plus faciles à atténuer par diverses techniques de traitement, mais cela affecte toujours la disponibilité de données de formation fiables. C’est un problème sérieux, mais le manque de données de formation est un problème beaucoup plus difficile, et sa résolution pourrait impliquer de nombreuses initiatives en fonction du niveau de maturité.
Outre la disponibilité et les biais des données, il est un autre aspect très important à mentionner : la confidentialité des données. Les entreprises et les particuliers choisissent systématiquement d’empêcher que les données qu’ils possèdent soient utilisées par des tiers pour la formation de modèles. Le manque de transparence et de législation sur ce sujet est bien connu et est déjà devenu un catalyseur de législature à travers le monde.
Cependant, dans le vaste paysage des technologies orientées données, il en existe une qui vise à résoudre les problèmes mentionnés ci-dessus sous un angle un peu inattendu. Cette technologie est constituée de données synthétiques. Les données synthétiques sont produites par des simulations avec divers modèles et scénarios ou par des techniques d’échantillonnage de sources de données existantes pour créer de nouvelles données qui ne proviennent pas du monde réel.
Les données synthétiques peuvent remplacer ou augmenter les données existantes et être utilisées pour entraîner des modèles de ML, atténuer les biais et protéger les données sensibles ou réglementées. Il est bon marché et peut être produit sur demande en grande quantité selon des statistiques spécifiées.
Les ensembles de données synthétiques conservent les propriétés statistiques des données originales utilisées comme source : les techniques qui génèrent les données obtiennent une distribution conjointe qui peut également être personnalisée si nécessaire. En conséquence, les ensembles de données synthétiques sont similaires à leurs sources réelles mais ne contiennent aucune information sensible. Ceci est particulièrement utile dans les secteurs hautement réglementés tels que la banque et la santé, où l’accès à des données sensibles peut prendre des mois en raison de procédures internes strictes. L’utilisation de données synthétiques dans cet environnement pour les tests, la formation de modèles d’IA, la détection de fraudes et à d’autres fins simplifie le flux de travail et réduit le temps nécessaire au développement.
Tout cela s’applique également à la formation de grands modèles de langage puisqu’ils sont formés principalement sur des données publiques (par exemple, OpenAI ChatGPT a été formé sur Wikipédia, des parties d’index Web et d’autres ensembles de données publiques), mais nous pensons que ce sont les données synthétiques qui constituent un véritable différenciateur. de plus, il existe une limite de données publiques disponibles pour les modèles de formation (à la fois physiques et juridiques) et les données créées par l’homme sont coûteuses, surtout si elles nécessitent des experts.
Produire des données synthétiques
Il existe différentes méthodes pour produire des données synthétiques. Ils peuvent être subdivisés en 3 grandes catégories, chacune avec ses avantages et ses inconvénients :
- Modélisation de processus stochastiques. Les modèles stochastiques sont relativement simples à créer et ne nécessitent pas beaucoup de ressources informatiques, mais comme la modélisation est axée sur la distribution statistique, les données au niveau des lignes ne contiennent aucune information sensible. L’exemple le plus simple de modélisation de processus stochastique peut consister à générer une colonne de nombres basée sur certains paramètres statistiques tels que les valeurs minimales, maximales et moyennes et à supposer que les données de sortie suivent une distribution connue (par exemple aléatoire ou gaussienne).
- Génération de données basée sur des règles. Les systèmes basés sur des règles améliorent la modélisation statistique en incluant des données générées selon des règles définies par les humains. Les règles peuvent être de complexité variable, mais des données de haute qualité nécessitent des règles complexes et un réglage par des experts humains, ce qui limite l’évolutivité de la méthode.
- Modèles génératifs d’apprentissage profond. En appliquant des modèles génératifs d’apprentissage profond, il est possible de former un modèle avec des données réelles et d’utiliser ce modèle pour générer des données synthétiques. Les modèles d’apprentissage profond sont capables de capturer des relations plus complexes et des distributions conjointes d’ensembles de données, mais avec une complexité et des coûts de calcul plus élevés.
Il convient également de mentionner que les LLM actuels peuvent également être utilisés pour générer des données synthétiques. Elle ne nécessite pas de configuration approfondie et peut être très utile à plus petite échelle (ou lorsqu’elle est effectuée uniquement à la demande de l’utilisateur) car elle peut fournir des données structurées et non structurées, mais à plus grande échelle, elle peut être plus coûteuse que les méthodes spécialisées. N’oublions pas que les modèles de pointe sont sujets aux hallucinations. Les propriétés statistiques des données synthétiques provenant du LLM doivent donc être vérifiées avant de les utiliser dans des scénarios où la distribution est importante.
Un exemple intéressant qui peut servir d’illustration de la façon dont l’utilisation de données synthétiques nécessite un changement d’approche de la formation des modèles ML est une approche de validation des modèles.
Dans la modélisation de données traditionnelle, nous disposons d’un ensemble de données (D) qui est un ensemble d’observations tirées d’un processus inconnu du monde réel (P) que nous souhaitons modéliser. Nous divisons cet ensemble de données en un sous-ensemble de formation (T), un sous-ensemble de validation (V) et un sous-ensemble (H) et l’utilisons pour entraîner un modèle et estimer sa précision.
Pour effectuer une modélisation de données synthétiques, nous synthétisons une distribution P’ à partir de notre ensemble de données initial et l’échantillonnons pour obtenir l’ensemble de données synthétiques (D’). Nous subdivisons l’ensemble de données synthétiques en un sous-ensemble d’entraînement (T’), un sous-ensemble de validation (V’) et un sous-ensemble de rétention (H’) comme nous avons subdivisé l’ensemble de données réel. Nous voulons que la distribution P’ soit aussi proche que possible de P puisque nous voulons que la précision d’un modèle formé sur des données synthétiques soit aussi proche de la précision d’un modèle formé sur des données réelles (bien sûr, toutes les garanties de données synthétiques doivent être détenu).
Lorsque cela est possible, la modélisation des données synthétiques doit également utiliser les données de validation (V) et d’exclusion (H) des données source d’origine (D) pour l’évaluation du modèle afin de garantir que le modèle formé sur des données synthétiques (T’) fonctionne bien dans le monde réel. données.
Ainsi, une bonne solution de données synthétiques devrait nous permettre de modéliser P(X, Y) aussi précisément que possible tout en conservant toutes les garanties de confidentialité.
Bien que l’utilisation plus large de données synthétiques pour la formation de modèles nécessite de modifier et d’améliorer les approches existantes, il s’agit à notre avis d’une technologie prometteuse pour résoudre les problèmes actuels de propriété et de confidentialité des données. Leur utilisation appropriée conduira à des modèles plus précis qui amélioreront et automatiseront le processus de prise de décision, réduisant considérablement les risques associés à l’utilisation de données privées.