Les avantages et les inconvénients des données synthétiques dans l'IA

Les données synthétiques sont générées artificiellement par des algorithmes pour imiter les propriétés statistiques des données réelles, sans contenir aucune information provenant de sources réelles. Bien que le nombre de béton soit difficile à épingler, certaines estimations suggèrent que plus de 60% des données utilisées pour les applications d'IA en 2024 étaient synthétiques, et ce chiffre devrait se développer entre les industries.

Étant donné que les données synthétiques ne contiennent pas d'informations réelles, elles détiennent la promesse de sauvegarder la vie privée tout en réduisant le coût et en augmentant la vitesse à laquelle de nouveaux modèles d'IA sont développés. Mais l'utilisation de données synthétiques nécessite une évaluation, une planification et des chèques et contrepoids minutieux pour empêcher la perte de performances lorsque les modèles d'IA sont déployés.

Pour déballer certains avantages et inconvénients de l'utilisation de données synthétiques, le MIT News s'est entretenu avec Kalyan Veeramachaneni, chercheur principal en laboratoire pour l'information et les systèmes de décision et le co-fondateur de Datacebo dont la plate-forme en oreilles ouvertes, le Vault de données synthétiques, aide les utilisateurs à générer et à tester les données synthétiques.

Comment les données synthétiques sont-elles créées?

Les données synthétiques sont générées algorithmiques mais ne proviennent pas d'une situation réelle. Leur valeur réside dans leur similitude statistique avec les données réelles. Si nous parlons de langage, par exemple, les données synthétiques semblent beaucoup avoir écrit ces phrases. Bien que les chercheurs aient créé des données synthétiques depuis longtemps, ce qui a changé au cours des dernières années, c'est notre capacité à créer des modèles génératifs à partir de données et à les utiliser pour créer des données synthétiques réalistes. Nous pouvons prendre un peu de données réelles et construire un modèle génératif à partir de celle, que nous pouvons utiliser pour créer autant de données synthétiques que nous le souhaitons. De plus, le modèle crée des données synthétiques d'une manière qui capture toutes les règles sous-jacentes et les modèles infinis qui existent dans les données réelles.

Il existe essentiellement quatre modalités de données différentes: le langage, la vidéo ou les images, les données audio et tabulaires. Tous les quatre ont des façons légèrement différentes de construire les modèles génératifs pour créer des données synthétiques. Un LLM, par exemple, n'est rien d'autre qu'un modèle génératif à partir duquel vous échantillonnez des données synthétiques lorsque vous lui posez une question.

De nombreuses données de langue et d'image sont accessibles au public sur Internet. Mais les données tabulaires, qui sont les données collectées lorsque nous interagissons avec les systèmes physiques et sociaux, est souvent verrouillée derrière les pare-feu d'entreprise. Une grande partie est sensible ou privée, comme les transactions clients stockées par une banque. Pour ce type de données, des plates-formes comme le Vault de données synthétiques fournissent un logiciel qui peut être utilisé pour créer des modèles génératifs. Ces modèles créent ensuite des données synthétiques qui préservent la confidentialité des clients et peuvent être partagées plus largement.

Une chose puissante à propos de cette approche de modélisation générative pour synthétiser les données est que les entreprises peuvent désormais créer un modèle local personnalisé pour leurs propres données. L'IA générative automatise ce qui était un processus manuel.

Quels sont les avantages de l'utilisation de données synthétiques, et pour quelles cas d'utilisation et applications sont-elles particulièrement bien adaptées?

Une application fondamentale qui s'est considérablement développée au cours de la dernière décennie consiste à utiliser des données synthétiques pour tester les applications logicielles. Il existe une logique axée sur les données derrière de nombreuses applications logicielles, vous avez donc besoin de données pour tester ce logiciel et ses fonctionnalités. Dans le passé, les gens ont eu recours à la génération manuelle de données, mais nous pouvons maintenant utiliser des modèles génératifs pour créer autant de données que nous en avons besoin.

Les utilisateurs peuvent également créer des données spécifiques pour les tests d'application. Dites que je travaille pour une entreprise de commerce électronique. Je peux générer des données synthétiques qui imitent les vrais clients qui vivent dans l'Ohio et ont effectué des transactions relatives à un produit particulier en février ou mars.

Parce que les données synthétiques ne sont pas tirées de situations réelles, elles préservent également la confidentialité. L'un des plus gros problèmes de test de logiciels a été d'avoir accès à des données réelles sensibles pour le test des logiciels dans des environnements non productions, en raison de problèmes de confidentialité. Un autre avantage immédiat est le test de performance. Vous pouvez créer un milliard de transactions à partir d'un modèle génératif et tester la vitesse à laquelle votre système peut les traiter.

Une autre application où les données synthétiques tiennent beaucoup de promesses sont dans la formation de modèles d'apprentissage automatique. Parfois, nous voulons un modèle d'IA pour nous aider à prédire un événement moins fréquent. Une banque peut vouloir utiliser un modèle d'IA pour prédire les transactions frauduleuses, mais il peut y avoir trop peu d'exemples réels pour former un modèle qui peut identifier avec précision la fraude. Les données synthétiques fournissent une augmentation des données – des exemples de données additionnels qui sont similaires aux données réelles. Ceux-ci peuvent améliorer considérablement la précision des modèles d'IA.

De plus, parfois, les utilisateurs n'ont pas le temps ou les ressources financières pour collecter toutes les données. Par exemple, la collecte de données sur l'intention des clients nécessiterait de mener de nombreuses enquêtes. Si vous vous retrouvez avec des données limitées et essayez ensuite de former un modèle, cela ne fonctionnera pas bien. Vous pouvez augmenter en ajoutant des données synthétiques pour mieux former ces modèles.

Quels sont certains des risques ou des pièges potentiels de l'utilisation de données synthétiques, et y a-t-il des étapes que les utilisateurs peuvent prendre pour prévenir ou atténuer ces problèmes?

L'une des plus grandes questions que les gens ont souvent dans leur esprit est que si les données sont créées synthétiquement, pourquoi devrais-je leur faire confiance? Déterminer si vous pouvez faire confiance aux données se résume souvent à évaluer le système global où vous les utilisez.

Il existe de nombreux aspects des données synthétiques que nous avons pu évaluer depuis longtemps. Par exemple, il existe des méthodes existantes pour mesurer à quel point les données synthétiques sont étroites aux données réelles, et nous pouvons mesurer leur qualité et s'ils préservent la confidentialité. Mais il existe d'autres considérations importantes si vous utilisez ces données synthétiques pour former un modèle d'apprentissage automatique pour un nouveau cas d'utilisation. Comment sauriez-vous que les données vont conduire à des modèles qui tirent encore des conclusions valides?

De nouvelles mesures d'efficacité sont émergentes et l'accent est mis sur l'efficacité d'une tâche particulière. Vous devez vraiment creuser dans votre flux de travail pour vous assurer que les données synthétiques que vous ajoutez au système vous permettent toujours de tirer des conclusions valides. C'est quelque chose qui doit être fait attentivement sur une base d'application par application.

Le biais peut également être un problème. Puisqu'il est créé à partir d'une petite quantité de données réelles, le même biais qui existe dans les données réelles peut reprendre les données synthétiques. Tout comme avec les données réelles, vous devez vous assurer délibérément que le biais est supprimé via différentes techniques d'échantillonnage, qui peuvent créer des ensembles de données équilibrés. Il faut une planification minutieuse, mais vous pouvez calibrer la génération de données pour éviter la prolifération du biais.

Pour aider au processus d'évaluation, notre groupe a créé la bibliothèque de métriques de données synthétiques. Nous craignons que les gens utilisent des données synthétiques dans leur environnement et que cela donnerait différentes conclusions dans le monde réel. Nous avons créé une bibliothèque de métriques et d'évaluation pour assurer les chèques et les soldes. La communauté de l'apprentissage automatique a été confrontée à de nombreux défis pour garantir que les modèles peuvent se généraliser à de nouvelles situations. L'utilisation de données synthétiques ajoute une toute nouvelle dimension à ce problème.

Je m'attends à ce que les anciens systèmes de travail avec les données, de créer des applications logicielles, de répondre à des questions analytiques ou de modèles de train, changent considérablement à mesure que nous devenons plus sophistiqués pour construire ces modèles génératifs. Beaucoup de choses que nous n'avons jamais pu faire auparavant seront maintenant possibles.