Comment assurer des données sans fil synthétiques de haute qualité lorsque les données réelles sont sèches

Pour former des modèles d'intelligence artificielle (IA), les chercheurs ont besoin de bonnes données et beaucoup. Cependant, la plupart des données du monde réel ont déjà été utilisées, ce qui a conduit les scientifiques à générer des données synthétiques. Bien que les données générées aident à résoudre le problème de la quantité, il n'a pas toujours de bonne qualité et l'évaluation de sa qualité a été négligée.

Wei Gao, professeur agrégé de génie électrique et informatique à la University of Pittsburgh Swanson School of Engineering, a collaboré avec des chercheurs de l'Université de Peking pour développer des mesures analytiques pour évaluer qualitativement la qualité des données sans fil synthétiques. Les chercheurs ont créé un nouveau cadre qui améliore considérablement la formation axée sur les tâches des modèles d'IA à l'aide de données sans fil synthétiques.

Leur travail est détaillé sur le arxiv Un serveur préalable dans une étude intitulé «Les données peuvent parler de lui-même: utilisation guidée par la qualité des données synthétiques sans fil», qui a reçu le prix du meilleur article en juin à la Conférence internationale de Mobisys 2025 sur les systèmes mobiles, les applications et les services.

Évaluation de l'affinité et de la diversité

« Les données synthétiques sont vitales pour la formation des modèles d'IA, mais pour les modalités telles que les images, la vidéo ou le son, et en particulier les signaux sans fil, la génération de bonnes données peut être difficile », a déclaré Gao, qui dirige également le Pitt Intelligent Systems Laboratory.

Le GAO a développé des mesures pour quantifier l'affinité et la diversité, des qualités essentielles pour les données synthétiques à utiliser pour former efficacement les modèles d'IA.

« Les données générées ne doivent pas être aléatoires », a déclaré Gao. « Prenez des visages humains. Si vous entraînez un modèle d'IA pour identifier les visages humains, vous devez vous assurer que les images des visages représentent des visages réels. Ils ne peuvent pas avoir trois yeux ou deux nez. Ils doivent avoir une affinité. »

Les images ont également besoin de diversité. La formation d'un modèle d'IA sur un million d'images d'un visage identique n'atteindra pas grand-chose. Bien que les visages doivent avoir une affinité, ils doivent également être différents, comme le sont les visages humains. Comme Gao l'a noté, «les modèles d'IA apprennent de la variation».

Différentes tâches ont des exigences différentes pour juger l'affinité et la diversité. Reconnaître un visage humain spécifique est différent de le distinguer de celui d'un chien ou d'un chat, chaque tâche ayant des exigences de données uniques. Par conséquent, en évaluant systémiquement la qualité des données synthétiques, l'équipe a appliqué une approche spécifique à la tâche.

« Nous avons appliqué notre méthode aux tâches en aval et évalué les travaux existants de synthèse des données », a déclaré Gao. « Nous avons constaté que la plupart des données synthétiques avaient obtenu une bonne diversité, mais certains avaient des problèmes à satisfaire une affinité, en particulier les signaux sans fil. »

Le défi des données sans fil synthétiques

Aujourd'hui, les signaux sans fil sont utilisés dans des technologies telles que la surveillance à domicile et au sommeil, les jeux interactifs et la réalité virtuelle. Le téléphone portable et les signaux Wi-Fi, comme ondes radio, frappent des objets et rebondissent vers leur source. Ces signaux peuvent être interprétés pour indiquer tout, des habitudes de sommeil à la forme d'une personne assise sur un canapé.

Pour faire progresser cette technologie, les chercheurs ont besoin de plus de données sans fil pour former des modèles pour reconnaître les comportements humains dans les modèles de signal. Cependant, en tant que forme d'onde, les signaux sont difficiles à évaluer pour les humains.

Ce n'est pas comme les visages humains, qui peuvent être clairement définis. « Nos recherches ont révélé que les données sans fil synthétiques actuelles sont limitées dans son affinité », a déclaré Gao. « Cela conduit à des données mal étiquetées et à des performances de tâche dégradées. »

Pour améliorer l'affinité dans les signaux sans fil, les chercheurs ont adopté une approche d'apprentissage semi-supervisée. « Nous avons utilisé une petite quantité de données synthétiques étiquetées, qui ont été vérifiées comme légitimes », a déclaré Gao. « Nous avons utilisé ces données pour enseigner au modèle ce qui est et n'est pas légitime. »

GAO et ses collaborateurs ont développé Syncheck, un cadre qui filtre les échantillons sans fil synthétiques avec une faible affinité et étiquette les échantillons restants lors de la formation itérative d'un modèle.

« Nous avons constaté que notre système améliore les performances de 4,3% alors qu'une utilisation non sélective des données sans fil synthétiques dégrade les performances de 13,4% », a noté GAO.

Cette recherche fait un premier pas important vers l'assurance non seulement un flux sans fin de données, mais de données de qualité que les scientifiques peuvent utiliser pour former des modèles d'IA plus sophistiqués.