Le zénith de l'analyse des données

La représentation graphique délimite la différence entre les méthodologies conventionnelles et DRS. Contrairement aux méthodes traditionnelles qui calculent des distributions de probabilité complexes à chaque étape – A, B et C – le DRS permet un échantillonnage rapide en établissant d’abord un espace d’échantillonnage avec des probabilités simples pour A, B et C, puis en sélectionnant des valeurs. Cela élimine le besoin de calculs élaborés de distribution de probabilité. Crédit : POSTECH

Le monde a été témoin d’une confrontation monumentale entre l’intelligence humaine et l’intelligence artificielle en mars 2016. Le programme informatique AlphaGo a perfectionné ses compétences à partir d’une base de données substantielle et est sorti victorieux contre un adversaire humain dans Go, un jeu réputé pour sa complexité dans le calcul d’innombrables mouvements possibles. .

L’importance des données de qualité pour l’évolution continue de l’IA est indéniable. L’IA s’est intégrée de manière transparente dans des secteurs tels que la santé, la finance et l’éducation, tandis que ses progrès dépendent fortement de la disponibilité de données solides pour l’apprentissage.

Les données sont généralement stockées dans des groupes distribués appelés tables. Pour qu’une IA puisse glaner des informations à partir de ces données stockées dans des tables, un processus de « jointure » est déployé pour fusionner ces tables disparates en une seule table complète. L’échelle même de cette table résultante présente des défis en termes de stockage, tandis que le processus de jointure lui-même peut prendre beaucoup de temps. Même maintenant, le développement de techniques pour un échantillonnage rapide et uniforme des données à partir de tables reste un casse-tête complexe à résoudre en science des données.

Dans une percée significative, une équipe de recherche POSTECH dirigée par le professeur Wook-Shin Han (École supérieure d’intelligence artificielle) avec Ph.D. Le candidat Kyoungmin Kim (Department of Convergence IT Engineering) a proposé une nouvelle méthode pour un échantillonnage optimal des données stockées dans différentes tables. Cette nouvelle technique a réussi à générer des résultats rapidement.

La recherche a été publiée dans le cadre de la Actes du 42e symposium ACM SIGMOD-SIGACT-SIGAI sur les principes des systèmes de bases de données (PODS 2023). Cela a marqué une occasion capitale car c’était la première fois qu’un article d’une équipe de recherche coréenne était présenté à ce symposium en 42 ans d’histoire.

Les chercheurs ont mis au point une méthode appelée échantillonnage de rejet basé sur le degré (DRS), qui relève du méta-échantillonnage. Les méthodes conventionnelles nécessitaient le pré-calcul des probabilités pour chaque valeur dans l’espace échantillon avant qu’une valeur puisse être extraite directement. En revanche, la méthode DRS proposée par l’équipe commence par l’extraction d’un espace d’échantillonnage avec une distribution de probabilité simple basée sur le degré de valeurs spécifiques, puis tire des valeurs de cet espace d’échantillonnage.

L’équipe a démontré de manière convaincante qu’au moins un espace d’échantillonnage offre une plus grande probabilité que les probabilités élaborées calculées via des méthodologies traditionnelles pour toute valeur aléatoire pouvant être sélectionnée. Cela implique que les valeurs peuvent être obtenues avec des probabilités similaires à celles des méthodes traditionnelles via l’échantillonnage par rejet. De cette manière, seule la probabilité d’extraire un espace d’échantillonnage est simplement multipliée comme une valeur constante par la probabilité d’échantillonner une valeur, évitant des calculs de probabilité complexes et permettant un échantillonnage rapide des données.

De plus, l’équipe a utilisé une technique connue sous le nom de décompositions hyper-arborescentes généralisées (GHD) pour étendre la méthode, qui consiste à analyser une requête dans un format arborescent lors de la procédure de jointure des tables d’intégration. Si une requête entière est traitée à l’aide d’un algorithme de jointure singulier, cela peut entraîner une complexité temporelle élevée, en particulier lorsque la requête contient plusieurs relations de jointure.

L’utilisation de GHD permet d’effectuer des opérations de jointure sur des sous-requêtes plus petites au lieu de la requête entière, puis de combiner les résultats, réduisant ainsi la complexité temporelle. L’équipe de recherche a intégré les GHD au DRS pour augmenter ce dernier, garantissant une complexité inférieure à celle du DRS d’origine dans certains cas.

À la tête de la recherche, le professeur Wook-Shin Han a exprimé de grands espoirs pour cette méthode innovante, déclarant : « Cette technique peut être appliquée universellement à toutes les requêtes, que les structures de données forment un arbre, présentant des relations hiérarchiques, ou un cycle, représentant des cercles Il promet d’améliorer considérablement la vitesse et la précision du processus d’échantillonnage des données pour l’apprentissage automatique. »