Une étude présente une nouvelle méthode pour un meilleur regroupement dans l'analyse des données

Une étude présente une nouvelle méthode pour un meilleur regroupement dans l'analyse des données

Des chercheurs de l'université Carnegie Mellon et de l'université de Californie à Berkeley ont mis au point une nouvelle méthode pour améliorer la manière dont les ordinateurs organisent et analysent de grands ensembles de données. Cette avancée améliore la capacité à extraire des informations des graphes de connaissances, ce qui a un impact sur la capacité à analyser les réseaux sociaux et le comportement des clients.

La nouvelle méthode expliquée dans une étude menée par Benjamin Moseley, professeur associé de recherche opérationnelle Carnegie Bosch à la Tepper School of Business de Carnegie Mellon, permet de regrouper plus efficacement les éléments similaires tout en séparant les éléments différents.

L'article paraîtra dans le cadre de la conférence ICALP, le Colloque international sur les automates, les langages et la programmation, qui a eu lieu en juillet 2024.

« Notre nouvel algorithme peut améliorer considérablement la façon dont nous analysons de grands ensembles de données, que ce soit pour améliorer les plateformes de médias sociaux en détectant avec précision les communautés d'utilisateurs ou pour faire progresser la recherche médicale en comprenant mieux les interactions génétiques », a déclaré Moseley.

Il a noté qu'une tendance clé dans l'analyse commerciale est la capacité à travailler avec des graphiques de connaissances, qui montrent des informations telles que le comportement des clients ou les processus commerciaux. Cet article se concentre sur le clustering, une méthode courante pour extraire des informations de ces graphiques. La nouvelle méthode de cette étude permet de regrouper des éléments similaires plus efficacement tout en séparant les éléments différents.

Organiser correctement des quantités massives de données est un défi en raison des incohérences et du volume considérable d'informations. Moseley et son équipe se sont attachés à créer un algorithme capable de regrouper rapidement et avec précision des points de données. Ils ont utilisé des structures mathématiques composées de nœuds, qui représentent des points de données, et d'arêtes, qui sont des connexions entre les nœuds. L'algorithme fonctionne en évaluant ces connexions et en déterminant la meilleure façon de regrouper des nœuds similaires.

Les résultats ont montré que leur algorithme est plus rapide et plus précis que les méthodes précédentes. Il peut gérer de grands ensembles de données plus efficacement, ce qui le rend pratique pour les applications du monde réel.

« Notre nouvelle méthode est plus rapide que toutes les méthodes précédentes pour minimiser les erreurs lors du regroupement des données », a déclaré Sami Davies, chercheur en informatique théorique à l'Université de Californie à Berkeley. « Notre méthode est également plus flexible, dans le sens où nous pouvons regrouper les données d'une manière qui convient à de nombreux objectifs différents simultanément. »

Les chercheurs prévoient de continuer à affiner leur méthode et d’explorer ses applications dans différents domaines. Ces travaux en cours pourraient conduire à une analyse des données encore plus précise et approfondie.

Heather Newman, candidate au doctorat dans le programme de doctorat en algorithmes, combinatoire et optimisation à la Tepper School, était également co-auteur.