Technique de visualisation pour favoriser les découvertes scientifiques, l'analyse des clients, etc.

Technique de visualisation pour favoriser les découvertes scientifiques, l’analyse des clients, etc.

Six méthodes de réduction de la dimensionnalité des données convertissent un squelette de mammouth tridimensionnel en une représentation plate en deux dimensions. La méthode utilisée par l’équipe Skoltech-AIRI (6), appelée RTD-AE, est visiblement meilleure pour préserver l’original « forme » des données, par rapport aux autres techniques populaires : (1) t-SNE, (2) UMAP, (3) PaCMAP, (4) Autoencoder et (5) TopoAE. Crédit : Ilya Trofimov/Skoltech

Des chercheurs de Skoltech et AIRI, Institut de recherche sur l’intelligence artificielle, ont mis au point une technique de visualisation qui rend des ensembles de données biomédicales, financières et autres très complexes accessibles aux humains sans sacrifier leur structure multidimensionnelle. Conserver cette soi-disant topologie des données est crucial pour tirer des conclusions sur les gènes du cancer, le comportement des consommateurs, etc. Pourtant, les méthodes existantes ne sont pas bonnes pour cela. L’étude sera présentée sous la forme d’un document de conférence à ICLR 2023et le document est disponible sur le arXiv serveur de préimpression.

Les analystes et les scientifiques d’entreprise doivent souvent donner un sens à des ensembles de données où chaque élément est caractérisé selon de nombreuses soi-disant dimensions. Par exemple, une banque peut noter chacun de ses clients pour un large éventail d’indicateurs de comportement. Les biologistes considèrent diverses cellules en fonction de l’activité de chacun d’un grand nombre de gènes. Les données météorologiques sont également de cette nature, en raison du nombre de paramètres signalés à chaque instant et à chaque endroit.

Pourtant, les gens ne sont pas habitués à penser dans de nombreuses dimensions, et sans réduire l’ensemble de données à une représentation soignée en deux ou trois dimensions, il peut être difficile de formuler des hypothèses significatives et de reconnaître des modèles importants.

« La visualisation rend les données intuitives, mais elle ne révèle pas nécessairement leur « forme ». Un jeu de données peut avoir une structure à grande échelle, avec des clusters, des vides, des boucles, etc., et nous voulons que tout cela soit également dans la représentation à dimension réduite. Les physiciens en ont besoin pour reconnaître des particules distinctes dans une myriade de signaux de détection, les chercheurs du marché en ont besoin pour identifier les groupes de consommateurs, les climatologues en ont besoin pour dire où un certain processus commence et où il se termine. Contrairement à d’autres techniques, la nôtre permet de réduire la dimensionnalité sans compromettre la structure globale des données, » a déclaré le co-auteur Daniil Cherniavskii.

Il existe un certain nombre d’approches pour réduire la dimensionnalité des données, certaines utilisant ce que l’on appelle des auto-encodeurs. Ce sont des réseaux de neurones qui créent des représentations de dimensionnalité inférieure des données. « Le problème est que la plupart des techniques utilisées, y compris celles impliquant des auto-encodeurs, fonctionnent localement. Ils se soucient de la position d’un point de données par rapport aux points voisins, mais la structure à grande échelle est perdue, » dit Cherniavski.

« Ce que nous avons fait, c’est que nous avons complété l’auto-encodeur avec une nouvelle fonction de perte supplémentaire. Son seul but est de minimiser les écarts topologiques entre l’ensemble de données initial et sa représentation de faible dimension. Avec une perte égale à zéro, la « forme » de la visualisation est garantie de correspondre à celle de l’original. »

L’équipe a testé dans quelle mesure la topologie de l’ensemble de données est préservée à l’aide de plusieurs mesures qui capturent la qualité de la conservation des positions relatives des points de données en général, et pas seulement ceux du voisinage immédiat. Le test, qui englobait des ensembles de données de nature variable, a confirmé que la solution de l’équipe surpassait toutes les méthodes les plus populaires de réduction de la dimensionnalité (voir l’image ci-dessus).

« L’analyse des données topologiques devient un outil de plus en plus populaire pour étudier les propriétés des données multidimensionnelles. Nous prévoyons que la méthode que nous avons développée et d’autres approches similaires deviendront la norme dans un avenir proche, » a déclaré le co-auteur de l’étude, le professeur Evgeny Burnaev de Skoltech Applied AI et AIRI.

Fourni par l’Institut des sciences et technologies de Skolkovo