L'intelligence artificielle apprend à visualiser de vastes ensembles de données

Visualisation de la matrice de similarité P des ensembles de données expérimentés à l’aide de la fonction d’espionnage de Matlab, où les lignes et les colonnes sont triées par les étiquettes de cluster manuelles. Les points bleus indiquent les 1 dans la matrice et les points blancs indiquent les 0. En raison d’une résolution limitée, les figures montrent un sous-échantillon uniforme de 10 % de points de données. Crédit: Statistiques et informatique (2022). DOI : 10.1007/s11222-022-10186-z

Un nouvel algorithme d’IA développé par des chercheurs du Centre finlandais d’intelligence artificielle vise à visualiser les ensembles de données aussi clairement que possible. Le projet a démontré que la solution choisie indépendamment par l’algorithme était souvent très proche de celle la plus couramment privilégiée par les humains.

Le cerveau humain a une capacité étonnante à observer des traits même à partir de très grandes quantités d’informations visuelles. Cette capacité est utilisée, par exemple, dans l’étude de grandes masses de données dont le contenu doit être compacté sous une forme compréhensible pour l’intelligence humaine. Ce problème de réduction dimensionnelle est au cœur de l’analyse visuelle.

Au Centre finlandais d’intelligence artificielle (FCAI), des chercheurs affiliés à l’Université Aalto et à l’Université d’Helsinki ont testé la fonctionnalité des méthodes d’analyse visuelle les plus connues, constatant qu’aucune ne fonctionnait lorsque la quantité de données augmentait de manière significative. Par exemple, les méthodes t-SNE, LargeViz et UMAP n’étaient plus en mesure de distinguer des signaux extrêmement forts de regroupements d’observations dans les données lorsque le nombre d’observations se chiffrait à des centaines de milliers. La recherche est publiée dans la revue Statistiques et informatique.

Les données du boson de Higgs ont inspiré la création d’un nouvel algorithme

L’ensemble de données pour les expériences liées à la découverte du boson de Higgs contient plus de 11 millions de vecteurs de caractéristiques, par exemple.

« Les visualisations tirées d’eux ressemblaient à un enchevêtrement de fils, ne révélant aucune des caractéristiques notables du comportement des particules incluses dans les données », explique le professeur de statistiques et de probabilités Jukka Corander de l’Université d’Helsinki.

« Cette découverte a donné l’impulsion pour développer une nouvelle méthode qui utilise l’accélération graphique de la même manière que les méthodes d’IA modernes pour l’informatique en réseau neuronal. »

L’algorithme d’IA conçu par les chercheurs vise la visualisation, afin que les grappes de données et autres caractéristiques macroscopiques, facilement observables et compréhensibles pour l’homme, soient aussi distinctes que possible.

Dans le cadre du projet, plusieurs volontaires ont testé la technique. Il s’est avéré que la solution choisie indépendamment par l’algorithme était souvent très proche de la solution généralement préférée par les humains ; dans cette situation, l’intelligence humaine distingue clairement, selon des notions personnelles, des grappes de données composées d’observations similaires. Lors de l’application de la technique aux données sur le boson de Higgs, leurs caractéristiques physiques les plus importantes ont été clairement mises en évidence.

« Il s’agit d’un véritable saut quantique dans le domaine de l’analyse visuelle. En plus d’être plusieurs ordres de grandeur plus rapide que les méthodes précédentes, notre technique est également beaucoup plus fiable dans le cadre d’applications difficiles », déclare Corander.

Sous la direction du groupe de Corander, une interface distincte a également été conçue pour utiliser la technique aussi efficacement que possible dans les applications génomiques. De cette façon, les utilisateurs peuvent même analyser leurs ensembles de données de manière interactive en téléchargeant des fichiers directement dans le navigateur Web. Utilisant des ensembles de données bactériens et SARS-CoV-2 mondiaux, cette étude supplémentaire a illustré comment le nouvel outil peut être utilisé pour examiner rapidement jusqu’à des millions de génomes et identifier les caractéristiques pertinentes.

L’étude était une collaboration entre le professeur Sami Kaski, directeur de FCAI, et le groupe de Jukka Corander. Le professeur Zhirong Yang de l’Université norvégienne des sciences et technologies a dirigé le projet. Le professeur Yang est titulaire d’un doctorat de l’Université Aalto et a ensuite travaillé comme chercheur à la fois à l’Université Aalto et à l’Université d’Helsinki dans le groupe du professeur Corander.

Fourni par l’Université d’Helsinki