Un nouvel algorithme permet un apprentissage automatique efficace avec des structures de données symétriques
Si vous faites pivoter une image d'une structure moléculaire, un humain peut dire que l'image tournée est toujours la même molécule, mais un modèle d'apprentissage machine peut penser qu'il s'agit d'un nouveau point de données. Dans le langage informatique, la molécule est «symétrique», ce qui signifie que la structure fondamentale de cette molécule reste la même si elle subit certaines transformations, comme la rotation.
Si un modèle de découverte de médicaments ne comprend pas la symétrie, il pourrait faire des prédictions inexactes sur les propriétés moléculaires. Mais malgré certains succès empiriques, il n'est pas clair s'il existe une méthode efficace pour former un bon modèle qui est garanti pour respecter la symétrie.
Une nouvelle étude des chercheurs du MIT répond à cette question et montre la première méthode d'apprentissage automatique avec symétrie qui est prouvable en termes de calcul et de données nécessaires.
Ces résultats clarifient une question fondamentale, et ils pourraient aider les chercheurs dans le développement de modèles d'apprentissage machine plus puissants conçus pour gérer la symétrie. Ces modèles seraient utiles dans une variété d'applications, de la découverte de nouveaux matériaux à l'identification des anomalies astronomiques à la démêlage des modèles climatiques complexes.
« Ces symétries sont importantes car elles constituent une sorte d'informations que la nature nous dit sur les données, et nous devons le prendre en compte dans nos modèles d'apprentissage machine. Nous avons maintenant montré qu'il est possible de faire l'apprentissage automatique avec des données symétriques d'une manière efficace », a déclaré Behrooz Tahmasebi, un étudiant diplômé du MIT et un auteur de co-lavabo de l'étude maintenant publiée sur la arxiv serveur de préimprimée.
Il est rejoint sur le journal par l'auteur co-dirigé et étudiant diplômé du MIT Ashkan Soleymani; Stefanie Jegelka, professeur agrégé de génie électrique et informatique (EECS) et membre de l'Institut pour les données, les systèmes et la société (IDSS) et le laboratoire d'informatique et d'intelligence artificielle (CSAIL); et l'auteur principal Patrick Jaillet, le professeur de génie électrique et d'informatique de Dugald C. Jackson et d'informatique principale en laboratoire pour l'information et les systèmes de décision (LIDS). La recherche a récemment été présentée à la Conférence internationale sur l'apprentissage automatique (ICML 2025) qui s'est tenue du 13 au 19 juillet à Vancouver.
Étudier la symétrie
Les données symétriques apparaissent dans de nombreux domaines, en particulier les sciences naturelles et la physique. Un modèle qui reconnaît les symétries est capable d'identifier un objet, comme une voiture, peu importe où cet objet est placé dans une image, par exemple.
À moins qu'un modèle d'apprentissage en machine ne soit conçu pour gérer la symétrie, il peut être moins précis et sujet à la défaillance face à de nouvelles données symétriques dans des situations réelles. D'un autre côté, les modèles qui profitent de la symétrie pourraient être plus rapides et nécessitent moins de données pour la formation.
Mais la formation d'un modèle pour traiter les données symétriques n'est pas une tâche facile.
Une approche courante est appelée augmentation des données, où les chercheurs transforment chaque point de données symétrique en plusieurs points de données pour aider le modèle à mieux se généraliser aux nouvelles données. Par exemple, on pourrait faire tourner une structure moléculaire plusieurs fois pour produire de nouvelles données de formation, mais si les chercheurs souhaitent que le modèle soit garanti pour respecter la symétrie, cela peut être prohibitif par calcul.
Une approche alternative consiste à coder la symétrie dans l'architecture du modèle. Un exemple bien connu de ceci est un réseau de neurones graphiques (GNN), qui gère intrinsèquement les données symétriques en raison de la façon dont elle est conçue.
« Les réseaux de neurones graphiques sont rapides et efficaces, et ils s'occupent assez de la symétrie, mais personne ne sait vraiment ce que ces modèles apprennent ou pourquoi ils fonctionnent. Comprendre les GNNS est une motivation principale de notre travail, alors nous avons commencé par une évaluation théorique de ce qui se passe lorsque les données sont symétriques », dit Tahmasebi.
Ils ont exploré le compromis statistique-ordinateur dans l'apprentissage automatique avec des données symétriques. Ce compromis signifie que des méthodes qui nécessitent moins de données peuvent être plus coûteuses en calcul, les chercheurs doivent donc trouver le bon équilibre.
S'appuyant sur cette évaluation théorique, les chercheurs ont conçu un algorithme efficace pour l'apprentissage automatique avec des données symétriques.
Combinaisons mathématiques
Pour ce faire, ils ont emprunté des idées à l'algèbre pour rétrécir et simplifier le problème. Ensuite, ils ont reformulé le problème en utilisant des idées de la géométrie qui capturent efficacement la symétrie.
Enfin, ils ont combiné l'algèbre et la géométrie en un problème d'optimisation qui peut être résolu efficacement, entraînant leur nouvel algorithme.
« La plupart de la théorie et des applications se concentraient sur l'algèbre ou la géométrie. Ici, nous venons de les combiner », explique Tahmasebi.
L'algorithme nécessite moins d'échantillons de données pour la formation que les approches classiques, ce qui améliorerait la précision et la capacité d'un modèle à s'adapter aux nouvelles applications.
En prouvant que les scientifiques peuvent développer des algorithmes efficaces pour l'apprentissage automatique avec une symétrie, et démontrant comment cela peut être fait, ces résultats pourraient conduire au développement de nouvelles architectures de réseau neuronal qui pourraient être plus précises et moins à forte intensité de ressources que les modèles actuels.
Les scientifiques pourraient également utiliser cette analyse comme point de départ pour examiner le fonctionnement interne des GNN, et comment leurs opérations diffèrent de l'algorithme que les chercheurs du MIT ont développé.
« Une fois que nous le savons mieux, nous pouvons concevoir des architectures de réseau neuronal plus interprétables, plus robustes et plus efficaces », ajoute Soleymani.
