Les scientifiques parviennent à un transfert de données interdomaine optimal à l’aide de réseaux de neurones
Des chercheurs de Skoltech et de l’Institut de recherche sur l’intelligence artificielle (AIRI) ont développé un nouvel algorithme pour un transfert de données optimal entre domaines à l’aide de réseaux de neurones. Contrairement à la plupart des techniques similaires, la nouvelle méthode ne nécessite pas d’ensembles de données d’apprentissage appariés, tels que des échantillons d’entrée-sortie, et peut être entraînée sur des ensembles de données indépendants des domaines d’entrée et de sortie. L’algorithme produit un résultat plus interprétable que les autres approches existantes et repose sur une base théorique solide.
Les modèles d’apprentissage automatique modernes conçus pour des applications telles que la reconnaissance faciale ou vocale et l’analyse d’images médicales nécessitent de grands ensembles de données de formation difficiles à obtenir. C’est pour cette raison que les chercheurs et ingénieurs doivent créer des données synthétiques correspondant à celles disponibles dans la réalité. La tâche est largement facilitée par les modèles génératifs qui ont récemment fait d’énormes progrès en termes de qualité des textes et des images.
Les modèles génératifs aident à synthétiser des données à partir d’autres données, en d’autres termes, à déplacer un domaine dans un autre. Par exemple, un réseau de neurones peut créer une image numérique à partir d’un croquis dessiné par un humain ou améliorer les détails fins d’une image satellite. Ces tâches nécessitent généralement des échantillons d’apprentissage appariés et des ensembles d’images d’entrée-sortie qu’un réseau de neurones apprend à généraliser et à étendre à de nouvelles images entrantes, ce qui permet de traiter entre autres plusieurs images identiques de qualité différente.
Étant donné que les données appariées sont généralement très coûteuses ou difficiles à obtenir, les chercheurs doivent se contenter d’ensembles de données indépendants, ce qui rend plus difficile l’obtention d’un bon résultat.
« Les approches standard pour la construction de modèles génératifs pour le transfert de domaine sont en grande partie heuristiques et dépendent de plusieurs hyperparamètres qui affectent les résultats de la formation et ne sont pas facilement sélectionnables. De plus, ces approches manquent d’un cadre mathématiquement rigoureux. En conséquence, la formation de modèles est un processus instable que vous Sans surprise, des conclusions théoriques rigoureuses sur les résultats de la formation sont également difficiles à obtenir », a commenté le professeur Evgeny Burnaev, directeur de l’IA de Skoltech et chef d’équipe de recherche à l’AIRI.
Dans ses recherches, l’équipe a revisité les travaux du mathématicien et économiste soviétique Leonid Kantorovich et a utilisé ses idées sur le transport optimal des marchandises (la théorie du transport optimal) pour créer un nouvel algorithme de planification du transport optimal des données entre les domaines. Le nouvel algorithme, appelé Neural Optimal Transport, utilise des réseaux de neurones profonds et des ensembles de données indépendants.
Lorsqu’il est testé sur un transfert de domaine non apparié, l’algorithme surpasse les méthodes existantes dans plusieurs tâches, y compris le style d’image. De plus, contrairement à d’autres techniques, elle nécessite moins d’hyperparamètres, qui sont généralement difficiles à régler, produit un résultat plus interprétable et repose sur une base mathématique solide.
« Les méthodes numériques de transport optimal sont largement utilisées depuis plusieurs années pour construire des réseaux de neurones génératifs. Nos recherches exploratoires ont montré que ces modèles calculent le transport optimal avec une erreur très élevée. Nous avons réussi non seulement à trouver les raisons de l’erreur, mais aussi à effectuer des analyses et développer des moyens efficaces fondamentalement nouveaux pour créer des modèles génératifs pour le transfert de domaine non apparié basés sur la théorie du transport optimal », a déclaré Alexander Korotin, chercheur à l’AIRI et chef de l’équipe de recherche de Skoltech.
La recherche est publiée sur le arXiv serveur de préimpression.