Un algorithme d'apprentissage en profondeur léger et économe en énergie pour la future intelligence artificielle optique

Un algorithme d’apprentissage en profondeur léger et économe en énergie pour la future intelligence artificielle optique

Crédit : Le concept de l’algorithme d’apprentissage en profondeur léger et économe en énergie pour le traitement en parallèle des reconstructions faciales génériques.

Une nouvelle publication de Avancées optoélectroniques discute d’un modèle de reconstruction de visage générique « non local » à haute performance utilisant l’Unet léger Speckle-Transformer (SpT).

En exploitant les capacités d’extraction et de généralisation des caractéristiques des réseaux neuronaux informatiques avancés existants, combinées à la vitesse de la lumière, à la faible consommation d’énergie et aux capacités de traitement du signal optique multidimensionnel parallèle des algorithmes d’intelligence artificielle optique, l’intelligence artificielle optique pour l’imagerie computationnelle (CI) est conçu et développé.

Des progrès significatifs ont été réalisés en CI, dans lesquels les réseaux de neurones convolutifs électriques (CNN) ont démontré que la reconstruction d’images allant de l’imagerie médicale non invasive à travers les tissus à la navigation autonome des véhicules dans des conditions de brouillard peut être reconstruite. Cependant, en raison de la taille limitée du noyau « local » de l’opérateur convolutif, les performances des CNN sont inexactes pour les modèles spatialement denses, tels que les images de visage génériques. Par conséquent, un noyau « non local » capable d’extraire les dépendances à long terme des cartes de caractéristiques est nécessaire de toute urgence. Les transformateurs sont des modules qui reposent entièrement sur le mécanisme d’attention et peuvent être facilement parallélisés.

De plus, le transformateur suppose une connaissance préalable minimale de la structure du problème par rapport à ses homologues convolutionnels et récurrents dans l’apprentissage en profondeur. En vision, les transformateurs ont été utilisés avec succès pour la reconnaissance d’images, la détection d’objets, la segmentation, la super-résolution d’images, la compréhension vidéo, la génération d’images, la synthèse texte-image, etc. Cependant, sur la base des connaissances actuelles, aucune des enquêtes n’a exploré les performances des transformateurs en CI, comme la reconstruction du chatoiement.

Dans cet article, un modèle « non local », appelé Speckle-Transformer (SpT) UNet, est mis en œuvre pour un traitement parallèle très précis et économe en énergie des reconstructions de speckle. Le réseau est une architecture UNet comprenant des blocs d’encodeur et de décodeur de transformateur avancés.

Pour une meilleure réservation/extraction de caractéristiques, les auteurs proposent et démontrent trois mécanismes clés, à savoir la normalisation pré-lot (pré-BN), le codage de position dans l’attention multi-tête/attention croisée multi-tête (MHA/MHCA) et l’auto- -construire des pipelines d’échantillonnage vers le haut/vers le bas. Pour l’acquisition de données « évolutives », quatre grains différents de diffuseurs dans la plage de détection de 40 mm sont pris en compte. Il convient de noter que le SpT UNet est un réseau léger qui est inférieur à un ordre de paramètres par rapport à d’autres réseaux « non locaux » de pointe, tels que ViT et SWIN Transformer dans le calcul de la vision.

Les auteurs évaluent en outre quantitativement les performances du réseau avec quatre indicateurs scientifiques : le coefficient de corrélation de Pearson (PCC), la mesure de similarité structurelle (SSIM), l’indice de Jaccard (JI) et le rapport signal/bruit de crête (PSNR). Le SpT UNet léger révèle une efficacité élevée et de solides performances comparatives avec le coefficient de corrélation de Pearson (PCC) et la mesure de similarité structurelle (SSIM) dépassant respectivement 0,989 et 0,950. Pour l’intelligence artificielle optique, en tant que modèle de traitement en parallèle, le SpT UNet léger peut être mis en œuvre en tant que réseau de neurones tout optique avec des capacités d’extraction de caractéristiques, de vitesse de la lumière et de traitement passif supérieures.


Fourni par Compuscript Ltd