Utilisation de l'apprentissage en profondeur basé sur un modèle pour obtenir un affichage holographique couleur 4K haute fidélité

Utilisation de l’apprentissage en profondeur basé sur un modèle pour obtenir un affichage holographique couleur 4K haute fidélité

Fig. 1 Processus de génération et de reconstruction d’hologrammes 4K par le 4K-DMDNet. Crédit: Avancées optoélectroniques (2023). DOI : 10.29026/oea.2023.220135

En 2009, le film IMAX 3D « Avatar » a balayé le marché mondial du film. Quelques années plus tard, le concert Hatsune Miku 3D a attiré l’attention de tous les fans d’anime. Et récemment, les casques AR/VR 3D ont conduit à un développement fulgurant du métaverse. Chaque progrès dans le domaine de l’affichage 3D apporte des préoccupations sociales essentielles et des avantages économiques.

Pour obtenir des expériences visuelles plus réalistes, la plupart des solutions commerciales grand public pour l’affichage 3D sont basées sur les principes de la vision binoculaire.

Cependant, contrairement à l’observation d’objets 3D réels, la profondeur de champ visuel reste inchangée pendant que le spectateur porte l’appareil pour obtenir des informations 3D. Ce type de conflit d’accommodation de vergence rend le spectateur sensible à la fatigue visuelle et au vertige, limitant les expériences de l’utilisateur.

L’holographie générée par ordinateur (CGH) peut éviter la génération d’un conflit d’accommodation de vergence depuis l’origine. Les montages expérimentaux sont simples et compacts. CGH a reçu une attention considérable de la part des universités et de l’industrie. Il est considéré comme la future forme d’affichage 3D.

En principe, CGH code l’objet 3D en un hologramme numérique bidimensionnel (2D) basé sur des calculs diffractifs. Et puis l’hologramme 2D est téléchargé vers un modulateur spatial de lumière (SLM) éclairé par des ondes planes. La reconstruction optique de l’objet 3D est obtenue à une certaine distance. CGH a des applications potentielles dans une large gamme d’affichages 3D tels que les visiocasques, les affichages tête haute et les écrans de projection.

Comment générer des hologrammes 2D à haute vitesse et de haute qualité est une question clé et une direction de recherche essentielle dans ce domaine à l’heure actuelle.

Récemment, Hololab de l’Université de Tsinghua a proposé un réseau neuronal d’apprentissage en profondeur basé sur un modèle, appelé 4K-DMDNet. Il réalise la génération d’hologrammes haute vitesse de haute qualité et réalise des affichages holographiques couleur 4K haute fidélité. L’article est publié dans la revue Avancées optoélectroniques.

Utilisation de l'apprentissage en profondeur basé sur un modèle pour obtenir un affichage holographique couleur 4K haute fidélité

Fig. 2 Comparaison de (a) l’apprentissage en profondeur basé sur les données avec (b) 4K-DMDNet en termes de principe de formation. Crédit: Avancées optoélectroniques (2023). DOI : 10.29026/oea.2023.220135

En raison des limites du SLM, les distributions d’amplitude complexe calculées sur le plan holographique doivent être converties en hologrammes d’amplitude uniquement ou en hologrammes de phase uniquement (POH). Parmi eux, le processus de génération de POH est typiquement un problème inverse mal posé. Il a les défis que la solution peut ne pas être unique, stable ou existante.

Les algorithmes itératifs peuvent convertir le processus de génération de POH en problème d’optimisation. Des solutions numériques avec une bonne convergence peuvent être obtenues. Cependant, les algorithmes font face à un compromis entre vitesse de calcul et qualité de reconstruction.

Les puissantes capacités de traitement parallèle de l’apprentissage en profondeur ont apporté des améliorations révolutionnaires dans la résolution des problèmes d’optimisation. Les impacts profonds de l’apprentissage en profondeur sur CGH ont également été réalisés.

L’ensemble de données d’apprentissage d’objets 3D et l’ensemble de données d’hologramme correspondant sont obtenus à l’avance pour servir d’entrées et de sorties du réseau neuronal. Le réseau de neurones est formé pour apprendre la relation de cartographie entre eux. Le réseau entraîné peut obtenir une prédiction rapide des entrées cibles d’affichage en dehors de l’ensemble de données d’entraînement. On s’attend à ce qu’il réalise simultanément une génération d’hologrammes à grande vitesse et de haute qualité.

L’idée d’utiliser des réseaux de neurones pour la génération d’hologrammes a été proposée par des chercheurs japonais dès 1998. Mais limités par les performances matérielles et logicielles des ordinateurs de l’époque, seuls des résultats préliminaires ont été obtenus.

Avec les larges applications des GPU et des réseaux de neurones convolutifs (CNN), les performances matérielles et logicielles actuelles sont plus adaptées aux caractéristiques mathématiques de CGH. Le CGH basé sur l’apprentissage a connu des développements rapides.

En 2021, des chercheurs du MIT ont proposé un réseau d’holographie Tensor qui permet la génération en temps réel d’hologrammes 2K sur les smartphones.

Utilisation de l'apprentissage en profondeur basé sur un modèle pour obtenir un affichage holographique couleur 4K haute fidélité

Fig. 3 Reconstructions optiques de différents types d’images : (a) image couleur et (b) image binaire. Crédit: Avancées optoélectroniques (2023). DOI : 10.29026/oea.2023.220135

Pour obtenir des prédictions de réseau précises, l’ensemble de données d’apprentissage et l’ensemble de données d’hologramme correspondant nécessitent un processus de génération chronophage. De plus, comme le réseau apprend simplement le mappage entre les entrées et les sorties, la qualité de l’ensemble de données d’hologrammes limite le plafond des résultats d’apprentissage.

Pour surmonter les limitations ci-dessus de l’apprentissage profond piloté par les données, des schémas de génération d’hologrammes basés sur l’apprentissage profond piloté par modèle sont proposés.

Au lieu de générer l’ensemble de données d’hologramme à l’avance, le réseau est entraîné en utilisant le modèle physique direct du problème inverse comme contrainte dans la méthode pilotée par modèle. Le réseau peut ainsi apprendre à encoder des hologrammes de manière autonome, dépassant les limites de la taille et de la qualité de l’ensemble de données d’hologrammes.

Cependant, les réseaux conventionnels d’apprentissage profond piloté par modèle nécessitent un apprentissage par transfert sur les cibles d’affichage pour obtenir de meilleures performances. Le coût supplémentaire en temps limite les applications pratiques de l’apprentissage profond piloté par les modèles.

Le 4K-DMDNet proposé dans ce travail utilise un cadre de réseau de neurones U-Net résiduel. Le modèle de diffraction de Fresnel agit comme la contrainte pour le processus d’apprentissage. Il est capable de générer des hologrammes 4K haute fidélité sans apprentissage par transfert.

En général, les performances de prédiction du réseau sont influencées à la fois par la capacité d’apprentissage limitée du réseau et par les contraintes insuffisantes dans le processus d’apprentissage.

Pour relever les défis de la capacité d’apprentissage limitée, 4K-DMDNet introduit la méthode de convolution sous-pixel. Dans le chemin de suréchantillonnage, le nombre de canaux est étendu quatre fois à l’aide de convolutions, et l’expansion spatiale est obtenue par le mélange de pixels. La méthode de convolution sous-pixel résout les problèmes d’ajout d’un grand nombre de paramètres nuls pour l’expansion spatiale dans la convolution transposée traditionnelle. Il augmente les paramètres apprenables dans le chemin de suréchantillonnage à quatre fois la taille d’origine sans modifier le volume de données global. Il améliore efficacement la capacité d’apprentissage du réseau, ce qui se traduit par une amélioration significative de la netteté et de la fidélité des reconstructions.

Pour relever les défis des contraintes insuffisantes dans le processus de formation, 4K-DMDNet introduit l’opération de suréchantillonnage dans le modèle de diffraction de Fresnel. La région de contrainte dans le domaine fréquentiel est complétée par des zéros pour doubler la taille dans le processus de calcul. Selon le mappage entre l’intervalle d’échantillonnage spatial et la gamme de fréquences, les reconstructions respectent le théorème d’échantillonnage de Nyquist-Shannon. Tout en resserrant les contraintes du domaine fréquentiel, la précision du modèle de diffraction est améliorée.

Fourni par Compuscript Ltd