Prédire les dimensions pour un affichage transparent sur différents appareils

À l’aide de modèles d’apprentissage profond, les scientifiques de l’Université de Sharjah ont conçu des techniques permettant de prédire automatiquement les dimensions d’image appropriées pour s’adapter à différents écrans ou appareils, de manière bien plus efficace et efficiente que les technologies actuelles utilisées pour le recadrage et le redimensionnement des images.

Les modèles d’apprentissage profond proposés par les scientifiques dans leurs recherches sont basés sur des dispositifs d’apprentissage par transfert, tels que Resnet18, DenseNet121 et InceptionV3. Ils affirment que leurs modèles peuvent prédire les dimensions correctes des images d’entrée avec une résolution spécifique.

L’ouvrage est publié dans la revue Accès IEEE.

Avec l’avènement des ordinateurs, le reciblage d’images est devenu une technique largement pratiquée. Il ajuste essentiellement les dimensions d’une image d’entrée en préservant simultanément ses qualités visuelles et ses détails lors de son redimensionnement pour s’adapter à une variété d’écrans ou d’appareils.

L’essor des appareils numériques, notamment les smartphones, les tablettes et les ordinateurs, a rendu nécessaire des ajustements dynamiques de la taille des images et des vidéos pour répondre aux exigences d’affichage spécifiques de chaque appareil.

Diverses techniques de reciblage d’images sont actuellement disponibles et abordables, et les auteurs mentionnent le recadrage (CR), la mise à l’échelle (SCL), la sculpture de couture (SC), la déformation (WARP), la mise à l’échelle et l’étirement (SNS), le multi-opérateur (MULTI) , entre autres.

Des scientifiques développent un dispositif permettant de recadrer et de redimensionner automatiquement les images

Cependant, ils soutiennent que les techniques disponibles ne permettent pas d’ajuster elles-mêmes les dimensions d’une image sans contrôle humain direct, « puisque différents écrans présentent des rapports d’aspect différents, ce qui pourrait entraîner le recadrage ou la distorsion des images non optimisées pour cet écran ».

Ils mettent en lumière « l’écart dans l’automatisation de la décision de la meilleure approche de reciblage basée sur une image et la résolution cible », affirmant que leurs « recherches tentent de combler cet écart et visent à construire un modèle pour déterminer quelle technique recible le mieux une image ». pour minimiser la perte d’informations et préserver la qualité.

Les auteurs pensent que l’automatisation est le meilleur moyen de cibler une image spécifique avec une dimension spécifique. Pour cette raison, ils proposent des modèles d’apprentissage en profondeur basés sur l’apprentissage par transfert et utilisent des dispositifs d’apprentissage par transfert tels que Resnet18, DenseNet121 et InceptionV3 comme outils capables de « prédire la méthode de reciblage appropriée pour l’image d’entrée avec une résolution spécifique ».

L’apprentissage par transfert utilise des techniques d’apprentissage automatique grâce auxquelles les modèles construits spécifiquement pour une tâche particulière sont correctement ajustés pour s’adapter à une autre mission. Resnet18, DenseNet121 et InceptionV3 sont des modèles d’apprentissage en profondeur conçus pour effectuer diverses tâches, notamment la compréhension des détails et de la structure des images, la reconnaissance et la classification des images, ainsi que la détection d’objets et la segmentation des images.

Les auteurs ont utilisé un ensemble de données de 46 716 images de différentes résolutions provenant de diverses techniques de reciblage appartenant à six catégories. Ils disent avoir mené des expériences « avec des modèles où la catégorie est alimentée comme troisième entrée et avec les résolutions codées comme canal supplémentaire dans l’image ».

« De plus, les modèles sont évalués avec diverses mesures d’évaluation. Les résultats ont démontré l’efficacité de l’approche proposée pour sélectionner la technique de reciblage appropriée avec un meilleur score F1 de 90 %.

Les auteurs présentent leur technique comme étant « optimisatrice » car elle rend la prédiction des tâches de ciblage d’images aussi efficace et fonctionnelle que possible. Ils écrivent : « En optimisant les images pour qu’elles s’adaptent à différentes tailles d’écran et formats d’image, nous pouvons garantir qu’elles s’affichent correctement sur différents appareils et qu’elles soient belles, quelles que soient les différences de taille d’écran ou de formats d’image.

« L’apprentissage profond est rapidement devenu l’une des techniques incontournables pour classer les méthodes de reciblage d’images, car ses capacités lui permettent d’extraire automatiquement les caractéristiques des images et de capturer efficacement toutes les relations complexes.

Les auteurs présentent ce qu’ils décrivent comme de « nouveaux modèles d’apprentissage par transfert pour l’identification automatique des méthodes de reciblage d’images. Nous avons utilisé plusieurs modèles, tels que base CNN, Resnet18, DenseNet121 et InceptionV3. Les modèles sont évalués à l’aide de diverses mesures d’évaluation, et les résultats montrent à quel point les modèles sont efficaces pour choisir la meilleure méthode de retargeting. »

Les auteurs ne précisent pas quand ils s’attendent à ce que leurs nouvelles techniques de reciblage d’images soient disponibles dans le commerce, mais ils soulignent la nécessité de recherches plus approfondies pour « développer un modèle qui choisit la meilleure technique et recible l’image à la résolution requise dans une approche entièrement automatique. » «

En outre, ils « prévoient d’étendre l’ensemble de données annotées avec davantage d’échantillons et des méthodes de reciblage supplémentaires pour fournir un modèle plus précis et précis qui peut se généraliser à de nombreux cas d’utilisation ».