Réseaux de neurones convolutionnels basés sur l’audio efficaces via l’élagage de filtres
Le Dr Arshdeep Singh, chercheur en apprentissage automatique du son avec le professeur Mark D. Plumbley dans le cadre du projet « AI for sound » (AI4S) au sein du Center for Vision, Speech and Signal Processing (CVSSP), s’est concentré sur la conception et des modèles durables d’intelligence artificielle et d’apprentissage automatique (AI-ML). Leur étude actuelle a été acceptée au 2023 Conférence internationale IEEE sur l’acoustique, la parole et le traitement du signaltenue en Grèce, du 4 au 10 juin.
Les tendances récentes en matière d’intelligence artificielle (IA) utilisent des réseaux de neurones convolutionnels (CNN) qui offrent des performances remarquables par rapport aux autres méthodes existantes. Cependant, la grande taille et le coût de calcul élevé des CNN constituent un goulot d’étranglement pour le déploiement des CNN sur des appareils à ressources limitées tels que les smartphones.
De plus, entraîner les CNN pendant plusieurs heures conduit à émettre plus de CO2. Par exemple, un appareil informatique (NVIDIA GPU RTX-2080 Ti) utilisé pour former des CNN pendant 48 heures génère l’équivalent en CO2 émis par une voiture moyenne conduite sur 13 miles. Pour estimer le CO2les chercheurs ont utilisé un outil librement disponible.
Par conséquent, les chercheurs ont cherché à compresser les CNN pour :
- Réduisez la complexité de calcul pour une inférence plus rapide.
- Réduisez les empreintes mémoire pour utiliser efficacement les ressources sous-jacentes.
- Réduisez le nombre de calculs pendant la phase de formation des CNN en analysant le nombre d’exemples de formation suffisants dans le processus de réglage fin des CNN compressés pour obtenir des performances similaires à celles obtenues en utilisant tous les exemples de formation pour les CNN non compressés.
La solution
L’une des directions pour compresser les CNN consiste à « élaguer », où les filtres sans importance sont explicitement supprimés du réseau d’origine pour construire un réseau compact ou élagué. Après l’élagage, le réseau élagué est affiné pour récupérer la perte de performances.
Cette étude a proposé un algorithme gourmand basé sur la distance cosinus pour élaguer des filtres similaires dans l’espace de filtrage pour les CNN librement disponibles conçus pour classification des scènes audio. De plus, les chercheurs ont amélioré l’efficacité de l’algorithme proposé en réduisant le temps de calcul de l’élagage.
Ils ont constaté que la méthode d’élagage proposée réduit le nombre de calculs par inférence de 27 %, avec 25 % de besoins en mémoire en moins, avec une baisse de précision inférieure à 1 %. Lors du réglage fin des CNN élagués, une réduction des exemples d’entraînement de 25 % a donné une performance similaire à celle obtenue en utilisant tous les exemples. Ils ont fabriqué l’algorithme proposé ouvertement disponible pour la reproductibilité et fourni une présentation vidéo expliquant la méthodologie et les résultats de nos travaux publiés.
De plus, ils ont amélioré de trois fois le temps de calcul de la méthode d’élagage proposée sans dégrader les performances.