Parfait est l’ennemi de bon pour l’apprentissage en profondeur distribué dans le nuage
Un nouveau système de communication-collectif, Optireduce, accélère une formation sur l’IA et l’apprentissage automatique sur plusieurs serveurs de cloud en fixant des limites de temps plutôt que d’attendre que chaque serveur rattrape son retard, selon une étude menée par un chercheur de l’Université du Michigan.
Bien que certaines données soient perdues dans les délais d’expiration, Optireduce se rapproche des données perdues et atteint la précision cible plus rapidement que les concurrents. Les résultats ont été présentés aujourd’hui au Symposium Usenix sur la conception et la mise en œuvre des systèmes en réseau à Philadelphie, en Pennsylvanie.
Alors que la taille de l’IA et des modèles d’apprentissage automatique continue d’augmenter, la formation nécessite que plusieurs serveurs ou nœuds travaillent ensemble dans un processus appelé Deep Learning distribué. Lors de la réalisation de la formation dans les centres de cloud computing, la congestion et les retards apparaissent alors que plusieurs charges de travail sont traitées en même temps dans l’environnement partagé.
Pour surmonter cette barrière, l’équipe de recherche suggère une approche qui est analogue au passage des processeurs à usage général, qui n’ont pas pu gérer l’IA et l’apprentissage automatique, aux GPU spécifiques au domaine avec une efficacité et des performances plus élevées dans la formation.
« Nous avons fait la même erreur avec la communication en utilisant le transport de données à usage le plus général. Ce que Nvidia a fait pour l’informatique, nous essayons de faire pour la communication – passant de l’objectif général à un domaine spécifique à la prévention des goulots d’étranglement », a déclaré Muhammad Shahbaz, professeur adjoint de sciences et d’ingénierie informatique à UM et auteur correspondant de l’étude.
Jusqu’à présent, les systèmes d’apprentissage en profondeur distribués ont nécessité une communication parfaite et fiable entre les serveurs individuels. Cela conduit à des ralentissements à la fin de la queue car le modèle attendrait que tous les serveurs se rattrapaient avant de passer à autre chose.
Au lieu d’attendre des traînards, OptiredUce introduit des limites de temps pour la communication du serveur et se déplace sans attendre que chaque serveur termine sa tâche. Pour respecter les limites du temps tout en maximisant la communication utile, les limites se raccourcissent de manière adaptative pendant les périodes de réseau tranquille et s’allongent pendant les périodes chargées.
Bien que certaines informations soient perdues dans le processus, Optireduce exploite la résilience des systèmes d’apprentissage en profondeur en utilisant des techniques mathématiques pour approximer les données perdues et minimiser l’impact.
« Nous redéfinissons la pile informatique pour l’IA et l’apprentissage automatique en contestant le besoin de fiabilité à 100% requise dans les charges de travail traditionnelles. En adoptant une fiabilité limitée, les charges de travail d’apprentissage automatique fonctionnent beaucoup plus rapidement sans compromettre la précision », a déclaré Ertza Warraich, doctorat en sciences informatiques à l’Université Purdue et premier auteur de l’étude.
L’équipe de recherche a testé Optireduce contre les modèles existants au sein d’un cluster virtualisé local – des serveurs réseaux qui partagent des ressources – et un banc d’essai public pour des applications de cloud partagées, CloudLab. Après avoir entraîné plusieurs modèles de réseaux neuronaux, ils ont mesuré la rapidité avec laquelle les modèles ont atteint la précision cible, connu sous le nom de temps à précision, et la quantité de données perdue.
Optireduce a surpassé les modèles existants, réalisant un délai d’importance 70% plus rapide par rapport à Gloo, et il était 30% plus rapide par rapport au NCCL lorsqu’il travaille dans un environnement cloud partagé.
Lors du test des limites de la quantité de données qui pourraient être perdus dans les délais d’attente, ils ont trouvé que les modèles pouvaient perdre environ 5% des données sans sacrifier les performances. Des modèles plus grands – y compris Llama 4, Mistral 7b, Falcon, Qwen et Gemini – étaient plus résilients à la perte tandis que les modèles plus petits étaient plus sensibles.
« Optireduce a été une première étape vers l’amélioration des performances et la soulagement des goulots d’étranglement de la communication en tirant parti des propriétés spécifiques au domaine de l’apprentissage automatique. En tant qu’étape suivante, nous explorons maintenant comment passer du transport logiciel vers le transport matériel au niveau du NIC pour pousser vers des centaines de gigabits par seconde », a déclaré Shahbaz.
Nvidia, VMware Research et Feldera ont également contribué à cette recherche.