Google Cloud annonce des mises à jour de partenariat avec Anthropic
Google Cloud a annoncé le 9 novembre de nouvelles mises à jour sur son partenariat stratégique avec Anthropic. Les deux sociétés travaillent en étroite collaboration depuis la création d’Anthropic en 2021 et introduisent ensemble de nouvelles mises à jour pour soutenir le développement de l’intelligence artificielle.
Les points clés comprennent :
- Anthropic est l’une des premières entreprises à déployer à grande échelle les puces TPUv5e de Google Cloud, notre accélérateur d’IA le plus rentable et le plus évolutif. TPU v5e permet à Anthropic de servir son LLM Claude de manière efficace et performante.
- Anthropic exploite désormais également les services de sécurité de Google Cloud, notamment Chronicle Security Operations, Secure Enterprise Browsing et Security Command Center, pour garantir que les organisations qui déploient des modèles Anthropic sur Google Cloud (ainsi que les employés et sous-traitants d’Anthropic) sont protégées contre les cybermenaces.
- Enfin, Anthropic et Google Cloud sont déterminés à collaborer pour faire progresser la sécurité de l’IA et annoncent une collaboration avec l’organisation à but non lucratif MLCommons dans le cadre d’un nouveau groupe de travail d’analyse comparative.
Nouvelles mises à jour pour TPU v5e
Google Cloud a également annoncé de nouvelles mises à jour pour TPU v5e, notamment :
- TPU v5e est désormais généralement disponible (tout comme les technologies d’inférence Singlehost et Multislice Training), offrant aux clients une plate-forme TPU unifiée pour les charges de travail de formation et d’inférence.
- Dans les derniers résultats MLPerf™ Training 3.1 publiés aujourd’hui, le TPU v5e a démontré une amélioration de 2,3 fois en termes de rapport prix/performance par rapport à la génération précédente de TPU v4 pour la formation de grands modèles de langage (LLM). Ce résultat fait suite au benchmark MLPerf 3.1 Inferencing de septembre, qui a révélé des performances de service par dollar 2,7 fois supérieures à celles de Cloud TPU v4.
Résultats de la formation MLPerf™ 3.1 clôturés pour la v5e, données internes de Google pour TPU v4. En novembre 2023 : tous les nombres normalisés par puce seq-len = 2048 pour le modèle de paramètres GPT-3 de 175 milliards mis en œuvre en utilisant les performances par rapport au prix catalogue public du TPU v4 (3,22 $/puce/heure) et du TPU v5e (1,2 dollar/puce). /heure).*1
Adaptez-vous à 50 000 puces grâce à la technologie Multislice Training
Cloud TPU Multislice Training est une technologie full-stack qui permet la formation de modèles d’IA à grande échelle sur des dizaines de milliers de puces TPU. Il vous permet de former facilement et de manière fiable de grands modèles d’IA génératifs, ce qui peut accélérer le délai de rentabilisation et la rentabilité.
Google a récemment mené l’un des plus grands efforts de formation distribuée au monde pour le LLM sur le plus grand nombre de puces accélératrices d’IA. En utilisant Multislice et le format de précision INT8 piloté par AQT, il a été étendu à plus de 50 000 puces TPU v5e pour former un modèle LLM dense à paramètres 32B, atteignant 53 % d’utilisation efficace du modèle flop (MFU). À titre de comparaison, il a atteint 46 % de MFU lors de la formation d’un PaLM-540B sur 6 144 puces TPU v4.
De plus, les tests ont démontré une évolutivité efficace, permettant aux chercheurs et aux praticiens de former rapidement des modèles vastes et complexes pour accélérer l’innovation dans un large éventail d’applications d’IA.
Données internes de Google pour le TPU v5e à partir de novembre 2023 : tous les chiffres sont normalisés par puce. seq-len=2048 pour le modèle de langage de décodeur de 32 milliards de paramètres implémenté avec MaxText. *2
Les clients utilisent Cloud TPU v5e pour la formation et le service de l’IA
Les clients de Google Cloud s’appuient sur de grands clusters de Cloud TPU v5e pour former et servir des LLM de pointe rapidement et efficacement. AssembléeAIpar exemple, s’efforce de démocratiser l’accès aux modèles vocaux d’IA de pointe et a obtenu des résultats notables avec TPU v5e.
« Nous avons récemment eu l’occasion d’expérimenter le nouveau Cloud TPU v5e de Google dans GKE pour voir si ces puces d’IA spécialement conçues pouvaient réduire nos coûts d’inférence. Après avoir exécuté notre modèle de reconnaissance vocale de production sur des données réelles dans un environnement réel, nous avons constaté que Le TPU v5e offre jusqu’à 4 fois plus de performances par dollar par rapport aux alternatives » , il prétend Dominique Donato, Vice-président de la technologie chez AssemblyAI
Début octobre, en collaboration avec Visage câlin, Google a réalisé une démo montrant l’utilisation du TPU v5e pour accélérer l’inférence sur Stable Diffusion XL 1.0 (SDXL). Les haut-parleurs Hugging Face prennent désormais en charge la diffusion de SDXL via JAX sur Cloud TPU, permettant une inférence hautes performances et rentable pour les cas d’utilisation de création de contenu. Par exemple, dans le cas de charges de travail de conversion texte-image, l’exécution de SDXL sur un TPU v5e à huit puces peut générer huit images en même temps qu’il faut une puce pour créer une seule image.
Aussi l’équipe de Google Barde a utilisé Cloud TPU v5e pour former et servir son chatbot IA génératif.
« TPU v5e alimente à la fois les charges de travail de formation ML et d’inférence pour Bard depuis le premier lancement de cette plateforme. Nous sommes très satisfaits de la flexibilité du TPU v5e, qui peut être utilisé à la fois pour une formation à grande échelle (des milliers de puces) et pour un service ML efficace qui prend en charge nos utilisateurs dans plus de 200 pays et dans plus de 40 langues., il prétend Trevor Strohman, ingénieur logiciel chez Google Bard
Note
1. Formation MLPerf™ v3.1 fermée, plusieurs benchmarks comme indiqué. Récupéré le 8 novembre 2023 sur mlcommons.org. Résultats 3.1-2004. La performance par dollar n’est pas une métrique MLPerf. Les résultats TPU v4 ne sont pas vérifiés : non vérifiés par l’association MLCommons. Le nom et le logo MLPerf™ sont des marques commerciales de MLCommons Association aux États-Unis et dans d’autres pays. Tous droits réservés. L’utilisation non autorisée est strictement interdite. Pour plus d’informations, voir site www.mlcommons.org.
2. Le facteur de mise à l’échelle est le rapport (débit à une taille de cluster donnée) / (débit à la taille de base du cluster). La taille de base du cluster est d’un pod v5e (par exemple, 256 puces). Exemple : Avec une échelle de 512 chips, nous avons un débit 1,9 fois supérieur à celui d’une échelle de 256 chips, ce qui conduit à un facteur d’échelle de 1,9.
3. Pour obtenir les performances du TPU v5e par dollar, nous divisons le débit de formation par puce (mesuré en jetons/s) par le prix catalogue à la demande de 1,20 $, qui est le prix par heure de puce (US$). Disponible publiquement pour TPU v5e dans la région us-west4. Pour obtenir les performances du TPU v4 par dollar, nous divisons le débit de formation par puce (mesuré en jetons/s ; résultats internes de Google Cloud, non audités par MLCommons) par le prix catalogue à la demande de 3,22 $, le prix sur demande. Disponible publiquement par heure de puce ($ US) par TPU v4 dans la région us-central2.