Brief IA : NVIDIA et Google optimisent l'inférence IA à grande échelle

NVIDIA et Google optimisent l'inférence IA à grande échelle

Brief IA
Tom Levy·6 min·0 vues

Lors de la conférence Google Cloud Next, Google et NVIDIA ont dévoilé leur feuille de route pour réduire les coûts d'inférence IA à grande échelle grâce aux nouvelles instances bare-metal A5X, permettant une réduction des coûts jusqu'à dix fois. Cette architecture utilise des systèmes rack-scale NVIDIA Vera Rubin NVL72, intégrant matériel et logiciel pour une efficacité optimale, et peut évoluer jusqu'à 960 000 GPU dans un déploiement multisite.

En bref
1Lors de Google Cloud Next, NVIDIA et Google ont dévoilé des instances A5X, promettant de réduire de dix fois le coût d'inférence IA.
2Les nouveaux systèmes peuvent gérer jusqu'à 960 000 GPU, nécessitant une gestion sophistiquée des charges pour éviter l'inactivité.
3Google et NVIDIA introduisent des solutions pour la souveraineté des données, cruciales pour les secteurs réglementés comme la finance et la santé.
💡Pourquoi c'est importantCes innovations pourraient transformer l'efficacité et la sécurité des déploiements IA à grande échelle, impactant divers secteurs industriels.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

NVIDIA et Google : une avancée majeure dans l'inférence IA

Lors de l'événement Google Cloud Next, NVIDIA et Google ont révélé une stratégie ambitieuse pour transformer le paysage de l'inférence IA. Les deux géants technologiques ont présenté leur feuille de route matérielle, visant à réduire considérablement le coût de l'inférence IA à grande échelle. Cette initiative repose sur l'introduction des nouvelles instances bare-metal A5X, qui fonctionnent sur les systèmes avancés NVIDIA Vera Rubin NVL72. Grâce à une collaboration étroite entre les équipes matérielles et logicielles, cette architecture promet de diminuer jusqu'à dix fois le coût par token par rapport aux générations précédentes, tout en augmentant le débit de traitement des tokens de manière équivalente par mégawatt.

Une infrastructure conçue pour l'échelle

Pour atteindre ces performances impressionnantes, il est essentiel de connecter des milliers de processeurs avec une bande passante suffisante pour éviter les retards de traitement. Les instances A5X répondent à ce défi en intégrant les NVIDIA ConnectX-9 SuperNICs avec la technologie de mise en réseau Google Virgo. Cette configuration permet une évolutivité impressionnante, avec la capacité de gérer jusqu'à 80 000 GPU NVIDIA Rubin dans un seul cluster, et jusqu'à 960 000 GPU dans un déploiement multisite. Une telle échelle nécessite une gestion sophistiquée des charges de travail, car le routage des données à travers un nombre aussi élevé de processeurs parallèles exige une synchronisation précise pour éviter les périodes d'inactivité.

Mark Lohmeyer, vice-président et directeur général de l'IA et de l'infrastructure informatique chez Google Cloud, a exprimé sa vision de l'avenir de l'IA : « Chez Google Cloud, nous croyons que la prochaine décennie de l'IA sera façonnée par la capacité des clients à exécuter leurs charges de travail les plus exigeantes sur une pile d'infrastructure véritablement intégrée et optimisée pour l'IA. » En combinant l'infrastructure évolutive de Google Cloud avec les plateformes et systèmes avancés de NVIDIA, les clients peuvent former, ajuster et servir une variété de modèles, tout en optimisant la performance, le coût et la durabilité.

La gouvernance des données et la sécurité dans le cloud

Au-delà des prouesses de traitement, la gouvernance des données demeure un enjeu crucial pour les entreprises, notamment dans les secteurs hautement réglementés comme la finance et la santé. Ces industries freinent souvent leurs initiatives d'apprentissage automatique en raison des exigences de souveraineté des données et des risques liés à l'exposition d'informations sensibles. Pour répondre à ces préoccupations, les modèles Google Gemini, fonctionnant sur les GPU NVIDIA Blackwell et Blackwell Ultra, sont en phase de prévisualisation sur Google Distributed Cloud. Ce mode de déploiement permet aux organisations de garder leurs modèles de pointe dans des environnements contrôlés, à proximité de leurs données les plus sensibles.

L'architecture intègre également le NVIDIA Confidential Computing, un protocole de sécurité au niveau matériel qui garantit que les modèles d'entraînement fonctionnent dans un environnement protégé. Les données et invites restent cryptées, empêchant ainsi toute partie non autorisée, y compris les opérateurs de l'infrastructure cloud, d'accéder ou de modifier les données sous-jacentes. Pour les environnements cloud publics multi-locataires, une prévisualisation des VM Confidential G4, équipées de GPU NVIDIA RTX PRO 6000 Blackwell, introduit ces mêmes protections cryptographiques, offrant aux secteurs réglementés un accès à du matériel haute performance sans compromettre la confidentialité des données.

Simplification de l'entraînement de l'IA agentique

La construction de systèmes agentiques complexes nécessite de relier de grands modèles de langage à des interfaces de programmation d'applications sophistiquées, tout en maintenant une synchronisation continue des bases de données vectorielles et en atténuant les hallucinations algorithmiques. Pour simplifier ces exigences d'ingénierie, le NVIDIA Nemotron 3 Super est désormais disponible sur la Gemini Enterprise Agent Platform. Cette plateforme fournit aux développeurs des outils pour personnaliser et déployer des modèles de raisonnement et multimodaux, spécifiquement conçus pour des tâches agentiques.

L'entraînement de ces modèles à grande échelle introduit une surcharge opérationnelle significative, notamment lors de la gestion de la taille des clusters et des pannes matérielles pendant de longs cycles d'apprentissage par renforcement. Pour répondre à ces défis, Google Cloud et NVIDIA ont introduit des Managed Training Clusters sur la Gemini Enterprise Agent Platform. Ce système inclut une API d'apprentissage par renforcement gérée, construite avec NVIDIA NeMo RL, qui automatise la taille des clusters, la récupération après échec et l'exécution des tâches. Cela permet aux équipes de science des données de se concentrer sur la qualité des modèles plutôt que sur la gestion de l'infrastructure de bas niveau.

Intégration des simulations physiques dans l'industrie

L'intégration de l'apprentissage automatique dans l'industrie lourde et la fabrication présente des défis uniques. Connecter des modèles numériques aux usines physiques nécessite des simulations précises et une puissance de calcul massive. L'infrastructure IA de NVIDIA et les bibliothèques d'IA physique sont désormais disponibles sur Google Cloud, fournissant une base pour que les organisations simulent et automatisent les flux de travail de fabrication réels.

De grands fournisseurs de logiciels industriels, tels que Cadence et Siemens, ont rendu leurs solutions disponibles sur Google Cloud, accélérées par l'infrastructure NVIDIA. Ces outils soutiennent l'ingénierie et la fabrication de machines lourdes, de plateformes aérospatiales et de véhicules autonomes. Les entreprises de fabrication, souvent dotées de systèmes de gestion du cycle de vie des produits anciens, peuvent rencontrer des difficultés pour traduire les données de géométrie et de physique. En utilisant les bibliothèques NVIDIA Omniverse et le cadre open-source NVIDIA Isaac Sim via le Google Cloud Marketplace, les développeurs peuvent surmonter ces obstacles pour créer des jumeaux numériques précis et former des pipelines de simulation de robotique avant le déploiement physique.

Impact sur l'écosystème de calcul accéléré

Pour convertir ces spécifications matérielles en avantages financiers tangibles, il est crucial d'examiner comment les premiers utilisateurs exploitent cette infrastructure. Le large éventail d'options, allant des racks NVL72 complets aux VM G4 fractionnaires, permet aux clients de provisionner précisément des capacités d'accélération pour des tâches de raisonnement et de traitement de données.

Thinking Machines Lab utilise les VM A4X Max pour accélérer l'entraînement de son API Tinker. OpenAI exploite l'inférence à grande échelle sur les systèmes NVIDIA GB300 et GB200 NVL72 sur Google Cloud pour gérer des charges de travail exigeantes, y compris les opérations de ChatGPT. Snap a migré ses pipelines de données vers Spark, accéléré par GPU sur Google Cloud, pour réduire les coûts associés aux tests A/B à grande échelle. Dans le secteur pharmaceutique, Schrödinger utilise le calcul accéléré par NVIDIA sur Google Cloud pour compresser les simulations de découverte de médicaments de plusieurs semaines à quelques heures.

L'écosystème des développeurs qui évolue autour de ces outils s'est rapidement élargi, avec plus de 90 000 développeurs rejoignant la communauté conjointe NVIDIA et Google Cloud en un an. Des startups comme CodeRabbit et Factory appliquent des modèles basés sur NVIDIA Nemotron sur Google Cloud pour exécuter des revues de code et faire fonctionner des agents de développement logiciel autonomes. Aible, Mantis AI, Photoroom et Baseten construisent des solutions d'intelligence des données d'entreprise, d'intelligence vidéo et d'images génératives en utilisant la plateforme full-stack.

Ensemble, NVIDIA et Google Cloud visent à fournir une base de calcul conçue pour faire progresser les agents expérimentaux et les simulations vers des systèmes de production qui sécurisent les flottes et optimisent les usines dans le monde physique.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires