Brief IA : OpenAI et MRC : Réseaux ultra-rapides pour l'IA

OpenAI et MRC : Réseaux ultra-rapides pour l'IA

Brief IA
Tom Levy·5 min·0 vues

OpenAI a lancé MRC, un protocole de réseau pour superordinateurs, visant à améliorer la résilience et la performance des clusters d'entraînement AI à grande échelle. Ce développement, réalisé en collaboration avec AMD, Broadcom, Intel, Microsoft et NVIDIA, pourrait réduire les coûts d'entraînement des modèles AI, répondant ainsi à la demande croissante pour des solutions AI plus robustes et rapides.

En bref
1OpenAI a collaboré avec AMD, Broadcom, Intel, Microsoft et NVIDIA pour créer le protocole MRC, améliorant la performance des réseaux de GPU.
2Le MRC permet de construire des réseaux multi-plans à haute vitesse, réduisant la congestion et augmentant la résilience face aux pannes.
3En répartissant les paquets sur plusieurs chemins, MRC minimise l'impact des pannes de réseau, accélérant l'entraînement des modèles d'IA.
💡Pourquoi c'est importantMRC optimise l'efficacité des superordinateurs, crucial pour soutenir la croissance rapide des modèles d'IA à grande échelle.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Une collaboration pour des réseaux plus rapides

Pour répondre aux besoins croissants de l'entraînement des modèles d'IA, OpenAI s'est associé à des géants de la technologie tels qu'AMD, Broadcom, Intel, Microsoft et NVIDIA. Ensemble, ils ont conçu le MRC (Multipath Reliable Connection), un protocole innovant destiné à améliorer les performances et la résilience des réseaux de GPU dans les clusters d'entraînement massifs. Ce protocole a été rendu public via l'Open Compute Project (OCP), permettant à l'ensemble de l'industrie d'en tirer parti.

Avec l'utilisation de ChatGPT par plus de 900 millions de personnes chaque semaine, les systèmes d'OpenAI sont devenus une infrastructure essentielle pour l'IA, soutenant la création de modèles toujours plus performants. Avant l'avènement de Stargate, OpenAI a développé et maintenu trois générations de superordinateurs en collaboration étroite avec ses partenaires, ce qui a renforcé la nécessité de simplifier et d'optimiser chaque niveau de l'architecture, y compris la conception réseau.

Les objectifs du MRC

La publication de la spécification MRC s'inscrit dans la stratégie globale d'OpenAI visant à établir des normes partagées pour les infrastructures clés. Ces normes facilitent l'évolution des systèmes d'IA de manière plus efficace et fiable, tout en intégrant un large éventail de partenaires. Cet article explore la conception du MRC, en mettant en lumière ses capacités à :

  • Construire des réseaux multi-plans à haute vitesse pour créer de la redondance face aux pannes réseau, tout en utilisant moins de composants et d'énergie.
  • Éliminer pratiquement la congestion centrale grâce au spraying adaptatif des paquets.
  • Utiliser le routage source statique pour contourner les pannes et éliminer certaines défaillances de routage.

Ces innovations permettent à OpenAI de fournir des modèles améliorés plus rapidement.

La nécessité d'une nouvelle conception réseau

L'entraînement de grands modèles d'IA implique des millions de transferts de données à chaque étape. Un seul transfert retardé peut perturber l'ensemble du processus, rendant les GPU inactifs. Les congestions réseau et les pannes de lien ou de dispositif sont les principales causes de ces retards.

À mesure que les clusters s'agrandissent, ces problèmes deviennent plus fréquents et complexes, rendant la technologie réseau cruciale pour la conception de Stargate. Pour soutenir l'échelle actuelle des superordinateurs Stargate, deux défis majeurs devaient être relevés :

  • Réduire la probabilité de congestion réseau.
  • Minimiser l'impact des pannes réseau sur l'entraînement.

La réponse : le protocole MRC

L'objectif d'OpenAI n'était pas seulement de construire un réseau rapide, mais aussi de garantir des performances prévisibles même en cas de pannes, afin de maintenir l'entraînement en cours. Pour atteindre cette fiabilité, OpenAI a collaboré avec AMD, Broadcom, Intel, Microsoft et NVIDIA pendant deux ans pour développer une nouvelle méthode de construction et d'exploitation des réseaux. Le fruit de cet effort est le Multipath Reliable Connection, ou MRC.

MRC est un protocole réseau intégré dans les dernières interfaces réseau de 800 Gb/s, permettant de répartir un seul transfert sur des centaines de chemins, de contourner les pannes en quelques microsecondes et de simplifier les plans de contrôle réseau. Il étend le RDMA sur Ethernet convergé (RoCE), une norme de l'InfiniBand Trade Association (IBTA) qui facilite l'accès direct à la mémoire à distance entre GPU et CPU.

La base : des réseaux multi-plans

Construire des réseaux résilients nécessite une topologie avec une redondance suffisante pour que tous les flux puissent bien fonctionner, même en cas de défaillance de liens ou de commutateurs.

Au lieu de considérer chaque interface réseau comme un lien unique de 800 Gb/s, elle est divisée en plusieurs liens plus petits. Par exemple, une interface peut se connecter à huit commutateurs différents, créant ainsi huit réseaux parallèles fonctionnant chacun à 100 Gb/s, plutôt qu'un seul réseau de 800 Gb/s.

Les avantages du MRC

  • Réduction des coûts et de la consommation d'énergie.
  • Amélioration de la diversité des chemins.
  • Capacité à connecter plus de 131 000 GPU avec seulement deux niveaux de commutateurs.

Cependant, exploiter pleinement cette diversité de chemins peut être complexe. Les protocoles réseau traditionnels pour l'entraînement de l'IA nécessitent généralement que chaque transfert suive un seul chemin pour que les paquets arrivent dans l'ordre. Dans un grand réseau multi-plans, cela peut entraîner des problèmes de congestion.

La transformation apportée par MRC : la répartition des paquets

MRC modifie fondamentalement ce modèle. Plutôt que d'assigner un transfert à un seul chemin, MRC répartit les paquets d'un transfert unique sur des centaines de chemins à travers le réseau. Les paquets peuvent arriver dans le désordre, mais chaque paquet MRC inclut son adresse mémoire finale, permettant à la destination de les livrer à la mémoire dès leur arrivée.

Cette combinaison de topologie multi-plans, de répartition, d'équilibrage de charge et de réduction permet à une connexion MRC de détecter et de contourner les pannes réseau en microsecondes, minimisant ainsi l'impact sur les travaux d'entraînement synchrones. En comparaison, un réseau conventionnel pourrait nécessiter plusieurs secondes, voire des dizaines de secondes, pour se stabiliser et contourner les pannes.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires