Brief IA : OpenAI défie Nvidia avec sa puce Jalapeño pour réduire les coûts

OpenAI défie Nvidia avec sa puce Jalapeño pour réduire les coûts

Brief IA
Tom Levy·4 min·1 vues

OpenAI a développé la puce Jalapeño en partenariat avec Broadcom pour réduire ses coûts d'infrastructure, qui ont atteint 8,4 milliards de dollars l'année dernière. Cette puce, conçue pour l'inférence des grands modèles de langage, vise à optimiser les performances et à concurrencer Nvidia, qui détient une marge bénéficiaire de 75 % sur ses processeurs haut de gamme.

En bref
1OpenAI a développé la puce Jalapeño avec Broadcom pour réduire ses coûts d'infrastructure.
2Les dépenses d'OpenAI pour maintenir ChatGPT ont atteint 8,4 milliards de dollars l'année dernière.
3La puce Jalapeño est conçue pour l'inférence des grands modèles de langage, optimisant ainsi les performances.
💡Pourquoi c'est importantOpenAI cherche à concurrencer les géants du secteur en contrôlant mieux ses coûts et en améliorant ses infrastructures.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

OpenAI et sa quête de réduction des coûts

OpenAI, confrontée à des coûts d'infrastructure élevés, a entrepris de développer sa propre puce sur mesure, baptisée Jalapeño, en partenariat avec Broadcom. Ce circuit intégré spécifique à une application, ou ASIC, représente une tentative stratégique pour alléger les dépenses massives liées à l'utilisation de matériel tiers.

Actuellement, Nvidia domine le marché avec une marge bénéficiaire impressionnante de 75 % sur ses processeurs haut de gamme. En comparaison, OpenAI doit se contenter d'une marge beaucoup plus modeste, avec seulement 33 cents de profit pour chaque dollar généré, après avoir pris en compte ses dépenses opérationnelles considérables. L'exploitation de grands modèles de langage, comme ceux utilisés par OpenAI, s'avère être une entreprise coûteuse.

L'année dernière, le maintien de la réactivité des serveurs de ChatGPT a coûté à OpenAI la somme astronomique de 8,4 milliards de dollars américains. Avec une base d'utilisateurs hebdomadaires atteignant désormais 900 millions, ce coût devrait grimper à environ 14 milliards de dollars cette année. Sur une période de huit ans, OpenAI prévoit d'investir environ 1,4 trillion de dollars dans la puissance de calcul, un pari audacieux pour une entreprise qui génère actuellement 25 milliards de dollars de revenus annuels.

La conception de la puce Jalapeño

La puce Jalapeño, qualifiée de premier "processeur d'intelligence" d'OpenAI, est spécifiquement conçue pour l'inférence des grands modèles de langage, plutôt que pour des tâches d'IA à usage général. OpenAI a fourni la conception architecturale de base, adaptée à ses modèles et systèmes de service spécifiques, tandis que Broadcom a pris en charge l'ingénierie du silicium et l'intégration des réseaux haute performance.

La fabrication physique de la puce est assurée par TSMC à Taïwan, et Celestica est responsable de la construction des systèmes de cartes et de racks. Selon OpenAI, des échantillons de laboratoire préliminaires sont déjà opérationnels avec des charges de travail avancées, y compris un modèle non publié nommé GPT-5.3-Codex-Spark, fonctionnant à la fréquence et à la puissance de production visées.

Richard Ho, responsable du programme matériel chez OpenAI, a expliqué que l'architecture de la puce minimise le mouvement des données pour rapprocher l'utilisation réelle de sa performance théorique maximale. Contrairement aux accélérateurs à usage général, cette architecture est spécifiquement équilibrée pour résoudre les goulets d'étranglement liés au mouvement des données dans le service interactif des LLM.

Pour atteindre cet objectif à grande échelle, la plateforme intègre le silicium de réseau Tomahawk de Broadcom directement dans la conception, permettant aux processeurs personnalisés de communiquer efficacement à travers de vastes environnements de centres de données.

L'intégration verticale comme levier stratégique

En développant son propre silicium, OpenAI passe d'une simple couche logicielle à une entreprise d'infrastructure intégrée verticalement. Cette stratégie full-stack englobe l'ensemble du pipeline, de l'architecture de la puce aux noyaux logiciels, en passant par les systèmes de mémoire, la planification de réseau et la couche d'application finale. À l'instar d'Apple, qui optimise son infrastructure autour de ses propres produits, OpenAI peut désormais affiner son infrastructure en fonction de ses besoins spécifiques.

Cette intégration verticale offre un levier opérationnel continu. L'efficacité accrue de l'infrastructure réduit le coût de l'entraînement et du service des modèles, rendant le service plus abordable et augmentant ainsi le volume d'utilisateurs et les revenus à réinvestir dans la prochaine génération d'infrastructure personnalisée.

Surmonter l'avantage du retard

En introduisant sa propre puce, OpenAI entre dans un domaine où ses principaux concurrents ont déjà une longueur d'avance. Google, par exemple, a commencé à déployer ses unités de traitement Tensor (TPU) en 2015 et contrôle maintenant environ un quart de la capacité de calcul IA mondiale, en dehors de l'approvisionnement d'Nvidia.

Amazon a déjà expédié plus d'un million de ses puces personnalisées, tandis que Meta et Microsoft continuent de développer leur propre infrastructure. Greg Brockman, président et co-fondateur d'OpenAI, a déclaré que Jalapeño fait partie de leur stratégie d'infrastructure full-stack à long terme pour rendre le calcul plus abondant. En concevant davantage de la pile eux-mêmes, OpenAI peut offrir plus d'intelligence avec une plus grande efficacité.

Pour combler cet écart temporel, OpenAI a accéléré le développement de sa puce Jalapeño, passant de la conception initiale à la sortie de bande de fabrication en seulement neuf mois. Les équipes d'ingénierie ont atteint ce calendrier en utilisant les propres modèles de langage d'OpenAI pour automatiser et optimiser certaines parties du processus de conception matérielle.

Cette approche crée une boucle de rétroaction unique où les modèles utilisés par les utilisateurs servent également à construire l'infrastructure physique qui supportera les futures itérations. Le déploiement initial du matériel dans les centres de données est prévu pour commencer d'ici la fin de 2026.

Hock Tan, PDG de Broadcom, a confirmé que le déploiement s'échelonnera parallèlement aux partenaires d'infrastructure, dont Microsoft, pour préparer l'intégration des centres de données à l'échelle des gigawatts.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires