Brief IA

Victime de son succès : Anthropic n'a pas assez de puissance de calcul pour répondre à la demande

🤖 Models & LLMvia Clubic IA·

Victime de son succès : Anthropic n'a pas assez de puissance de calcul pour répondre à la demande

Victime de son succès : Anthropic n'a pas assez de puissance de calcul pour répondre à la demande
En bref
1Anthropic fait face à une demande croissante pour ses outils d'intelligence artificielle, mais manque de puissance de calcul pour y répondre.
2L'entreprise peine à satisfaire une demande qui dépasse ses capacités techniques.
3Cette situation souligne les défis d'infrastructure auxquels sont confrontées les entreprises d'IA en pleine expansion.
💡Pourquoi c'est importantLa capacité à évoluer rapidement est cruciale pour les entreprises d'IA afin de rester compétitives sur un marché en forte demande.
📄
Article traduit en français

Victime de son succès : Anthropic n'a pas assez de puissance de calcul pour répondre à la demande

La demande pour les outils d’intelligence artificielle (IA) très énergivores d’Anthropic est telle que l’entreprise peine à fournir la puissance de calcul nécessaire à leur bon fonctionnement. Anthropic est victime de son propre succès.

Dans la course à l’IA, un nom ressort souvent ces dernières semaines : Claude. Les utilisateurs se ruent vers l’entreprise qui s’est opposée au Pentagone, dont la pertinence des outils est plébiscitée par l’industrie. À tel point que sa grande rivale OpenAI vient d’annoncer un virage stratégique majeur pour jouer sur le même terrain, celui de l’entreprise.

Concurrence pour l’accès aux précieuses puces

Cependant, le revers de la médaille est bien là. Anthropic ne dispose pas de ses propres centres de données ; elle s’appuie sur ceux de deux investisseurs de renom, Google et Amazon. Problème, la start-up se retrouve en concurrence directe pour les ressources avec ses propres bailleurs de fonds, qui privilégient naturellement leurs propres écosystèmes d’IA. Cela crée un important goulot d’étranglement : chaque puce IA est âprement disputée entre les acteurs.

Une réalité d’autant plus lourde pour Anthropic que ses systèmes Claude Code et Cowork consomment énormément d’énergie : ils effectuent des boucles de réflexion complexes qui consomment 10 à 100 fois plus de tokens par interaction.

Anthropic tente de colmater la brèche

Les effets de cette situation se sont déjà répercutés sur les utilisateurs, avec une interruption majeure des services le 2 mars dernier. Depuis, certains ont noté des latences bien plus importantes qu’à l’accoutumée. Anthropic tente par tous les moyens de limiter la casse.

D’où la mise en place d’une stratégie de rationnement intelligent, c’est-à-dire des limites d’utilisation beaucoup plus strictes durant les pics d’activité, obligeant même les abonnés payants à modérer leurs requêtes en pleine journée de travail. Au contraire, la firme a doublé les quotas durant la nuit et le week-end, tentant désespérément de déplacer la consommation vers les heures où les serveurs sont moins sous pression.

C’est un réel problème, alors que de plus en plus d’entreprises se tournent vers Claude. Elles pourraient hésiter à passer le pas si le service devient instable dès que la demande mondiale grimpe. Par ailleurs, les marges brutes d’Anthropic sont sous pression. Subventionner le calcul pour gagner des parts de marché devient intenable si le coût de l’infrastructure dépasse les revenus des abonnements. Et cela pourrait bientôt être le cas.

Pourquoi l’accès aux puces IA devient-il un goulot d’étranglement ?

Les modèles d’IA générative reposent sur des accélérateurs matériels (GPU, TPU) pour exécuter rapidement des calculs massifs, aussi bien à l’entraînement qu’en production. La capacité disponible dépend de plusieurs facteurs :

  • Nombre de puces
  • Alimentation électrique
  • Refroidissement
  • Limites des centres de données

Quand plusieurs acteurs se disputent les mêmes ressources chez un même fournisseur cloud, l’allocation peut devenir le facteur limitant, même si la demande utilisateur explose. Résultat : latences, files d’attente, voire interruptions si la plateforme ne parvient plus à servir les requêtes au niveau de qualité attendu.

Que signifie “consommer 10 à 100 fois plus de tokens par interaction” ?

Un token est une unité de texte (morceaux de mots) utilisée pour mesurer l’entrée et la sortie d’un modèle, et surtout la quantité de calcul associée. Plus une interaction mobilise de tokens, plus elle monopolise longtemps les puces, la mémoire et la bande passante, ce qui réduit le nombre de requêtes traitées en parallèle. Les modes de réflexion ou de raisonnement multi-étapes augmentent fortement le volume de tokens générés ou manipulés avant de produire une réponse. À l’échelle, cette hausse se traduit directement par une facture compute plus élevée et par un risque accru de saturation aux heures de pointe.

En quoi consiste le “rationnement intelligent” ?

Le rationnement intelligent consiste à appliquer des limites d’usage qui varient selon la charge :

  • Quotas plus stricts quand les serveurs sont sous pression
  • Quotas plus généreux quand la demande baisse

Techniquement, cela s’appuie sur des mécanismes de gestion de trafic (rate limiting), de priorisation (par type d’abonnement, de requête ou de latence cible) et parfois de mise en file (queueing). L’objectif est d’éviter qu’un pic de demandes ne fasse chuter l’ensemble du service en répartissant mieux la capacité disponible. En contrepartie, l’expérience devient moins prévisible pour les utilisateurs, surtout si des tâches “lourdes” sont ralenties ou reportées.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.