Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Jetons d'IA : explosion des coûts pour les entreprises

⚡

En bref

1Les entreprises font face à une hausse des coûts avec le modèle de tarification basé sur les jetons d'IA, remplaçant les anciens tarifs fixes.

2Les jetons, unités de base de l'IA, standardisent la facturation mais cachent une complexité sous-jacente importante.

3Malgré une baisse des coûts unitaires, la demande croissante en jetons entraîne une explosion des dépenses globales.

💡Pourquoi c'est important — Les entreprises doivent adapter leur gestion financière pour naviguer dans cette nouvelle économie des jetons d'IA, sous peine de voir leurs coûts exploser.

Les jetons d'IA et la facturation

L'essor de l'intelligence artificielle (IA) a entraîné une transformation radicale des modèles de tarification, passant d'un tarif fixe à une facturation basée sur les jetons. Ce changement s'avère bien plus coûteux pour les entreprises. La difficulté réside dans la mesure de la valeur réelle apportée par l'IA, un problème encore non résolu.

À San Diego, il y a quelques mois, les utilisateurs bénéficiaient d'un tarif fixe pour accéder aux services d'IA. Cette époque est désormais révolue. Aujourd'hui, l'IA n'est plus proposée à perte. Lors de la conférence FinOps X 2026, le modèle de tarification par jetons a été présenté comme le pilier central de l'économie de l'IA générative, surpassant en coût les anciens modèles. Les utilisateurs de CoPilot, par exemple, expriment leur mécontentement face à ces nouveaux tarifs.

Pour de nombreuses entreprises, cette situation rappelle les débuts de la tarification du cloud, marqués par des factures imprévisibles et des modèles économiques en constante évolution. Derrière cette confusion apparente, les jetons standardisent discrètement la manière dont les laboratoires traduisent la capacité GPU en unités facturables, comment les entreprises mesurent l'utilisation de l'IA et comment les éditeurs de logiciels ajustent leurs prix.

Les jetons : les unités atomiques de l'IA

Dans ce nouveau paradigme, le jeton est devenu l'unité fondamentale du travail en IA. J.R. Storment, directeur exécutif de la FinOps Foundation, le décrit comme "l'unité atomique de l'IA". Lors de son discours d'ouverture à FinOps, Storment a souligné que "les jetons jouent un rôle plus central dans l'économie moderne que presque toute autre marchandise dans l'histoire récente, peut-être à l'exception du pétrole au 20ème siècle." Les jetons représentent à la fois "l'unité de production de tout le matériel, de l'informatique et des centres de données", "la manière dont les laboratoires tarifent leurs entrées et sorties", et "l'unité de valeur que les entreprises cherchent à monétiser."

Cette abstraction plaît particulièrement aux laboratoires et aux hyperscalers. Plutôt que de facturer directement pour les types de GPU, la mémoire et l'énergie, ils peuvent proposer une seule unité — les jetons par million — à travers un mélange complexe d'architectures et de topologies de déploiement. OpenAI, Anthropic, Google et d'autres publient désormais des grilles tarifaires par modèle avec des prix distincts pour les jetons d'entrée (ce que vous envoyez au modèle) et les jetons de sortie (ce que le modèle génère), généralement exprimés en dollars par million de jetons.

Qu'est-ce qu'un jeton ?

Un jeton d'IA, selon Storment, "est la plus petite unité qu'un mot ou une phrase peut être décomposée lors du traitement par un modèle de langage de grande taille (LLM)." Avant qu'un modèle puisse traiter du texte, il le décompose en fragments, un processus appelé tokenization. Pour l'anglais, une règle empirique courante est que "un jeton correspond à environ quatre caractères, ou environ trois quarts d'un mot", donc "100 jetons ≈ 75 mots."

Le jeton cache une complexité énorme. Comme l'a souligné l'équipe FinOps de SAP, "Vous payez par jeton, et ce petit jeton cache une énorme complexité sous-jacente à la prévisibilité", allant du choix du modèle et de la quantification à l'utilisation agressive du caching ou des agents. Cette complexité est exactement ce que les équipes FinOps sont désormais chargées de décoder.

La fin de l'ère des jetons à volonté

Si la période de 2023 à début 2025 a été celle des expériences bon marché, les 18 derniers mois ont été un rude réveil. Storment décrit trois phases distinctes : les "anciens jours de l'IA" avant ChatGPT, les "bons vieux jours de l'IA" lorsque les chatbots "pouvaient écrire un code décent", et ensuite le monde post-novembre 2025 lorsque les sorties majeures de modèles "ont fait passer l'IA de plutôt bonne à vraiment bonne."

Dans les bons vieux jours, l'ère des jetons à volonté et des abonnements, nous avons traversé une brève période de maximisation des jetons. Puis tout le monde était enthousiaste à propos de leur tableau de classement des jetons, qui montrait qui avait le plus d'utilisation de jetons. Aujourd'hui, ces classements sont douloureusement obsolètes car personne ne peut se permettre de gaspiller des jetons. Comme l'a supplié le vice-président senior d'Amazon, Dave Treadwell, "Veuillez ne pas utiliser l'IA juste pour le plaisir d'utiliser l'IA."

Objectivement, entre juin et novembre de l'année dernière, Storment a déclaré que l'utilisation mondiale des jetons avait crû de manière "linéaire". Puis ces nouveaux modèles et patterns agentiques sont arrivés. Les fenêtres contextuelles "sont passées de quelques milliers ou dizaines de milliers ou centaines de milliers à des millions de jetons dans une seule conversation", et "l'agentique a explosé", ajoutant "des boucles et des réessais et toutes ces folies."

La rareté maintient les prix des jetons en hausse

Si la loi de Moore et la concurrence hyperscale étaient les seules forces en jeu, on s'attendrait à ce que les prix des jetons continuent de baisser. Dans une certaine mesure, c'est le cas. "Depuis 2023, les prix des jetons ont chuté de manière spectaculaire", a reconnu Storment. Les données internes de SAP racontent une histoire similaire. "Voici notre coût par jeton sur la même période," a déclaré la scientifique des données de SAP, Maida Nazifi, montrant leur graphique interne. "Il est clairement en tendance à la baisse, même avec un léger aplatissement à la fin. Et honnêtement, cela correspond au récit que tout le monde veut croire, n'est-ce pas ? Les prix des jetons continuent de baisser."

Mais tous deux soulignent la mise en garde : le plancher pourrait être en vue. Storment note que si "vous regardez les meilleurs laboratoires et leurs prix, vous revenez à la Wayback Machine. Les prix des jetons sont restés assez stables depuis novembre 2025," ce qu'il lie directement aux contraintes matérielles et énergétiques : "Nous ne pouvons pas obtenir suffisamment de matériel, nous ne pouvons pas obtenir suffisamment d'énergie… nous voyons des retards, nous voyons de longues périodes d'engagement, et nous voyons des pénuries."

Il cite le PDG d'Intel disant qu'il ne s'attend pas à un véritable soulagement de l'approvisionnement en GPU et composants connexes "avant 2028." Nazifi et le vice-président de SAP, Frederik Pohl, constatent les mêmes tendances dans leur entreprise : Pohl a averti, "Nous avons des contraintes de chaîne d'approvisionnement, nous avons des prix matériels qui augmentent, et les prix des nouveaux modèles de pointe deviennent de plus en plus coûteux."

Le résultat net est un classique paradoxe de Jevons : coût unitaire en baisse, dépenses totales en explosion. "Même avec la baisse des prix des jetons, nous constatons que nos dépenses continuent d'augmenter, et c'est le fameux paradoxe," a déclaré Pohl. "À notre échelle, nous avions des coûts unitaires en baisse, mais nous avons constaté que dans certains mois, les dépenses doublaient."

Storment pense que le paradoxe ne fait que commencer. Goldman Sachs estime que l'utilisation mondiale passera de "6 quadrillions de jetons" aujourd'hui à "120 quadrillions de jetons prévus" dans environ 3,5 ans. Même si les prix des jetons baissent encore une fois que l'approvisionnement se relâche, il est peu probable qu'ils chutent 24 fois plus vite que le volume ne croît.

FinOps découvre l'économie des jetons

Pour la communauté FinOps, qui a acquis de l'expérience dans le dimensionnement des clouds et les instances réservées, la tarification par jetons est à la fois familière et complètement étrangère. La partie familière est qu'elle est basée sur l'utilisation, que les factures sont élevées, et que les prévisions sont difficiles. La partie étrangère ? L'unité est liée à la langue, pas à l'infrastructure, et elle change aussi rapidement que les sorties de modèles, pas aussi lentement que les calendriers d'amortissement des serveurs.

Pohl a affirmé que "l'IA ne fait pas que prolonger le livre de jeu du cloud, elle le brise ; l'IA est plus différente du cloud que le cloud ne l'était du centre de données." Contrairement aux CPU, "les modèles d'IA ne ressemblent en rien à cela… ils ont leurs forces et faiblesses uniques… Ils ont différents profils de coûts, et remplacer un LLM n'est pas seulement une décision de prix. C'est aussi une décision de qualité de sortie."

L'expérience de SAP est une étude de cas sur la manière dont les entreprises se rééquipent. Sa plateforme Business AI, a expliqué Pohl, fonctionne sur "plusieurs LLM différents", y compris "ChatGPT, Anthropic, Gemini… d'autres modèles open source", superposés sur "différents hyperscalers."

Lorsque SAP a d'abord cherché des données sur les coûts de l'IA, "nous avons immédiatement rencontré un mur," a rappelé Nazifi. "Les outils [cloud] existants étaient très aveugles à la nuance des LLM, donc ils pouvaient nous dire que nous avions dépensé ce montant sur [un fournisseur], mais pas vraiment quel modèle, ou combien pour le modèle. C'était vraiment comme essayer d'optimiser votre opération d'extraction d'or en regardant le poids total du minerai."

Ils ont donc procédé de manière laborieuse : "Nous avons extrait des données manuellement, nous avons fusionné des données à travers des tableaux, et ensuite nous avons eu cette première image à la main." Cette image, une fois parvenue à leur responsable de l'infrastructure mondiale puis au CTO, a transformé la conversation. "En quelques jours, cela est passé de 'OK, c'est intéressant, tenez-moi au courant' à… 'J'ai besoin de cela régulièrement, j'en veux plus,'" a déclaré Nazifi. Pohl a ajouté la leçon FinOps : "Si vous avez un CTO qui demande un chiffre, ce n'est pas une question, c'est un mandat."

Cette demande a contraint SAP à formaliser un cadre interne de FinOps pour l'IA basé sur trois piliers :

Visibilité des dépenses : "Ce que nous consommons, comment nous le consommons, et où nous le consommons," à travers les modèles, les plateformes, les unités commerciales et les régions.
Économie : "À quel point êtes-vous efficace dans votre utilisation des jetons ?"

Jetons d'IA : explosion des coûts pour les entreprises

Tu suis la course aux modèles IA ?

Les jetons d'IA et la facturation

Les jetons : les unités atomiques de l'IA

Qu'est-ce qu'un jeton ?

La fin de l'ère des jetons à volonté

La rareté maintient les prix des jetons en hausse

FinOps découvre l'économie des jetons

Sam Altman : le coût de l'IA enflamme le débat

GitHub Copilot : la hausse des coûts par jetons choque

Anthropic Opus 4.7 : explosion des coûts en tokens

Patreon défie les géants de l'IA : les créateurs méritent leur part

TOON réduit le gaspillage de tokens dans les modèles LLM

Anthropic réduit les coûts des fenêtres de contexte géantes