Modelmaxxing : optimiser l'IA pour réduire les coûts

⚡

Key Takeaways

1Morgan Linton de Bold Metrics optimise l'utilisation des modèles d'IA pour réduire les coûts sans sacrifier la qualité.

2Le tokenmaxxing, autrefois populaire, est remplacé par une approche plus ciblée et économique dans les entreprises.

3Des outils de routage de modèles émergent pour aider les entreprises à choisir le bon modèle d'IA selon la tâche.

💡Why it matters — Les entreprises cherchent à maximiser l'efficacité de l'IA tout en maîtrisant les dépenses, transformant ainsi leur approche technologique.

La stratégie de Morgan Linton chez Bold Metrics

Morgan Linton, directeur technique de la startup d'IA Bold Metrics, a pris des mesures pour optimiser l'utilisation des modèles d'intelligence artificielle au sein de son équipe. En orchestrant l'utilisation de différents modèles selon les besoins spécifiques, il a décidé d'assigner l'utilisation de Claude Fable, un modèle à faible coût, à une équipe, tandis qu'une autre se concentre sur l'exploitation de GPT-5.5, un modèle plus avancé et onéreux. Une troisième équipe, quant à elle, utilise Cursor avec Composer 2.5, obtenant des résultats qu'il qualifie de "totalement parfaits". Cette approche permet à Linton d'éviter d'imposer des limites strictes sur les tokens, tout en assurant une utilisation efficace des ressources disponibles.

Être précis sur l'utilisation des modèles permet à Linton de maximiser l'efficacité sans avoir à fixer des plafonds stricts sur les tokens. "Mon équipe utilise les meilleures ressources, mais de manière beaucoup plus efficace", a-t-il déclaré.

La fin du tokenmaxxing

En 2026, le terme "tokenmaxxing" a dominé les discussions dans le domaine de l'IA. Ce concept encourageait les entreprises à maximiser l'utilisation des modèles d'IA par leurs employés. Cependant, après avoir analysé les coûts associés, des géants comme Uber et Microsoft ont adopté une approche plus réfléchie. Plutôt que de se concentrer sur l'utilisation maximale, ils privilégient désormais le changement de modèle. Cette stratégie consiste à réserver les modèles les plus coûteux et performants pour les tâches complexes, tout en utilisant des modèles plus anciens et économiques pour les tâches plus simples.

Les fondateurs, ingénieurs logiciels, designers UX et même des passionnés non techniques découvrent un moyen d'économiser : le changement de modèle. Ils attribuent leurs tâches les plus difficiles et intellectuellement exigeantes à des modèles de pointe plus coûteux, tout en déléguant les tâches plus simples et répétitives à des modèles plus anciens et moins chers.

L'optimisation des ressources

Kaylin Voss d'OpenAI a souligné l'importance d'utiliser des modèles récents pour réduire les réessais et les efforts inutiles. Toutefois, certaines tâches ne justifient pas l'utilisation de modèles coûteux. Brian Armstrong, PDG de Coinbase, a prédit que 80 % des charges de travail pourraient être exécutées par des modèles beaucoup moins chers dans un avenir proche, tandis que les 20 % restants nécessiteraient les modèles les plus récents pour une performance optimale.

Chris Maconi, cofondateur de Hechura, a toujours été sceptique face au tokenmaxxing. Il privilégie une approche où l'humain reste au centre, évitant de s'appuyer exclusivement sur des bots pour le codage. Maconi se souvient du cycle de hype autour d'OpenClaw, un agent d'IA encapsulé dans un Mac Mini, qui était particulièrement gourmand en tokens en raison de son utilisation 24/7 et de son autonomie. Lorsqu'il a mis en place son OpenClaw, Maconi a commencé avec des modèles Gemini bon marché avant de passer à Haiku d'Anthropic. "Je n'ai pas peur d'essayer certains de ces modèles moins performants pour voir s'ils peuvent fournir l'intelligence dont nous avons besoin", a-t-il déclaré.

Maximiser l'efficacité des tokens

Tanvi Pisal, designer UX, a appris à utiliser les modèles de manière plus stratégique. En utilisant Figma pour concevoir ses projets avant de les soumettre à Claude, elle a réussi à économiser des tokens. Elle a un abonnement d'entreprise à ChatGPT et paie pour le package Claude Pro à 20 $/mois. Au début, elle utilisait Claude pour brainstormer l'UX depuis le début, un processus qui lui a fait "perdre des mois de tokens" sans terminer la tâche.

"Maintenant, je conçois tout dans Figma d'abord, puis je mets ces captures d'écran dans Claude. Je dis à Claude de garder l'interface utilisateur telle quelle et de construire toute la fonctionnalité et le flux", a ajouté Pisal. "Faire ce processus de conception en premier m'aide vraiment à économiser des tokens."

Elle choisit également de brainstormer des idées avec ChatGPT — qui est gratuit pour elle grâce à son plan d'entreprise — puis prend les idées affinées pour les soumettre à Claude afin de créer des documents plus aboutis.

Alejandra Thomas, ingénieure logicielle et créatrice de contenu tech à New York, teste chaque nouveau modèle publié pour voir ce pour quoi chacun est bon. "J'essaie de ne pas utiliser le modèle le plus cher ou le plus avancé juste parce qu'il est disponible. Pour les tâches simples, j'utilise toujours des modèles plus légers ou aucun", a déclaré Thomas.

Ed Stevens, PDG de l'entreprise de vente d'IA Scoot, aime "choisir un modèle et s'y tenir". Ses ingénieurs choisissent un modèle, l'essaient pendant quelques mois, puis déterminent s'il est à la hauteur. S'il y a un nouveau modèle brillant — ou s'ils pensent pouvoir obtenir le même résultat pour moins cher — ils changent de modèle, a expliqué Stevens.

L'idée de maximiser l'utilisation de chaque token illustre l'état d'esprit de rareté, selon Dan Ariely, chercheur en économie comportementale et professeur à l'Université de Duke. Ariely a déclaré que les budgets de tokens lui rappellent les téléphones d'autrefois, qui venaient avec un nombre limité de minutes de conversation. Les gens essayaient de maximiser leurs minutes à la fin du mois, même si cela signifiait appeler des personnes qu'ils ne souhaitaient pas vraiment contacter.

"Les tokens créent un modèle de rareté où les gens ne peuvent pas utiliser autant qu'ils le souhaitent. Cela crée un objectif d'utilisation et une psychologie du gaspillage si les gens n'atteignent pas leur objectif", a-t-il ajouté. Il a également noté que, ne voulant pas dépasser la limite et payer des frais supplémentaires par utilisation, les utilisateurs passent à des modèles d'autres entreprises pour économiser de l'argent une fois qu'ils ont atteint le plafond de tokens.

L'essor des outils de routage de modèles

Pour ceux qui trouvent le modelmaxxing épuisant, des startups spécialisées dans le routage de modèles offrent une solution. Ces entreprises, comme OpenRouter, développent des logiciels qui attribuent des tâches à des modèles spécifiques en fonction de leur complexité. David Gilmore dirige l'une de ces entreprises, Rayline. Son outil intercepte les demandes et détermine si elles peuvent être dirigées vers des modèles moins chers, souvent open-source. Beaucoup de ses clients tombent dans le piège du "moment FOMO", a-t-il déclaré. Ensuite, ils reçoivent leur facture API et réalisent qu'ils doivent réduire leurs dépenses.

Le nombre d'entreprises utilisant une plateforme de routage augmente lentement. Ara Kharazian, économiste en chef de Ramp, a déclaré à Business Insider qu'environ 1 % des entreprises utilisaient un routeur de modèles l'année dernière ; cette année, c'est 5 %.

La société d'investissement basée à San Francisco, BlockSpaceForce, utilise OpenRouter, Fireworks et Together AI. Spencer Yang, son partenaire directeur, a également plaidé pour demander d'abord à un modèle moins cher si un modèle plus coûteux serait nécessaire pour votre tâche. "Les modèles eux-mêmes deviennent vraiment bons pour évaluer leur propre complexité", a déclaré Yang.

Certaines entreprises continuent de se tourner par défaut vers les modèles les plus récents et les plus coûteux. Maconi, cofondateur de Hecura, l'attribue à la paresse. "Les gens ne veulent pas faire l'effort de comprendre quels modèles sont bons pour quelles tâches", a-t-il déclaré. "Ils veulent juste suivre la tendance."