Pourquoi le modèle Gemini 3.5 Flash de Google est-il plus coûteux ?

Le modèle Gemini 3.5 Flash de Google coûte 5,5 fois plus cher à exécuter que son prédécesseur, avec des prix des tokens ayant triplé. Les coûts des tâches d'agent dépassent ceux du Gemini 3.1 Pro de 75 %, ce qui soulève des inquiétudes quant à l'adoption à grande échelle des technologies d'IA. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Google Gemini 3.5 Flash : vitesse record, mais coûts explosifs

Brief IA

Tom Levy·20 mai 2026·3 min·3 vues

⚡

En bref

1Le modèle Gemini 3.5 Flash de Google génère plus de 280 tokens par seconde, surpassant ses prédécesseurs en rapidité.

2Les coûts d'exploitation du Gemini 3.5 Flash sont 5,5 fois supérieurs à ceux du modèle précédent, avec des prix de tokens triplés.

3Malgré des améliorations en tâches agentiques, le Gemini 3.5 Flash reste en retrait en programmation face à des concurrents comme GPT-5.5.

💡Pourquoi c'est important — L'augmentation des coûts du Gemini 3.5 Flash soulève des questions sur la viabilité économique de l'IA pour les entreprises.

Google Deepmind et le lancement du Gemini 3.5 Flash

Google Deepmind a récemment introduit le Gemini 3.5 Flash, un modèle d'intelligence artificielle qui se distingue par sa capacité à générer plus de 280 tokens de sortie par seconde. Cette performance fait de lui le modèle le plus rapide de sa catégorie. Cependant, cette rapidité a un coût : l'exploitation du Gemini 3.5 Flash est 5,5 fois plus onéreuse que celle de son prédécesseur.

Une hausse significative des coûts

Le coût d'exploitation du Gemini 3.5 Flash a considérablement augmenté, tant en termes de prix des tokens que de consommation de tokens. Google facture désormais 1,50 $ par million de tokens d'entrée et 9,00 $ par million de tokens de sortie, contre respectivement 0,50 $ et 3,00 $ pour le modèle précédent, le Gemini 3 Flash. En conséquence, les tâches basées sur des agents consomment tellement plus de tokens que les coûts totaux sont 75 % plus élevés que ceux du Gemini 3.1 Pro, selon Artificial Analysis.

Performances et limitations

Le Gemini 3.5 Flash montre des améliorations significatives dans les tâches agentiques et multimodales. Il obtient un score de 55 sur l'Artificial Analysis Intelligence Index, soit neuf points de plus que le Gemini 3 Flash, le plaçant devant Grok 4.3 et Claude Sonnet 4.6. Sur l'AA Omniscience, qui évalue l'exactitude des connaissances et la tendance aux hallucinations, le modèle s'améliore de 11 points, avec un taux d'hallucination de 61 %, soit une baisse de 31 points par rapport à son prédécesseur.

Les tâches agentiques en plein essor

Historiquement, les tâches agentiques ont été un point faible pour la série Gemini. Le 3.5 Flash s'améliore considérablement dans ce domaine. Sur le GDPval-AA, qui teste des tâches d'agent réelles avec accès web et shell, il atteint un score Elo de 1 656, un bond significatif par rapport au Gemini 3 Flash (1 204) et au Gemini 3.1 Pro (1 314). Cependant, cette performance accrue nécessite en moyenne 49 interactions par tâche, plus que tout autre modèle testé.

La programmation, un point faible persistant

Dans le domaine de la programmation, où les modèles rapides et peu coûteux sont les plus recherchés, le Gemini 3.5 Flash ne parvient pas à se démarquer. Il obtient un score de 45 sur l'Artificial Analysis Coding Index, bien en dessous du Gemini 3.1 Pro Preview (55) et loin derrière des modèles comme GPT-5.5 (59) et GPT-5.4 (57).

Une rapidité inégalée

Le Gemini 3.5 Flash atteint une vitesse de plus de 280 tokens de sortie par seconde, environ 70 % plus rapide que le Gemini 3 Flash. Il supporte également les entrées vidéo et audio en plus du texte et des images, alors que d'autres modèles comme Claude Opus 4.7, Grok 4.3, et GPT-5.5 se limitent à l'entrée d'images.

Des coûts croissants et un retour sur investissement flou

À moins que les coûts d'inférence pour le matériel sous-jacent ne diminuent aussi rapidement que la puissance de calcul par tâche n'augmente, les prix des modèles plus puissants continueront d'augmenter. Pour les cas d'utilisation plus simples, des modèles plus anciens ou des options plus petites comme le Gemini 3.1 Flash-Lite resteront disponibles. Pour les entreprises, le retour sur investissement de l'IA devient de plus en plus difficile à évaluer. Les tâches isolées comme la génération de code ou la traduction sont plus faciles à mesurer, mais même là, la situation est plus complexe qu'il n'y paraît.

Google Gemini 3.5 Flash : vitesse record, mais coûts explosifs

Tu suis la course aux modèles IA ?

Google Deepmind et le lancement du Gemini 3.5 Flash

Une hausse significative des coûts

Performances et limitations

Les tâches agentiques en plein essor

La programmation, un point faible persistant

Une rapidité inégalée

Des coûts croissants et un retour sur investissement flou

Google réduit les coûts d'IA avec Gemini 3.5 Flash

OpenAI hausse les prix de GPT-5.5 : un choc pour l'industrie de l'IA

Deepseek défie OpenAI avec des modèles IA abordables

OpenAI et NVIDIA : la fin de l'IA gratuite face à l'envolée des coûts

Agents IA : des coûts imprévisibles qui inquiètent les utilisateurs

Coûts et modèles IA : les défis des entreprises en 2026