Brief IA : Google Gemini 3.5 Flash : vitesse record, mais coûts explosifs

Google Gemini 3.5 Flash : vitesse record, mais coûts explosifs

Brief IA
Tom Levy·3 min·3 vues

Le modèle Gemini 3.5 Flash de Google coûte 5,5 fois plus cher à exécuter que son prédécesseur, avec des prix des tokens ayant triplé. Les coûts des tâches d'agent dépassent ceux du Gemini 3.1 Pro de 75 %, ce qui soulève des inquiétudes quant à l'adoption à grande échelle des technologies d'IA.

En bref
1Le modèle Gemini 3.5 Flash de Google génère plus de 280 tokens par seconde, surpassant ses prédécesseurs en rapidité.
2Les coûts d'exploitation du Gemini 3.5 Flash sont 5,5 fois supérieurs à ceux du modèle précédent, avec des prix de tokens triplés.
3Malgré des améliorations en tâches agentiques, le Gemini 3.5 Flash reste en retrait en programmation face à des concurrents comme GPT-5.5.
💡Pourquoi c'est importantL'augmentation des coûts du Gemini 3.5 Flash soulève des questions sur la viabilité économique de l'IA pour les entreprises.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Google Deepmind et le lancement du Gemini 3.5 Flash

Google Deepmind a récemment introduit le Gemini 3.5 Flash, un modèle d'intelligence artificielle qui se distingue par sa capacité à générer plus de 280 tokens de sortie par seconde. Cette performance fait de lui le modèle le plus rapide de sa catégorie. Cependant, cette rapidité a un coût : l'exploitation du Gemini 3.5 Flash est 5,5 fois plus onéreuse que celle de son prédécesseur.

Une hausse significative des coûts

Le coût d'exploitation du Gemini 3.5 Flash a considérablement augmenté, tant en termes de prix des tokens que de consommation de tokens. Google facture désormais 1,50 $ par million de tokens d'entrée et 9,00 $ par million de tokens de sortie, contre respectivement 0,50 $ et 3,00 $ pour le modèle précédent, le Gemini 3 Flash. En conséquence, les tâches basées sur des agents consomment tellement plus de tokens que les coûts totaux sont 75 % plus élevés que ceux du Gemini 3.1 Pro, selon Artificial Analysis.

Performances et limitations

Le Gemini 3.5 Flash montre des améliorations significatives dans les tâches agentiques et multimodales. Il obtient un score de 55 sur l'Artificial Analysis Intelligence Index, soit neuf points de plus que le Gemini 3 Flash, le plaçant devant Grok 4.3 et Claude Sonnet 4.6. Sur l'AA Omniscience, qui évalue l'exactitude des connaissances et la tendance aux hallucinations, le modèle s'améliore de 11 points, avec un taux d'hallucination de 61 %, soit une baisse de 31 points par rapport à son prédécesseur.

Les tâches agentiques en plein essor

Historiquement, les tâches agentiques ont été un point faible pour la série Gemini. Le 3.5 Flash s'améliore considérablement dans ce domaine. Sur le GDPval-AA, qui teste des tâches d'agent réelles avec accès web et shell, il atteint un score Elo de 1 656, un bond significatif par rapport au Gemini 3 Flash (1 204) et au Gemini 3.1 Pro (1 314). Cependant, cette performance accrue nécessite en moyenne 49 interactions par tâche, plus que tout autre modèle testé.

La programmation, un point faible persistant

Dans le domaine de la programmation, où les modèles rapides et peu coûteux sont les plus recherchés, le Gemini 3.5 Flash ne parvient pas à se démarquer. Il obtient un score de 45 sur l'Artificial Analysis Coding Index, bien en dessous du Gemini 3.1 Pro Preview (55) et loin derrière des modèles comme GPT-5.5 (59) et GPT-5.4 (57).

Une rapidité inégalée

Le Gemini 3.5 Flash atteint une vitesse de plus de 280 tokens de sortie par seconde, environ 70 % plus rapide que le Gemini 3 Flash. Il supporte également les entrées vidéo et audio en plus du texte et des images, alors que d'autres modèles comme Claude Opus 4.7, Grok 4.3, et GPT-5.5 se limitent à l'entrée d'images.

Des coûts croissants et un retour sur investissement flou

À moins que les coûts d'inférence pour le matériel sous-jacent ne diminuent aussi rapidement que la puissance de calcul par tâche n'augmente, les prix des modèles plus puissants continueront d'augmenter. Pour les cas d'utilisation plus simples, des modèles plus anciens ou des options plus petites comme le Gemini 3.1 Flash-Lite resteront disponibles. Pour les entreprises, le retour sur investissement de l'IA devient de plus en plus difficile à évaluer. Les tâches isolées comme la génération de code ou la traduction sont plus faciles à mesurer, mais même là, la situation est plus complexe qu'il n'y paraît.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires