Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Google Deepmind et le lancement du Gemini 3.5 Flash
Google Deepmind a récemment introduit le Gemini 3.5 Flash, un modèle d'intelligence artificielle qui se distingue par sa capacité à générer plus de 280 tokens de sortie par seconde. Cette performance fait de lui le modèle le plus rapide de sa catégorie. Cependant, cette rapidité a un coût : l'exploitation du Gemini 3.5 Flash est 5,5 fois plus onéreuse que celle de son prédécesseur.
Une hausse significative des coûts
Le coût d'exploitation du Gemini 3.5 Flash a considérablement augmenté, tant en termes de prix des tokens que de consommation de tokens. Google facture désormais 1,50 $ par million de tokens d'entrée et 9,00 $ par million de tokens de sortie, contre respectivement 0,50 $ et 3,00 $ pour le modèle précédent, le Gemini 3 Flash. En conséquence, les tâches basées sur des agents consomment tellement plus de tokens que les coûts totaux sont 75 % plus élevés que ceux du Gemini 3.1 Pro, selon Artificial Analysis.
Performances et limitations
Le Gemini 3.5 Flash montre des améliorations significatives dans les tâches agentiques et multimodales. Il obtient un score de 55 sur l'Artificial Analysis Intelligence Index, soit neuf points de plus que le Gemini 3 Flash, le plaçant devant Grok 4.3 et Claude Sonnet 4.6. Sur l'AA Omniscience, qui évalue l'exactitude des connaissances et la tendance aux hallucinations, le modèle s'améliore de 11 points, avec un taux d'hallucination de 61 %, soit une baisse de 31 points par rapport à son prédécesseur.
Les tâches agentiques en plein essor
Historiquement, les tâches agentiques ont été un point faible pour la série Gemini. Le 3.5 Flash s'améliore considérablement dans ce domaine. Sur le GDPval-AA, qui teste des tâches d'agent réelles avec accès web et shell, il atteint un score Elo de 1 656, un bond significatif par rapport au Gemini 3 Flash (1 204) et au Gemini 3.1 Pro (1 314). Cependant, cette performance accrue nécessite en moyenne 49 interactions par tâche, plus que tout autre modèle testé.
La programmation, un point faible persistant
Dans le domaine de la programmation, où les modèles rapides et peu coûteux sont les plus recherchés, le Gemini 3.5 Flash ne parvient pas à se démarquer. Il obtient un score de 45 sur l'Artificial Analysis Coding Index, bien en dessous du Gemini 3.1 Pro Preview (55) et loin derrière des modèles comme GPT-5.5 (59) et GPT-5.4 (57).
Une rapidité inégalée
Le Gemini 3.5 Flash atteint une vitesse de plus de 280 tokens de sortie par seconde, environ 70 % plus rapide que le Gemini 3 Flash. Il supporte également les entrées vidéo et audio en plus du texte et des images, alors que d'autres modèles comme Claude Opus 4.7, Grok 4.3, et GPT-5.5 se limitent à l'entrée d'images.
Des coûts croissants et un retour sur investissement flou
À moins que les coûts d'inférence pour le matériel sous-jacent ne diminuent aussi rapidement que la puissance de calcul par tâche n'augmente, les prix des modèles plus puissants continueront d'augmenter. Pour les cas d'utilisation plus simples, des modèles plus anciens ou des options plus petites comme le Gemini 3.1 Flash-Lite resteront disponibles. Pour les entreprises, le retour sur investissement de l'IA devient de plus en plus difficile à évaluer. Les tâches isolées comme la génération de code ou la traduction sont plus faciles à mesurer, mais même là, la situation est plus complexe qu'il n'y paraît.