New ways to balance cost and reliability in the Gemini API

Nouvelles méthodes pour équilibrer coût et fiabilité dans l'API Gemini
Nous ajoutons aujourd'hui deux nouveaux niveaux de service à l'API Gemini : Flex et Priority. Ces nouvelles options vous offrent un contrôle granulaire sur le coût et la fiabilité à travers une interface unique et unifiée.
Flex Inference : innover à moindre coût
Flex Inference est notre nouveau niveau optimisé pour les coûts, conçu pour des charges de travail tolérantes à la latence sans les frais généraux du traitement par lots.
-
Économies de 50 % : Payez la moitié du prix de l'API Standard en réduisant la criticité de votre demande (ce qui les rend moins fiables et ajoute de la latence).
-
Simplicité synchrone : Contrairement à l'API Batch, Flex est une interface synchrone. Vous utilisez les mêmes points de terminaison familiers sans gérer de fichiers d'entrée/sortie ou surveiller l'achèvement des tâches.
-
Cas d'utilisation idéaux : Mises à jour CRM en arrière-plan, simulations de recherche à grande échelle et flux de travail agentiques où le modèle "navigue" ou "réfléchit" en arrière-plan.
Pour commencer rapidement, il vous suffit de configurer le paramètre service_tier dans votre demande. Le niveau Flex sera disponible pour tous les niveaux payants et est accessible pour les demandes d'API GenerateContent et Interactions.
Priority Inference : fiabilité maximale pour les applications critiques
Le nouveau niveau Priority Inference offre notre plus haut niveau d'assurance à un prix premium. Cela permet de garantir que votre trafic le plus important n'est pas préempté, même pendant les périodes de forte utilisation de la plateforme.
-
Criticité maximale : Les demandes prioritaires bénéficient d'une criticité maximale, ce qui entraîne une fiabilité accrue, même en période de forte charge.
-
Downgrade gracieux : Si votre trafic dépasse vos limites de priorité, les demandes excédentaires sont automatiquement traitées au niveau Standard au lieu d'échouer. Cela maintient votre application en ligne et aide à garantir la continuité des affaires.
-
Réponse transparente : La réponse de l'API indique quel niveau a traité votre demande, vous offrant une visibilité complète sur votre performance et votre facturation.
-
Cas d'utilisation idéaux : Bots de support client en temps réel, pipelines de modération de contenu en direct et demandes sensibles au temps.
Pour utiliser Priority Inference, il vous suffit de définir le paramètre service_tier en conséquence. Priority Inference sera disponible pour les utilisateurs ayant des projets payants de niveau 2 / 3 sur les points de terminaison de l'API GenerateContent et Interactions.
Visitez la documentation de l'API Gemini pour voir le détail complet des tarifs et commencer à optimiser vos niveaux de production dès aujourd'hui. Pour le voir en action, consultez le livre de recettes pour des exemples de code exécutables.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.