Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Les systèmes d'intelligence artificielle agentiques dépendent fortement de la capacité des modèles à appeler des outils de manière fiable, en choisissant la fonction adéquate, en formatant correctement les arguments et en intégrant les résultats dans des flux de travail multi-étapes. Les grands modèles de pointe, tels que ChatGPT, Claude et Gemini, gèrent ces tâches avec efficacité. Cependant, ils présentent des inconvénients notables en termes de coût, de latence et de besoins matériels, rendant leur déploiement impraticable dans de nombreux contextes réels. C'est ici que les petits modèles linguistiques interviennent, comblant cette lacune avec des solutions compactes et à poids ouverts qui ne nécessitent pas de centres de données pour fonctionner.
Voici une sélection de cinq modèles linguistiques compacts conçus pour l'appel d'outils agentiques, présentés sans ordre particulier. Tous ces modèles sont hébergés sur Hugging Face pour plus de commodité et de cohérence.
SmolLM3-3B
Lancé le 8 juillet 2025 par Hugging Face, SmolLM3-3B est un modèle linguistique de 3 milliards de paramètres. Il est conçu pour repousser les limites des petits modèles, prenant en charge le raisonnement en mode double, six langues, et un long contexte. Ce modèle utilise l'attention par requêtes groupées (GQA) et les embeddings positionnels nuls (NoPE), et a été pré-entraîné sur 11,2 trillions de tokens avec un curriculum échelonné de données web, de code, de mathématiques et de raisonnement. Le post-entraînement a inclus une phase intermédiaire sur 140 milliards de tokens de raisonnement, suivie d'un ajustement supervisé et d'un alignement via l'Optimisation de Préférence Ancrée (APO). SmolLM3-3B prend en charge deux interfaces d'appel d'outils distinctes, ce qui le rend très flexible pour les pipelines agentiques et les systèmes RAG.
Qwen3-4B-Instruct-2507
Développé par l'équipe Qwen d'Alibaba, Qwen3-4B-Instruct-2507 est sorti le 6 août 2025. Ce modèle de 4,0 milliards de paramètres (3,6 milliards sans embeddings) est une version mise à jour du mode sans pensée Qwen3-4B. Il offre des améliorations significatives dans les capacités générales, y compris le suivi des instructions, le raisonnement logique, la compréhension du texte, les mathématiques, la science, le codage et l'utilisation d'outils. Ce modèle est optimisé pour des cas d'utilisation à réponse rapide, comme la fourniture de réponses concises, ce qui le rend bien adapté aux chatbots et aux agents d'appel d'outils.
Phi-3-mini-4k-instruct
Phi-3-Mini-4K-Instruct, développé par Microsoft, a été lancé en avril 2024. Ce modèle léger de 3,8 milliards de paramètres est entraîné avec les ensembles de données Phi-3, axé sur des propriétés de haute qualité et de raisonnement dense. Il est principalement destiné aux environnements à mémoire et à calcul limités, et il est capable de rivaliser avec GPT-3.5 en termes de performances. Ce modèle est conçu pour fonctionner efficacement dans des contextes où les ressources sont limitées, tout en offrant des capacités de raisonnement avancées.
Gemma-4-E2B-it
Gemma-4-E2B-it, une création de Google DeepMind, a été lancé le 2 avril 2026. Ce modèle fait partie de la famille Gemma 4 et utilise un mécanisme d'attention hybride qui combine une fenêtre glissante et une attention globale, permettant un traitement rapide et une faible empreinte mémoire. Avec des paramètres effectifs de 2,3 milliards (5,1 milliards au total avec embeddings), il est optimisé pour le déploiement sur des appareils mobiles et IoT, capable de gérer des entrées textuelles, d'images, d'audio et de vidéo.
Mistral-7B-Instruct-v0.3
Enfin, Mistral-7B-Instruct-v0.3, développé par Mistral AI, est une version fine-tunée de Mistral-7B-v0.3, disponible depuis le 27 mai 2024. Ce modèle utilise une architecture de transformateur avec GQA et SWA, et prend en charge l'appel de fonction via des tokens dédiés. Avec une capacité étendue à 32,768 tokens depuis la version v0.2, il offre les meilleures performances de suivi des instructions du groupe et est devenu un standard industriel largement disponible à travers diverses plateformes d'inférence.
Les cinq modèles présentés ici — SmolLM3-3B, Qwen3-4B-Instruct-2507, Phi-3-mini-4k-instruct, Gemma-4-E2B-it, et Mistral-7B-Instruct-v0.3 — couvrent une gamme d'architectures, de nombres de paramètres, de fenêtres de contexte et de dates de sortie, mais partagent une caractéristique importante : tous prennent en charge l'appel d'outils structuré dans un package compact et à poids ouvert. Ces modèles montrent que des modèles agentiques capables ne nécessitent plus d'infrastructure massive pour être déployés. Que votre priorité soit l'inférence sur appareil, la gestion de longs contextes, la couverture multilingue ou la licence la plus permissive possible, il existe un modèle dans cette liste qui mérite d'être exploré.
