Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Lancement des modèles V4-Pro et V4-Flash par Deepseek
Deepseek, un laboratoire chinois d'intelligence artificielle, a récemment lancé deux nouveaux modèles, V4-Pro et V4-Flash, qui se distinguent par leur taille et leur efficacité. Ces modèles, proposés avec des poids ouverts, atteignent jusqu'à 1,6 trillion de paramètres et disposent d'une fenêtre de contexte d'un million de tokens. Cette avancée est rendue possible grâce à une nouvelle architecture qui réduit considérablement les ressources informatiques nécessaires pour traiter de longs contextes. Cela permet à Deepseek de proposer ces modèles à des prix bien inférieurs à ceux de ses concurrents tels qu'OpenAI, Google et Anthropic.
Les modèles ont été entraînés sur un vaste corpus allant jusqu'à 33 trillions de tokens. Ils ont été affinés par distillation à partir de modèles spécialisés internes, ce qui les rend particulièrement adaptés aux tâches agentiques. Ils fonctionnent sur des GPU Nvidia ainsi que sur les puces Ascend de Huawei, ce qui élargit leur compatibilité matérielle.
Détails techniques des modèles
Deepseek a publié des versions préliminaires de V4-Pro et V4-Flash sous la licence MIT, ce qui les rend accessibles à un large public. Le modèle V4-Pro, avec ses 1,6 trillion de paramètres, est désormais le plus grand modèle à poids ouverts disponible, surpassant de manière significative Kimi K2.6 et GLM-5.1. V4-Flash, quant à lui, dispose de 284 milliards de paramètres. Ces modèles sont des modèles de mélange d'experts, ce qui signifie qu'ils utilisent une architecture qui permet d'activer uniquement une partie des paramètres pour chaque tâche, optimisant ainsi l'efficacité.
Innovations architecturales
L'innovation clé de ces modèles réside dans une nouvelle architecture d'attention hybride. Cette architecture combine la compression des tokens avec l'attention sparse, ce qui permet de réduire les besoins en ressources. Selon le rapport technique de Deepseek, V4-Pro nécessite seulement 27 % des FLOPs et 10 % du cache KV par rapport à la version précédente, V3.2, pour traiter un contexte d'un million de tokens. V4-Flash va encore plus loin en réduisant ces chiffres à 10 % des FLOPs et 7 % du cache KV.
Sur le benchmark GDPval-AA d'Artificial Analysis, V4-Pro devance tous les modèles à poids ouverts avec un score de 1 554 points Elo, surpassant GLM-5.1 et Kimi K2.6. Cela représente une augmentation d'environ 355 points Elo par rapport à V3.2. Cependant, Deepseek reconnaît que V4-Pro est légèrement en retard par rapport à des modèles de pointe comme GPT-5.4 et Gemini-3.1-Pro, accusant un retard de trois à six mois.
Tarification agressive
Les gains d'efficacité des modèles expliquent la stratégie de tarification agressive de Deepseek. V4-Flash est proposé à un tarif de 0,14 $ par million de tokens d'entrée et 0,28 $ par million de tokens de sortie, ce qui le rend moins cher que GPT-5.4 Nano d'OpenAI. V4-Pro est proposé à 1,74 $ et 3,48 $, ce qui le place bien en dessous de Gemini 3.1 Pro, GPT-5.5 et Claude Sonnet 4.6.
Entraînement basé sur des données massives
L'équipe de Deepseek reste relativement discrète sur le corpus de pré-entraînement. V4-Flash a été entraîné sur 32 trillions de tokens, tandis que V4-Pro a utilisé 33 trillions. L'accent a été mis sur des données multilingues, des articles scientifiques soigneusement sélectionnés et des données agentiques pendant l'entraînement intermédiaire. Les données web ont été filtrées pour éviter le contenu généré automatiquement et en série.
Le rapport ne mentionne pas de jeux de données spécifiques ni de sources de licence. Les soupçons selon lesquels Deepseek distillerait directement à partir de GPT ou Claude ne sont pas confirmés dans le rapport.
Distillation et optimisation
La distillation joue un rôle central dans l'entraînement postérieur des modèles. Deepseek a complètement remplacé sa phase d'apprentissage par renforcement mixte par de la distillation en politique. Selon le rapport, le laboratoire entraîne d'abord plus de dix modèles spécialisés internes pour des domaines tels que les mathématiques, le code, les agents et le suivi des instructions en utilisant un ajustement supervisé et GRPO. Un modèle étudiant unique apprend ensuite de tous ces enseignants internes.
Modèles optimisés pour des tâches agentiques
Deepseek a conçu les modèles V4 spécifiquement pour des flux de travail agentiques. L'entreprise affirme que les modèles sont intégrés avec des outils tels que Claude Code, OpenClaw et OpenCode, et qu'ils sont déjà utilisés en interne pour le codage agentique. L'API prend en charge à la fois les interfaces compatibles avec OpenAI et Anthropic.
Le rapport est plus précis concernant le matériel : le schéma de parallélisme expert a été validé sur des GPU Nvidia et des NPU Ascend de Huawei. Le méga-noyau open-source MegaMoE est basé sur CUDA, et Deepseek a remplacé la bibliothèque cuBLAS de Nvidia par sa propre DeepGEMM.
Par ailleurs, Huawei a annoncé que son Ascend Supernode, construit sur des puces AI Ascend 950, prend en charge pleinement les modèles V4.


