Brief IA : Deepseek défie OpenAI avec des modèles IA abordables

Deepseek défie OpenAI avec des modèles IA abordables

Brief IA
Tom Levy·4 min·4 vues

Deepseek a lancé les modèles V4-Pro et V4-Flash, dotés de jusqu'à 1,6 trillion de paramètres et d'une fenêtre de contexte d'un million de tokens. Ces modèles, proposés à des prix nettement inférieurs à ceux d'OpenAI, Google et Anthropic, pourraient redéfinir la compétitivité sur le marché de l'IA en rendant des technologies avancées plus accessibles.

En bref
1Deepseek a dévoilé les modèles V4-Pro et V4-Flash, dotés de 1,6 trillion de paramètres, à des prix compétitifs.
2L'architecture innovante de Deepseek réduit les ressources nécessaires, permettant une tarification agressive face à OpenAI et Google.
3V4-Pro, le plus grand modèle à poids ouverts, surpasse Kimi K2.6 et GLM-5.1 en performance sur le benchmark GDPval-AA.
💡Pourquoi c'est importantDeepseek pourrait bouleverser le marché de l'IA avec des modèles performants à bas coût, forçant les concurrents à revoir leurs stratégies tarifaires.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Lancement des modèles V4-Pro et V4-Flash par Deepseek

Deepseek, un laboratoire chinois d'intelligence artificielle, a récemment lancé deux nouveaux modèles, V4-Pro et V4-Flash, qui se distinguent par leur taille et leur efficacité. Ces modèles, proposés avec des poids ouverts, atteignent jusqu'à 1,6 trillion de paramètres et disposent d'une fenêtre de contexte d'un million de tokens. Cette avancée est rendue possible grâce à une nouvelle architecture qui réduit considérablement les ressources informatiques nécessaires pour traiter de longs contextes. Cela permet à Deepseek de proposer ces modèles à des prix bien inférieurs à ceux de ses concurrents tels qu'OpenAI, Google et Anthropic.

Les modèles ont été entraînés sur un vaste corpus allant jusqu'à 33 trillions de tokens. Ils ont été affinés par distillation à partir de modèles spécialisés internes, ce qui les rend particulièrement adaptés aux tâches agentiques. Ils fonctionnent sur des GPU Nvidia ainsi que sur les puces Ascend de Huawei, ce qui élargit leur compatibilité matérielle.

Détails techniques des modèles

Deepseek a publié des versions préliminaires de V4-Pro et V4-Flash sous la licence MIT, ce qui les rend accessibles à un large public. Le modèle V4-Pro, avec ses 1,6 trillion de paramètres, est désormais le plus grand modèle à poids ouverts disponible, surpassant de manière significative Kimi K2.6 et GLM-5.1. V4-Flash, quant à lui, dispose de 284 milliards de paramètres. Ces modèles sont des modèles de mélange d'experts, ce qui signifie qu'ils utilisent une architecture qui permet d'activer uniquement une partie des paramètres pour chaque tâche, optimisant ainsi l'efficacité.

Innovations architecturales

L'innovation clé de ces modèles réside dans une nouvelle architecture d'attention hybride. Cette architecture combine la compression des tokens avec l'attention sparse, ce qui permet de réduire les besoins en ressources. Selon le rapport technique de Deepseek, V4-Pro nécessite seulement 27 % des FLOPs et 10 % du cache KV par rapport à la version précédente, V3.2, pour traiter un contexte d'un million de tokens. V4-Flash va encore plus loin en réduisant ces chiffres à 10 % des FLOPs et 7 % du cache KV.

Sur le benchmark GDPval-AA d'Artificial Analysis, V4-Pro devance tous les modèles à poids ouverts avec un score de 1 554 points Elo, surpassant GLM-5.1 et Kimi K2.6. Cela représente une augmentation d'environ 355 points Elo par rapport à V3.2. Cependant, Deepseek reconnaît que V4-Pro est légèrement en retard par rapport à des modèles de pointe comme GPT-5.4 et Gemini-3.1-Pro, accusant un retard de trois à six mois.

Tarification agressive

Les gains d'efficacité des modèles expliquent la stratégie de tarification agressive de Deepseek. V4-Flash est proposé à un tarif de 0,14 $ par million de tokens d'entrée et 0,28 $ par million de tokens de sortie, ce qui le rend moins cher que GPT-5.4 Nano d'OpenAI. V4-Pro est proposé à 1,74 $ et 3,48 $, ce qui le place bien en dessous de Gemini 3.1 Pro, GPT-5.5 et Claude Sonnet 4.6.

Entraînement basé sur des données massives

L'équipe de Deepseek reste relativement discrète sur le corpus de pré-entraînement. V4-Flash a été entraîné sur 32 trillions de tokens, tandis que V4-Pro a utilisé 33 trillions. L'accent a été mis sur des données multilingues, des articles scientifiques soigneusement sélectionnés et des données agentiques pendant l'entraînement intermédiaire. Les données web ont été filtrées pour éviter le contenu généré automatiquement et en série.

Le rapport ne mentionne pas de jeux de données spécifiques ni de sources de licence. Les soupçons selon lesquels Deepseek distillerait directement à partir de GPT ou Claude ne sont pas confirmés dans le rapport.

Distillation et optimisation

La distillation joue un rôle central dans l'entraînement postérieur des modèles. Deepseek a complètement remplacé sa phase d'apprentissage par renforcement mixte par de la distillation en politique. Selon le rapport, le laboratoire entraîne d'abord plus de dix modèles spécialisés internes pour des domaines tels que les mathématiques, le code, les agents et le suivi des instructions en utilisant un ajustement supervisé et GRPO. Un modèle étudiant unique apprend ensuite de tous ces enseignants internes.

Modèles optimisés pour des tâches agentiques

Deepseek a conçu les modèles V4 spécifiquement pour des flux de travail agentiques. L'entreprise affirme que les modèles sont intégrés avec des outils tels que Claude Code, OpenClaw et OpenCode, et qu'ils sont déjà utilisés en interne pour le codage agentique. L'API prend en charge à la fois les interfaces compatibles avec OpenAI et Anthropic.

Le rapport est plus précis concernant le matériel : le schéma de parallélisme expert a été validé sur des GPU Nvidia et des NPU Ascend de Huawei. Le méga-noyau open-source MegaMoE est basé sur CUDA, et Deepseek a remplacé la bibliothèque cuBLAS de Nvidia par sa propre DeepGEMM.

Par ailleurs, Huawei a annoncé que son Ascend Supernode, construit sur des puces AI Ascend 950, prend en charge pleinement les modèles V4.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires