La recherche en IA te passionne ?
Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
L'évolution de l'écosystème des modèles ouverts
L'écosystème des modèles ouverts connaît une transformation notable, marquée par une diversification croissante des acteurs impliqués. Autrefois dominé par quelques grandes entreprises, principalement chinoises, ce domaine voit désormais l'émergence de sociétés de niche à travers le monde. Cette évolution reflète une tendance vers une plus grande diversité dans le développement de modèles, bien que les motivations précises des entreprises restent souvent opaques.
Les fabricants de modèles "purs"
Parmi les acteurs clés, on trouve les fabricants de modèles "purs", dont l'objectif principal est de développer des modèles à la pointe de la technologie. Ces entreprises incluent des noms bien connus comme DeepSeek, Zhipu et Minimax en Chine, mais aussi des sociétés occidentales telles que Poolside, Arcee et Zyphra. De plus, des acteurs de l'IA souveraine comme Cohere, Sovereign, Mistral et Trillion Labs gagnent en importance. L'incident récent impliquant Mythos a sensibilisé certains décideurs, ce qui pourrait stimuler l'intérêt pour le développement de modèles souverains.
Les motivations des géants de la tech
Les grandes entreprises technologiques, telles qu'Alibaba avec Qwen, Google avec Gemma, et NVIDIA, ont des motivations variées pour leurs lancements de modèles. Alibaba, par exemple, utilise ces lancements pour promouvoir ses modèles fermés, tandis que NVIDIA profite d'un écosystème de modèles ouverts qui stimule l'utilisation de ses GPU. Cette approche contraste avec l'époque des modèles Llama, où les motivations des lancements ouverts étaient moins claires et se sont finalement estompées.
Les entreprises de produits et l'IA
Certaines entreprises, comme JetBrains, Zed, Krea et Photoroom, intègrent l'IA comme composant central de leurs produits. Pour éviter d'être dépendantes de modèles fermés ou pour offrir des solutions uniques, elles développent des modèles spécialisés et de petite taille adaptés à leurs besoins. L'open-sourcing de ces modèles ne compromet pas leur rentabilité, mais leur permet de rester compétitives.
La diversité comme force de l'écosystème
Cette diversité dans le développement des modèles ouverts est une force majeure de l'écosystème. Elle se manifeste dans les rapports techniques des lancements, qui réutilisent des méthodes d'entraînement, des choix d'architecture et des données d'autres modèles ouverts. Les tentatives de restreindre cet écosystème se sont révélées non seulement inefficaces, mais aussi potentiellement dangereuses, car elles pourraient concentrer le développement de l'IA entre les mains de quelques acteurs dominants.
Les modèles marquants de cette année
NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16
NVIDIA a lancé une version avancée de sa série Nemotron, utilisant la technologie LatentMoE pour surpasser en vitesse les modèles comparables. La majorité des données de ce modèle est open source, et NVIDIA a adopté la licence OpenMDW, spécialement conçue pour les poids de modèles, abandonnant ainsi sa licence personnalisée.
Command A+ de CohereLabs
CohereLabs a récemment publié son modèle phare, Command A+, sous la licence Apache 2.0. Cette décision marque un changement bienvenu par rapport aux versions précédentes, qui étaient sous licence non commerciale. Command A+ offre des capacités multi-modales, multi-linguales et agentiques, et peut être utilisé avec un seul B200 en mode 4 bits.
GLM-5.2 par zai-org
GLM-5.2 continue d'impressionner par ses performances, rivalisant avec les meilleurs modèles fermés disponibles. Depuis son lancement, les chiffres de téléchargement montrent une popularité comparable à celle de GLM-5, confirmant son utilité pour le travail quotidien.
ZAYA1-74B-preview de Zyphra
Zyphra, connu pour ses choix d'architecture innovants, a publié de nouveaux modèles, dont un 74B-A4B MoE et un 8B-A0.6B MoE. Ces modèles sont le fruit de recherches approfondies et d'une utilisation intensive de GPU AMD.
Laguna-M.1 de Poolside
Poolside a également lancé son modèle phare sous la licence Apache 2.0, s'engageant à maintenir des lancements ouverts à l'avenir. Cette stratégie vise à publier des modèles de plus en plus performants tout en respectant les principes de l'ouverture.
Modèles à usage général
Kimi-K2.7-Code par moonshotai
Cette mise à jour de Kimi met l'accent sur l'efficacité des tokens, améliorant ainsi la performance globale du modèle.
Step-3.7-Flash par stepfun-ai
Step-Flash a été mis à jour pour exceller particulièrement dans les applications mathématiques, renforçant sa position dans ce domaine.
Nemotron-Labs-Diffusion-14B par NVIDIA
NVIDIA a également introduit un modèle expérimental, Nemotron-Labs-Diffusion-14B, qui peut être utilisé dans trois modes différents : autoregressif, diffusion et auto-spéculation, chacun étant adapté à des cas d'utilisation spécifiques.

