Brief IA : Zyphra, Cohere et Poolside : la révolution des modèles ouverts

Zyphra, Cohere et Poolside : la révolution des modèles ouverts

Brief IA
Tom Levy·4 min·4 vues

L'écosystème des modèles ouverts s'élargit avec l'émergence d'acteurs comme Zyphra, Cohere et Poolside, diversifiant ainsi l'offre. NVIDIA a lancé le modèle Nemotron-3-Ultra-550B-A55B-BF16 sous la licence OpenMDW, tandis que Cohere a publié Command A+ sous licence Apache 2.0, offrant des capacités multi-modales et multi-linguales. Cette diversification renforce l'innovation et l'accessibilité dans le domaine de l'IA.

En bref
1L'écosystème des modèles ouverts s'élargit avec des acteurs comme Zyphra, Cohere et Poolside, diversifiant l'offre.
2NVIDIA lance le modèle Nemotron-3-Ultra-550B-A55B-BF16, utilisant la licence OpenMDW pour ses poids de modèles.
3Cohere publie Command A+ sous licence Apache 2.0, offrant des capacités multi-modales et multi-linguales.
💡Pourquoi c'est importantLa diversification des modèles ouverts renforce l'innovation et l'accessibilité dans le domaine de l'IA, évitant la concentration technologique.
Le brief IA que lisent les pros

La recherche en IA te passionne ?

Les papers et avancées qui comptent, expliqués simplement, chaque soir. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

L'évolution de l'écosystème des modèles ouverts

L'écosystème des modèles ouverts connaît une transformation notable, marquée par une diversification croissante des acteurs impliqués. Autrefois dominé par quelques grandes entreprises, principalement chinoises, ce domaine voit désormais l'émergence de sociétés de niche à travers le monde. Cette évolution reflète une tendance vers une plus grande diversité dans le développement de modèles, bien que les motivations précises des entreprises restent souvent opaques.

Les fabricants de modèles "purs"

Parmi les acteurs clés, on trouve les fabricants de modèles "purs", dont l'objectif principal est de développer des modèles à la pointe de la technologie. Ces entreprises incluent des noms bien connus comme DeepSeek, Zhipu et Minimax en Chine, mais aussi des sociétés occidentales telles que Poolside, Arcee et Zyphra. De plus, des acteurs de l'IA souveraine comme Cohere, Sovereign, Mistral et Trillion Labs gagnent en importance. L'incident récent impliquant Mythos a sensibilisé certains décideurs, ce qui pourrait stimuler l'intérêt pour le développement de modèles souverains.

Les motivations des géants de la tech

Les grandes entreprises technologiques, telles qu'Alibaba avec Qwen, Google avec Gemma, et NVIDIA, ont des motivations variées pour leurs lancements de modèles. Alibaba, par exemple, utilise ces lancements pour promouvoir ses modèles fermés, tandis que NVIDIA profite d'un écosystème de modèles ouverts qui stimule l'utilisation de ses GPU. Cette approche contraste avec l'époque des modèles Llama, où les motivations des lancements ouverts étaient moins claires et se sont finalement estompées.

Les entreprises de produits et l'IA

Certaines entreprises, comme JetBrains, Zed, Krea et Photoroom, intègrent l'IA comme composant central de leurs produits. Pour éviter d'être dépendantes de modèles fermés ou pour offrir des solutions uniques, elles développent des modèles spécialisés et de petite taille adaptés à leurs besoins. L'open-sourcing de ces modèles ne compromet pas leur rentabilité, mais leur permet de rester compétitives.

La diversité comme force de l'écosystème

Cette diversité dans le développement des modèles ouverts est une force majeure de l'écosystème. Elle se manifeste dans les rapports techniques des lancements, qui réutilisent des méthodes d'entraînement, des choix d'architecture et des données d'autres modèles ouverts. Les tentatives de restreindre cet écosystème se sont révélées non seulement inefficaces, mais aussi potentiellement dangereuses, car elles pourraient concentrer le développement de l'IA entre les mains de quelques acteurs dominants.

Les modèles marquants de cette année

NVIDIA-Nemotron-3-Ultra-550B-A55B-BF16

NVIDIA a lancé une version avancée de sa série Nemotron, utilisant la technologie LatentMoE pour surpasser en vitesse les modèles comparables. La majorité des données de ce modèle est open source, et NVIDIA a adopté la licence OpenMDW, spécialement conçue pour les poids de modèles, abandonnant ainsi sa licence personnalisée.

Command A+ de CohereLabs

CohereLabs a récemment publié son modèle phare, Command A+, sous la licence Apache 2.0. Cette décision marque un changement bienvenu par rapport aux versions précédentes, qui étaient sous licence non commerciale. Command A+ offre des capacités multi-modales, multi-linguales et agentiques, et peut être utilisé avec un seul B200 en mode 4 bits.

GLM-5.2 par zai-org

GLM-5.2 continue d'impressionner par ses performances, rivalisant avec les meilleurs modèles fermés disponibles. Depuis son lancement, les chiffres de téléchargement montrent une popularité comparable à celle de GLM-5, confirmant son utilité pour le travail quotidien.

ZAYA1-74B-preview de Zyphra

Zyphra, connu pour ses choix d'architecture innovants, a publié de nouveaux modèles, dont un 74B-A4B MoE et un 8B-A0.6B MoE. Ces modèles sont le fruit de recherches approfondies et d'une utilisation intensive de GPU AMD.

Laguna-M.1 de Poolside

Poolside a également lancé son modèle phare sous la licence Apache 2.0, s'engageant à maintenir des lancements ouverts à l'avenir. Cette stratégie vise à publier des modèles de plus en plus performants tout en respectant les principes de l'ouverture.

Modèles à usage général

Kimi-K2.7-Code par moonshotai

Cette mise à jour de Kimi met l'accent sur l'efficacité des tokens, améliorant ainsi la performance globale du modèle.

Step-3.7-Flash par stepfun-ai

Step-Flash a été mis à jour pour exceller particulièrement dans les applications mathématiques, renforçant sa position dans ce domaine.

Nemotron-Labs-Diffusion-14B par NVIDIA

NVIDIA a également introduit un modèle expérimental, Nemotron-Labs-Diffusion-14B, qui peut être utilisé dans trois modes différents : autoregressif, diffusion et auto-spéculation, chacun étant adapté à des cas d'utilisation spécifiques.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires