Brief IA

Latest open artifacts (#20): New orgs! New types of models! With Nemotron Super, Sarvam, Cohere Transcribe, & others

🔬 Researchvia Interconnects·Florian Brand·

Latest open artifacts (#20): New orgs! New types of models! With Nemotron Super, Sarvam, Cohere Transcribe, & others

Latest open artifacts (#20): New orgs! New types of models! With Nemotron Super, Sarvam, Cohere Transcribe, & others
En bref
1De nouvelles organisations et modèles d'IA émergent, notamment Nemotron Super et Cohere Transcribe.
2Ces innovations pourraient transformer la manière dont les entreprises interagissent avec l'IA.
3Le paysage de l'IA continue d'évoluer rapidement, avec une concurrence accrue entre les nouveaux acteurs.
💡Pourquoi c'est importantCes développements pourraient redéfinir les standards de l'industrie et influencer les stratégies d'adoption de l'IA.
📄
Article traduit en français

Derniers artefacts ouverts (#20) : Nouvelles organisations ! Nouveaux types de modèles !

L'article présente une variété de modèles divers et originaux à travers différents cas d'utilisation et modalités. Contrairement aux précédentes compilations de modèles souvent dominées par des géants comme Qwen, DeepSeek ou Kimi, cette édition met en avant des modèles pour des applications variées telles que :

  • Reconnaissance optique de caractères (OCR)
  • Recherche RAG
  • Transcription audio
  • Utilisation informatique
  • Édition de code
  • Démonstration de théorèmes mathématiques

Les artefacts de ce mois proviennent également d'une liste beaucoup plus large de créateurs de modèles ouverts, ce qui laisse entrevoir un avenir prometteur pour les modèles ouverts, où la nécessité de modèles spécifiques à un domaine et peu coûteux est perçue comme essentielle pour compléter les agents fermés les plus puissants.

Nos choix

  • NVIDIA-Nemotron-3-Super-120B-A12B-NVFP4 par NVIDIA : Le modèle tant attendu de taille intermédiaire de NVIDIA est enfin disponible : 120 milliards de paramètres au total avec 12 milliards actifs, une fenêtre de contexte de 1 million et un support pour plusieurs langues populaires. Ce modèle utilise LatentMoE et NVFP4 durant la pré-formation, une première pour les modèles ouverts.

  • cohere-transcribe-03-2026 par CohereLabs : Un modèle de conversion de la parole en texte basé sur l'architecture conformer, similaire à celui de NVIDIA. Il prend en charge 14 langues différentes, y compris certaines langues AIPAC et l'arabe. Cohere affirme qu'il surpasse les modèles ouverts et fermés de taille similaire. De plus, le modèle est publié sous Apache 2.0.

  • sarvam-105b par SarvamAI : La startup indienne Sarvam a considérablement augmenté la taille de ses ensembles de données (12-16T tokens) et de ses modèles (30B-A2B, 105B-10A). Les modèles Sarvam sont largement préférés pour les langues indiques par rapport aux modèles ouverts SOTA.

  • Mistral-Small-4-119B-2603 par Mistral : Un modèle de 119 milliards de paramètres combinant les générations précédentes en un modèle hybride avec des capacités de codage.

  • zeta-2 par Zed Industries : L'éditeur de code open source Zed a publié son modèle de prédiction d'édition, basé sur Seed-Coder-8B, entraîné sur du code source ouvert par des utilisateurs ayant explicitement consenti à la collecte de données.

Modèles

Général

  • gpt-oss-puzzle-88B par NVIDIA : Une version optimisée de GPT OSS 120B, remplaçant certaines couches d'attention globale par de l'attention par fenêtre. Puzzle est un cadre de recherche d'architecture neuronale post-formation visant à améliorer l'efficacité d'inférence pour les charges de travail lourdes en raisonnement.

  • Olmo-Hybrid-7B par AllenAI : Un modèle hybride combinant attention et GDN (gated DeltaNet).

  • NVIDIA-Nemotron-3-Nano-4B-BF16 par NVIDIA : Une version compressée de NVIDIA-Nemotron-Nano-9B-v2.

Multimodal

  • Yuan3.0-Ultra par YuanLabAI : Un modèle multimodal de 1 trillion de paramètres, pré-entraîné sur 2,2 trillions de tokens.

  • LongCat-Next par Meituan-LongCat : Un modèle multimodal capable de traiter texte, vision et audio.

  • granite-4.0-1b-speech par IBM-Granite : Un petit modèle de conversion de la parole en texte supportant six langues.

  • Phi-4-reasoning-vision-15B par Microsoft : Un modèle Phi utilisant l'encodeur de vision SigLIP-2.

Spécial

  • MiroThinker-1.7 par Miromind-AI : Une version fine-tunée de Qwen 235B pour des flux de travail agentiques.

  • tabpfn_2_6 par Prior-Labs : Une mise à jour du modèle de prédiction tabulaire, légèrement plus grand que son prédécesseur.

  • sam3.1 par Facebook : Une mise à jour de SAM 3, avec une licence restrictive.

  • Holotron-12B par Hcompany : Un modèle de politique pour les agents CUA.

  • LongCat-Flash-Prover par Meituan-LongCat : Un fine-tune Lean4 du grand modèle LongCat.

  • Leanstral-2603 par MistralAI : Un fine-tune Lean4 du nouveau Mistral Small 4.

  • reka-edge-2603 par RekaAI : Un modèle pour la robotique, surpassant des modèles tels que Cosmos-Reason2.

RAG

  • Qianfan-OCR par Baidu : Un modèle OCR sous licence Apache 2.0.

  • chandra-ocr-2 par Datalab-TO : Une mise à jour du modèle Chandra OCR, sous une licence restrictive.

  • Reason-ModernColBERT par LightonAI : Un modèle de récupération SOTA sous licence non commerciale.

  • context-1 par ChromaDB : Une version fine-tunée de GPT-OSS pour la recherche agentique.

  • dots.mocr par Rednote-Hilab : Le modèle dots.ocr mis à jour, supportant les sorties SVG, mais avec des restrictions supplémentaires sur son utilisation.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.