Arcee AI spent half its venture capital to build an open reasoning model that rivals Claude Opus in agent tasks

Arcee AI investit dans un modèle de raisonnement ouvert
Arcee AI a lancé Trinity-Large-Thinking, un modèle de raisonnement ouvert conçu pour rivaliser avec Claude Opus dans les tâches d'agent. L'entreprise a consacré environ la moitié de son capital-risque total à ce projet.
L'espace des modèles de langage de grande taille est actuellement dominé par des laboratoires chinois tels que Qwen, MiniMax et Zhipu AI. La start-up américaine Arcee AI souhaite changer cela avec Trinity-Large-Thinking, un modèle de raisonnement sous licence Apache 2.0 comportant environ 400 milliards de paramètres, spécifiquement conçu pour les tâches d'agent. Une architecture de mélange d'experts active seulement environ 13 milliards de paramètres par jeton, rendant l'inférence efficace malgré la taille du modèle.
Selon l'entreprise, l'équipe a formé le modèle de base sur 2 048 GPU Nvidia B300 pendant 33 jours. Le coût d'environ 20 millions de dollars a absorbé près de la moitié du capital-risque total levé par Arcee AI jusqu'à présent. "À bien des égards, c'est le modèle ouvert le plus puissant jamais mis sur le marché en dehors de la Chine", écrit le CTO Lucas Atkins dans le billet de blog accompagnant la sortie.
Performances du modèle
Benchmarks d'agent solides, raisonnement général en retrait
Trinity-Large-Thinking génère un processus de pensée explicite dans des blocs de réflexion spéciaux avant chaque réponse. Le modèle est optimisé pour l'appel d'outils, la planification multi-étapes et les flux de travail autonomes.
Trinity-Large-Thinking se maintient au niveau d'Opus 4.6 dans des benchmarks d'agent tels que Tau2 et PinchBench, mais est en retrait dans des tests généraux comme GPQA-D et MMLU-Pro.
Selon la fiche technique sur Hugging Face, il affiche de bons résultats dans les benchmarks d'agent :
- 88 sur Tau2-Airline (première place)
- 91,9 sur PinchBench (deuxième place, juste derrière Claude Opus 4.6 à 93,3)
- 96,3 sur AIME25.
Le raisonnement général est une autre histoire : GPQA-Diamond atteint 76,3 et MMLU-Pro 83,4, tandis que Claude Opus 4.6 atteint respectivement 89,2 et 89,1.
Architecture de mélange d'experts
Le modèle utilise une architecture de mélange d'experts avec 256 sous-réseaux spécialisés, mais seulement quatre sont actifs par jeton. Cela signifie qu'environ 13 milliards sur 400 milliards de paramètres sont utilisés à chaque étape de calcul, économisant ainsi de la puissance de traitement sans réduire la capacité globale du modèle. Selon le rapport technique, le modèle de base atteint des résultats de benchmark compétitifs avec GLM 4.5, même si ce modèle active beaucoup plus de paramètres par jeton.
Pour gérer les longs textes, Trinity-Large combine deux types de couches d'attention : des couches locales couvrant chacune une section du texte et des couches globales s'étendant sur l'ensemble du contexte. Cette configuration permet de soutenir de longues fenêtres de contexte sans augmentation proportionnelle des coûts de calcul. En pratique, le modèle atteint une fenêtre de contexte utilisable de 512K jetons, bien qu'il ait été formé avec seulement 256K. Lors du test Needle-in-a-Haystack, qui vérifie si un modèle peut localiser des informations spécifiquement placées dans de longs textes, il a obtenu un score de 0,976 à 512K.
Méthodes d'entraînement et données
Méthode de rééquilibrage personnalisée
Les premières phases d'entraînement ont rencontré des problèmes lorsque des experts individuels se sont effondrés. La distribution des jetons à travers les sous-réseaux a dérivé, certains experts n'étant plus utilisés, et le modèle a cessé de s'améliorer. Selon le rapport technique, la cause principale était la méthode existante de répartition de charge entre les experts. Elle corrigeait les déséquilibres avec la même taille de pas fixe à chaque fois, indépendamment du fait qu'un expert soit légèrement ou massivement surchargé. Avec 256 experts, cela a créé une oscillation constante qui n'a jamais atteint un état stable.
L'équipe a développé SMEBU (Soft-clamped Momentum Expert Bias Updates) pour résoudre ce problème, une nouvelle méthode qui ajuste les corrections proportionnellement à la déviation réelle et les lisse dans le temps. Combinée à cinq autres mesures de stabilisation introduites simultanément en raison de la pression temporelle, cela a résolu le problème. Par la suite, l'ensemble de la phase d'entraînement est resté stable sans un seul pic soudain de perte d'entraînement. Ces pics sont un problème courant et redouté avec les grands modèles, pouvant ruiner une phase d'entraînement entière dans le pire des cas.
Données d'entraînement synthétiques
Une grande partie des données d'entraînement est synthétique : plus de 8 des 17 trillions de jetons ont été générés par d'autres modèles d'IA plutôt que récupérés sur le web. Cela inclut 6,5 trillions de jetons de texte web réécrit, environ 1 trillion de jetons de données multilingues et environ 800 milliards de jetons de code. Le partenaire DatologyAI a géré la curation des données. Selon le rapport technique, cela figure parmi les plus grandes générations de données synthétiques documentées pour le pré-entraînement.
Prime Intellect a fourni les clusters GPU. Étant donné que les systèmes B300 étaient tout nouveaux à l'époque, des erreurs GPU sont survenues et n'ont pu être corrigées que par des mises à jour de firmware.
L'équipe a également développé une nouvelle méthode pour traiter les données d'entraînement appelée Random Sequential Document Buffer (RSDB). Normalement, des documents particulièrement longs peuvent dominer plusieurs étapes d'entraînement consécutives et fausser la distribution des données. RSDB mélange les documents de manière aléatoire, ce que le rapport technique indique comme réduisant significativement les fluctuations entre les étapes d'entraînement individuelles.
Adoption et perspectives
Adoption précoce malgré un post-entraînement limité
Après le pré-entraînement, le modèle a traversé une seconde phase de fine-tuning axée sur des compétences spécifiques telles que l'utilisation d'outils et les tâches multi-étapes. Selon le rapport technique, cette phase a cependant duré moins longtemps que prévu en raison de la limitation du temps de calcul sur le cluster GPU. Arcee AI qualifie la version actuelle de préliminaire et prévoit un fine-tuning plus approfondi pour la prochaine itération.
Une version préliminaire publiée précédemment a fonctionné sur OpenRouter, où elle a traité 3,37 trillions de jetons au cours de ses deux premiers mois. Elle a été classée parmi les modèles ouverts les plus utilisés aux États-Unis sur la plateforme, selon Arcee AI. La version Thinking est également en ligne sur OpenRouter et fonctionne avec des frameworks d'agent tels que OpenClaw et Hermes Agent.
Peu avant la sortie d'Arcee AI, Google a lancé Gemma 4, une nouvelle famille de modèles ouverts également sous licence Apache 2.0 et en partie construite sur une architecture de mélange d'experts.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.