Qui a rédigé cet article sur comparatif ?

Cet article original a été rédigé et édité par Tom Levy, fondateur de Brief IA (briefia.fr), le média de référence et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA publie des analyses, comparatifs et guides originaux, sourcés et vérifiés.

360 vs Sakana AI : deux alternatives IA qui bousculent Anthropic

360 vs Sakana AI : prix, benchmarks et sorties 2025-2026 face à Anthropic, avec les chiffres clés du marché et un tableau comparatif.

Sakana AI ne vend pas une énième "grosse" IA : avec Fugu, la startup japonaise mise sur un orchestrateur qui choisit plusieurs modèles au lieu d’en exécuter un seul. De son côté, 360 avance une autre lecture du marché avec des offres IA pensées pour l’usage produit et l’intégration, dans un contexte où Anthropic reste l’un des repères du segment premium. En 2025-2026, la vraie question n’est plus seulement "qui est le plus intelligent ?", mais "qui est le plus rentable, le plus rapide et le plus fiable selon le cas d’usage ?" Sakana AI a présenté Fugu et Fugu Ultra fin juin 2026, avec des résultats annoncés proches ou supérieurs à des modèles de tête sur certains benchmarks techniques, tandis qu’un comparatif de marché publié en 2026 situe aussi Anthropic comme référence sur l’instruction-following et le code, ce qui rend la comparaison encore plus intéressante.

360, Sakana AI et Anthropic : trois approches très différentes

L’écart le plus important entre les trois acteurs n’est pas seulement la performance, mais l’architecture même du produit. Sakana AI ne propose pas un modèle monolithique classique avec Fugu : l’idée est d’orchestrer plusieurs modèles spécialisés pour produire une réponse, avec un système qui sélectionne le bon outil selon la tâche. Anthropic, à l’inverse, reste associé à une logique de modèle de frontière généraliste, particulièrement réputé pour la qualité d’exécution sur les tâches d’écriture, de raisonnement et de code, selon un panorama sectoriel 2026.

360 s’inscrit dans une logique plus pragmatique de plateforme et d’intégration, avec une présence forte sur le marché chinois et une offre davantage orientée vers les usages produit et entreprise que vers la communication autour d’un seul modèle star. Les résultats fournis ici ne documentent pas un benchmark public équivalent à celui de Sakana ou Anthropic pour 360, ce qui limite la comparaison directe sur la performance pure. En revanche, la comparaison reste utile pour comprendre trois stratégies concurrentes : orchestration multi-modèles chez Sakana, frontier model premium chez Anthropic, et plateforme d’intégration chez 360.

💡 À retenir : la bataille 2025-2026 ne se joue plus seulement sur la taille du modèle, mais sur l’architecture, le coût et la capacité à s’insérer dans un workflow réel.

Sakana AI : Fugu transforme l’IA en système d’orchestration

La proposition de Sakana AI est la plus disruptive des trois. Le 22 juin 2026, la presse spécialisée a rapporté le lancement de Fugu et Fugu Ultra, décrits comme des modèles d’orchestration capables d’appeler différents modèles pour résoudre une tâche plutôt que de générer une réponse en autonomie complète. Sakana AI explique que Fugu apprend à déléguer, coordonner les agents et agréger leurs sorties pour produire une réponse fiable.

Cette approche change la lecture du benchmark. Si un système appelle plusieurs modèles, sa valeur ne se mesure pas seulement à son score brut, mais aussi à sa capacité à arbitrer entre qualité, latence, coût et conformité. Selon le reportage relayé fin juin 2026, Fugu Ultra aurait des performances proches ou supérieures à des modèles de tête sur des benchmarks d’ingénierie, de science et de raisonnement, et les deux variantes auraient réussi tous les Rubik’s Cubes du test rapporté, avec Fugu Ultra plus économe en étapes et Fugu plus rapide à l’exécution.

La conséquence produit est importante : Sakana ne demande pas d’accéder aux poids des modèles partenaires, et les modèles appelés peuvent ne pas être open source. Cela signifie que l’orchestrateur peut, en théorie, intégrer de nouveaux modèles dès leur sortie, ce qui le rend potentiellement plus flexible qu’un modèle unique. En pratique, cette flexibilité vaut surtout si l’utilisateur accepte un système plus complexe à gouverner qu’un chatbot classique.

Ce que cela change pour les entreprises

Pour une entreprise, un orchestrateur multi-modèles peut réduire le risque de verrouillage technologique. Il devient possible d’optimiser par tâche : un modèle pour le code, un autre pour la synthèse, un autre pour la conformité.

Mais cette logique a un revers. Plus le pipeline est sophistiqué, plus la transparence diminue sur la provenance exacte de la réponse, ce qui peut compliquer l’audit. La valeur de Sakana AI repose donc moins sur une simplicité d’usage que sur une promesse d’optimisation systémique.

Anthropic reste la référence premium sur le code et l’instruction-following

Anthropic conserve une position très forte sur les usages où la fiabilité opérationnelle compte autant que la performance brute. Un panorama sectoriel publié en 2026 indique que Claude mène le marché sur la précision de l’instruction-following, et que Fable 5 atteint 80,3 % sur SWE-Bench Pro, soit plus de 11 points d’avance sur le concurrent immédiatement derrière lui dans ce comparatif.

Le même document compare aussi Anthropic à OpenAI et Google sur plusieurs axes. Il indique que l’avantage est particulièrement net pour les tâches de codage agentique, où Claude est présenté comme la meilleure option publique disponible à ce moment-là. En clair, si votre priorité est de faire produire du code ou des réponses longues avec un haut niveau de cohérence, Anthropic reste une base de comparaison très solide.

Cette domination n’est pas forcément synonyme de meilleur choix universel. Le même panorama note que d’autres acteurs comme Gemini ou des modèles chinois peuvent offrir de meilleures positions prix/performance sur certains segments, ce qui montre que le marché est désormais fragmenté. Anthropic conserve l’avantage qualitatif sur des tâches premium, mais le coût d’entrée reste un point sensible.

"Claude mène le marché sur la précision de l’instruction-following".

Pourquoi Anthropic reste difficile à déloger

Anthropic bénéficie d’un positionnement clair : moins de dispersion produit que certains concurrents, mais une perception de fiabilité élevée pour les cas d’usage professionnels. Le résultat est simple à lire pour les acheteurs : quand le coût d’une erreur est élevé, la valeur d’un modèle plus constant peut dépasser un modèle moins cher.

Pour les équipes techniques, cela se traduit souvent par un arbitrage entre qualité, prix et profondeur d’intégration. Anthropic est fort quand l’enjeu est de limiter les hallucinations et de conserver une exécution propre sur des tâches complexes.

360 : l’option la plus difficile à comparer, mais pas la moins stratégique

360 apparaît moins lisible que Sakana AI et Anthropic dans les résultats disponibles, mais cela ne veut pas dire qu’il faut l’écarter. Le groupe chinois est surtout intéressant parce qu’il représente une alternative structurée autour de l’écosystème applicatif et de l’intégration locale, dans un marché où les contraintes réglementaires, linguistiques et commerciales pèsent lourd.

Dans les résultats examinés, aucune source ne fournit ici un prix mensuel public clairement vérifiable pour 360 comparable aux offres documentées de ses rivaux, ni un benchmark standardisé directement opposable à Claude ou Fugu. Cette absence de transparence publique est en soi une information utile : pour comparer 360 à Anthropic ou Sakana, il faut souvent regarder l’ensemble du stack plutôt qu’un seul modèle.

Là où 360 peut compter

360 peut être pertinent pour des cas où la distribution, la sécurité ou l’intégration locale priment sur la démonstration de puissance brute. Dans ce type de configuration, la disponibilité régionale et l’intégration aux outils internes peuvent compter davantage qu’un score sur un benchmark international.

Pour un acheteur, cela signifie une chose très simple : 360 se juge moins comme un "modèle vedette" que comme une infrastructure d’usage. Si l’objectif est de déployer à grande échelle dans un environnement contraint, ce positionnement peut être rationnel, même sans score spectaculaire mis en avant publiquement dans les sources disponibles.

Prix, fonctionnalités et benchmarks : le tableau qui change vraiment la lecture

Le point clé en 2026 est que le prix ne raconte pas toute l’histoire, mais il reste décisif dès qu’on parle de production. Les données disponibles dans les résultats montrent des écarts marqués entre les modèles et les plateformes, notamment sur les APIs tokenisées et sur les offres orientées produit. Pour Sakana, les éléments de prix public dans les résultats restent insuffisants pour établir un tarif mensuel officiel vérifiable de façon robuste, ce qui impose de distinguer le lancement technique de l’offre commerciale.

Acteur	Prix public vérifiable dans les résultats	Positionnement	Benchmark / signal de performance cité	Date de mise en avant
Sakana AI	Non précisé de façon fiable dans les résultats fournis	Orchestration multi-modèles	Fugu Ultra proche ou au-dessus de modèles de tête sur ingénierie, science et raisonnement	22 juin 2026
Anthropic	Non précisé dans les résultats fournis ici	Modèle premium généraliste	80,3 % sur SWE-Bench Pro pour Fable 5 ; leader sur instruction-following	2026
360	Non précisé de façon fiable dans les résultats fournis	Plateforme / intégration / écosystème	Pas de benchmark standardisé opposable dans les résultats fournis	2025-2026

Ce tableau révèle surtout une asymétrie de transparence. Sakana et Anthropic communiquent à travers des résultats techniques, tandis que 360 ressort davantage comme un acteur d’infrastructure ou de plateforme dans les éléments disponibles ici. Pour un comparatif d’achat, cette différence compte autant que le score lui-même.

Ce que les chiffres permettent vraiment de conclure

Le meilleur signal chiffré disponible pour Anthropic dans les résultats est le score de 80,3 % sur SWE-Bench Pro pour Fable 5, avec plus de 11 points d’avance sur le concurrent suivant dans le comparatif cité. Pour Sakana, le signal fort n’est pas un pourcentage isolé, mais l’affirmation que Fugu Ultra rivalise avec des modèles de pointe sur plusieurs catégories et que le système peut résoudre tous les Rubik’s Cubes mentionnés dans le rapport.

On peut en déduire trois choses concrètes. D’abord, Anthropic garde un avantage réputationnel sur les tâches de code et d’instruction-following. Ensuite, Sakana essaye de déplacer la compétition vers l’efficacité d’orchestration, ce qui change les critères de choix. Enfin, 360 est aujourd’hui plus difficile à positionner avec les seules sources fournies, ce qui oblige à traiter son cas comme un choix d’écosystème plus que comme un pur duel de benchmark.

Sur le terrain du coût, le marché s’éclaircit aussi

Un panorama 2026 mentionne des références de prix API pour plusieurs acteurs du marché, avec par exemple Gemini Pro à 2 $ / 12 $ par million de tokens et Grok 4.3 à 1,25 $ / 2,50 $, ce qui illustre la pression sur le prix dans la couche API. Le même document signale aussi qu’un modèle comme Kimi K2.6 combine un score de 58,6 sur SWE-Bench Pro et de 54,0 sur Humanity’s Last Exam avec outils, ce qui montre que la performance n’est plus réservée aux acteurs américains.

Même si ces chiffres ne concernent pas directement 360 ou Sakana, ils sont utiles pour situer la concurrence. Le marché 2026 s’oriente vers une logique où le meilleur modèle n’est pas forcément le plus cher, et où l’écart de prix peut être aussi important que l’écart de qualité.

Quel acteur choisir selon l’usage réel

Le bon choix dépend moins du prestige de la marque que du problème à résoudre. Si vous cherchez la meilleure expérience de codage agentique ou de rédaction fiable, Anthropic reste la référence la plus solide parmi les sources disponibles. Si vous voulez expérimenter une architecture qui arbitrera entre plusieurs modèles et pourrait, à terme, optimiser coût et conformité, Sakana AI est l’option la plus originale.

Pour 360, la logique est différente : l’intérêt se joue surtout si votre environnement dépend déjà de son écosystème, de sa distribution ou de ses contraintes régionales. Sans données publiques comparables sur le prix mensuel et les benchmarks dans les résultats fournis, il est difficile de le déclarer gagnant sur la performance pure, mais il peut être compétitif sur la profondeur d’intégration.

Choisissez Anthropic si votre priorité est la fiabilité sur les tâches complexes, le code et l’instruction-following.
Choisissez Sakana AI si vous voulez tester une approche multi-modèles plus flexible et potentiellement plus optimisable.
Choisissez 360 si votre stratégie dépend d’un écosystème local ou d’une intégration produit déjà structurée.

💡 À retenir : sur le papier, Anthropic gagne le match de la maturité, Sakana celui de l’innovation d’architecture, et 360 celui de la logique d’écosystème.

Notre avis : qui devrait passer en Pro maintenant ?

Pour un usage professionnel immédiat, Anthropic reste le choix le plus défendable si votre critère principal est la qualité de sortie sur des tâches à fort enjeu, car les sources disponibles le placent encore très haut sur le code et l’instruction-following. Sakana AI est plus prometteur comme pari stratégique que comme standard de production, parce que Fugu change la grammaire du marché mais reste plus difficile à évaluer avec des critères classiques de prix et de benchmark.

360, lui, doit être évalué au cas par cas : sans métriques publiques solides dans les résultats examinés, il est impossible de le placer devant Anthropic ou Sakana sur la performance pure. Sur les six prochains mois, le vrai enjeu sera de voir si l’orchestration multi-modèles de Sakana inspire d’autres acteurs et si les benchmarks publiés commencent à mesurer mieux le coût total d’un système, et pas seulement la qualité d’un modèle isolé.