Grok 4.20 : un modèle prometteur mais en retard sur Gemini et GPT-5.4

⚡ Résumé en français par Brief IA
• Grok 4.20 de xAI est rapide et peu coûteux, mais il est largement dépassé par Gemini et GPT-5.4 dans les benchmarks. • Il établit un nouveau record en matière de réduction des hallucinations, surpassant tous les autres modèles testés. • Malgré ses performances en hallucination, Grok 4.20 ne parvient pas à rivaliser avec les leaders du marché, ce qui soulève des questions sur sa viabilité à long terme. 💡 Pourquoi c'est important : la capacité de réduire les hallucinations pourrait redéfinir les attentes des utilisateurs pour les modèles d'IA, mais la performance globale reste cruciale pour la compétitivité.
📄 Article traduit en français
Grok 4.20 : un modèle prometteur mais en retard sur Gemini et GPT-5.4
Grok 4.20 de xAI ne parvient pas à rivaliser avec les meilleurs modèles d'IA lors des benchmarks, mais il hallucine moins que tout autre modèle testé. Selon Artificial Analysis, Grok 4.20 Beta obtient un score de 48 sur l'Intelligence Index avec le raisonnement activé, bien derrière Gemini 3.1 Pro Preview et GPT-5.4 qui atteignent 57, mais cela représente tout de même une amélioration de 6 points par rapport à Grok 4.
Grok est à la traîne par rapport aux derniers modèles des grands laboratoires d'IA en termes de performance globale lors des benchmarks.
xAI a lancé trois variantes d'API : avec raisonnement, sans raisonnement, et un mode multi-agent. Le modèle prend en charge une fenêtre de contexte de 2 millions de tokens et coûte 2 ou 6 dollars par million de tokens ; ce qui est moins cher que Grok 4 et compétitif par rapport aux modèles occidentaux.
Ce qui distingue Grok 4.20, c'est sa fiabilité factuelle. Lors du test AA Omniscience, il a atteint un taux de non-hallucination de 78 %, un record selon Artificial Analysis. Ce test mesure la fréquence à laquelle un modèle fabrique une réponse au lieu d'admettre qu'il ne sait pas, ainsi que la capacité de rappel factuel. Grok 4.20 s'est trompé environ une fois sur cinq lorsqu'il n'avait pas la réponse.
Brief IA — Veille IA en français
Toutes les innovations mondiales en IA, traduites et résumées automatiquement. Recevoir les meilleures actus IA chaque jour.