Brief IA

Chinese AI model MiniMax M2.7 reportedly helped develop itself

🛠️ AI Toolsvia The Decoder·Jonathan Kemper·

Chinese AI model MiniMax M2.7 reportedly helped develop itself

Chinese AI model MiniMax M2.7 reportedly helped develop itself
En bref
1Le modèle M2.7 de MiniMax a optimisé son propre processus d'entraînement grâce à des boucles d'optimisation autonomes.
2MiniMax a obtenu des résultats compétitifs lors des benchmarks.
3Ce développement marque une avancée significative dans l'autonomie des modèles d'IA, comparé aux méthodes traditionnelles de développement.
💡Pourquoi c'est importantcette innovation pourrait transformer la manière dont les modèles d'IA sont conçus et améliorés, réduisant ainsi les coûts et le temps de développement.
📄
Article traduit en français

Le modèle d'IA chinois MiniMax M2.7 aurait contribué à son propre développement

La société chinoise MiniMax a lancé M2.7, un modèle qui aurait joué un rôle actif dans son propre développement. Grâce à des boucles d'optimisation autonomes, il a amélioré son propre processus d'entraînement et a affiché des résultats compétitifs lors des benchmarks.

Pendant son développement, M2.7 aurait mis à jour ses propres bases de connaissances, construit des dizaines de capacités complexes au sein de son infrastructure d'agent, et amélioré son entraînement basé sur les récompenses de manière autonome. Il a ensuite utilisé ces résultats pour affiner son propre processus d'apprentissage.

MiniMax décrit M2.7 comme "notre premier modèle participant profondément à sa propre évolution" et présente une vision où la future auto-évolution de l'IA "transitionnera progressivement vers une autonomie complète, coordonnant la construction de données, l'entraînement des modèles, l'architecture d'inférence, l'évaluation, et d'autres étapes sans intervention humaine."

MiniMax M2.7 a été comparé à Sonnet 4.6, Opus 4.6, Gemini 3.1 Pro, et GPT-5.4 à travers huit benchmarks. M2.7 obtient des scores proches des modèles propriétaires leaders dans la plupart des tests.

Plus de 100 cycles d'optimisation autonome montrent ce que l'IA auto-améliorante peut faire

Pour repousser les limites de cette auto-optimisation, MiniMax a mis en place une version interne de M2.7 qui a établi un système d'agent de recherche travaillant avec divers groupes de projet au sein de l'entreprise. Selon MiniMax, l'agent gère des tâches telles que la recherche bibliographique, le suivi des expériences, le débogage, l'analyse des métriques et les corrections de code dans le cadre du flux de travail quotidien de l'équipe RL interne. Les chercheurs humains n'interviennent que lorsque des décisions critiques doivent être prises. Le modèle couvre entre 30 et 50 % de l'ensemble du flux de travail.

Comment M2.7 se développe-t-il ? Les chercheurs fixent des objectifs et des directives, puis l'agent IA prend en charge de larges parties du processus de développement de manière autonome. L'exemple de flux de travail ci-dessous montre comment la planification des expériences, les modifications de code, et l'évaluation s'alimentent mutuellement.

Dans une expérience, M2.7 a optimisé les performances de codage d'un modèle dans un environnement de développement interne complètement de manière autonome sur plus de 100 cycles. À chaque cycle, il a analysé les échecs, planifié des changements, ajusté le code, testé les résultats, et décidé de conserver ou de rejeter les modifications. Selon MiniMax, cela a conduit à un gain de performance de 30 % sur les ensembles d'évaluation internes.

Dans 22 compétitions d'apprentissage automatique de l'OpenAI's MLE Bench Lite, M2.7 a atteint un taux moyen de médailles de 66,6 % lors de trois sessions de 24 heures. Cela place le modèle derrière Opus 4.6 (75,7 %) et GPT-5.4 (71,2 %), mais au même niveau que Gemini 3.1, selon l'entreprise.

Cela dit, les résultats des benchmarks servent d'indicateurs utiles mais ne reflètent pas nécessairement les performances dans le monde réel. La façon dont un modèle se classe sur des tests standardisés peut différer considérablement de sa gestion des tâches quotidiennes, et les résultats dépendent fortement des conditions de test, du formatage des prompts, et de l'optimisation du modèle. Ces chiffres doivent être considérés comme des points de référence approximatifs plutôt que comme des mesures définitives de capacité.

M2.7 suit le rythme des meilleurs modèles occidentaux dans les tâches de codage et de bureau

Selon MiniMax, M2.7 fournit des résultats comparables aux modèles occidentaux leaders dans les benchmarks d'ingénierie logicielle. Sur SWE-Pro, il a obtenu 56,22 %, comparable à GPT-5.3-Codex. Sur VIBE-Pro, un benchmark pour la livraison complète de projets, il a atteint 55,6 %. Dans des scénarios réels, M2.7 aurait réduit le temps de récupération des pannes de systèmes de production à moins de trois minutes à plusieurs reprises.

Pour le travail de bureau professionnel, M2.7 a atteint un score ELO de 1 495 sur le benchmark GDPval-AA, le score le plus élevé parmi les modèles à poids ouverts, selon MiniMax. Le modèle gère apparemment des modifications multi-niveaux dans Word, Excel, et PowerPoint avec une grande précision et maintient une fidélité de règles de 97 % à travers plus de 40 ensembles d'instructions complexes.

En exemple pratique, MiniMax décrit une analyse financière pour TSMC où M2.7 a lu de manière autonome des rapports annuels, construit un modèle de prévision des ventes, et transformé les résultats en une présentation et un rapport de recherche. Des experts financiers ont déclaré que la sortie pouvait déjà servir de première ébauche.

Démo open-source amène l'interaction IA dans un environnement graphique

Au-delà des scénarios de productivité, MiniMax a également amélioré la cohérence des personnages et l'intelligence émotionnelle du modèle. Pour le démontrer, l'entreprise a lancé OpenRoom, un projet open-source qui déplace l'interaction IA dans un environnement web graphique où les personnages interagissent de manière proactive avec leur environnement. M2.7 est disponible via MiniMax Agent et la plateforme API ; contrairement aux versions précédentes du modèle, les poids ne sont pas encore disponibles.

Jürgen Schmidhuber a posé les bases théoriques de l'IA auto-améliorante en 2003 avec le concept de la "Godel Machine," qui ne modifie son propre code que lorsqu'il existe une preuve formelle de bénéfice. Des projets comme la "Darwin-Gödel Machine" de Sakana AI et la "Huxley-Gödel Machine" du laboratoire KAUST de Schmidhuber adoptent une approche plus pragmatique, permettant aux agents IA de modifier itérativement leur propre code et de choisir les variantes les plus performantes à travers un processus évolutif.

TwitterLinkedIn

Brief IA — Veille IA quotidienne

Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.