L'équipe Qwen d'Alibaba fait réfléchir les modèles d'IA plus profondément avec un nouvel algorithme
🔬 Recherche

L'équipe Qwen d'Alibaba fait réfléchir les modèles d'IA plus profondément avec un nouvel algorithme

The Decoder
Jonathan Kemper·5 min·0 vues
En bref
1Un nouvel algorithme de l'équipe Qwen d'Alibaba améliore le raisonnement des modèles d'IA en pondérant les récompenses.
2L'algorithme double la longueur des processus de pensée des modèles d'IA.
3Cette avancée surmonte les limitations du renforcement traditionnel en adaptant les récompenses selon l'impact des étapes.
💡Pourquoi c'est importantcette innovation pourrait révolutionner la manière dont les modèles d'IA comprennent et traitent l'information, ouvrant la voie à des applications plus avancées.
📄
Article traduit en français

L'équipe Qwen d'Alibaba fait réfléchir les modèles d'IA plus profondément avec un nouvel algorithme

L'équipe Qwen d'Alibaba a développé un nouvel algorithme d'entraînement pour les modèles de raisonnement qui attribue des poids différents à chaque token en fonction de l'influence de chaque étape sur la chaîne de raisonnement suivante, plutôt que de traiter tous les tokens de manière égale.

Cette approche a conduit à des chaînes de raisonnement visiblement plus longues, le modèle apprenant à vérifier de manière indépendante ses résultats intermédiaires et à croiser des solutions alternatives, un comportement qui a émergé naturellement grâce au signal de récompense pondéré.

Jusqu'à présent, l'algorithme n'a été validé que sur des tâches mathématiques, laissant ouverte la question de son application à d'autres domaines. L'équipe prévoit de rendre le système d'entraînement open source.

Un algorithme qui surmonte les limites des modèles de raisonnement

L'apprentissage par renforcement rencontre une limite avec les modèles de raisonnement car chaque token reçoit la même récompense. Un nouvel algorithme de l'équipe Qwen résout ce problème en pondérant chaque étape en fonction de son impact sur ce qui suit, doublant ainsi la longueur des processus de pensée.

Lorsqu'un grand modèle de langage apprend à raisonner par apprentissage par renforcement, il reçoit généralement un jugement simple de réussite ou d'échec à la fin de chaque réponse générée. Cette récompense est ensuite répartie uniformément sur chaque token de la séquence, qu'il s'agisse d'un point tournant logique ou simplement d'une virgule.

L'équipe Qwen affirme que cette attribution de crédit peu nuancée est une des raisons majeures pour lesquelles les modèles de raisonnement atteignent un plafond avec des méthodes d'entraînement courantes comme le GRPO (Group Relative Policy Optimization). Les chaînes de raisonnement atteignent une certaine longueur puis stagnent.

Avec le Future-KL Influenced Policy Optimization (FIPO), l'équipe souhaite briser ce goulot d'étranglement. Au lieu d'évaluer chaque token individuellement, l'algorithme anticipe : comment le comportement du modèle change-t-il en aval après avoir généré ce token particulier ?

FIPO calcule le changement de probabilité cumulatif sur tous les tokens suivants et utilise ce signal pour attribuer des récompenses de manière plus précise. Les tokens qui déclenchent une chaîne de raisonnement productive reçoivent une part plus importante. Ceux qui conduisent le modèle dans une impasse en reçoivent moins.

FIPO surpasse les méthodes basées sur PPO sans modèle auxiliaire

Les tentatives précédentes pour résoudre le problème de la récompense plate reposaient principalement sur des méthodes basées sur PPO (Proximal Policy Optimization) qui utilisent un modèle de valeur séparé pour estimer un score de bénéfice pour chaque token.

Ce modèle auxiliaire nécessite généralement un pré-entraînement sur des données de chaînes de pensée longues, ce qui signifie que des connaissances externes peuvent s'infiltrer. Les chercheurs affirment que cela rend difficile de déterminer si les gains de performance proviennent de l'algorithme lui-même ou sont simplement hérités de l'assistant pré-entraîné. FIPO évite complètement le modèle auxiliaire tout en fournissant des résultats comparables.

FIPO surpasse la référence ainsi que Deepseek-R1-Zero et o1-mini sur le benchmark AIME-2024 pendant l'entraînement.

Des processus de pensée doublés en longueur avec une précision accrue

L'équipe a testé FIPO sur Qwen2.5-32B-Base, un modèle sans exposition préalable à des données synthétiques de chaînes de pensée longues. Ils l'ont entraîné exclusivement sur le jeu de données public de DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization), une variante populaire d'entraînement GRPO open source, pour garantir une comparaison équitable.

Les résultats sont clairs. Alors que la longueur moyenne des chaînes de pensée de DAPO stagne autour de 4 000 tokens, FIPO dépasse les 10 000 tokens. Sur le benchmark mathématique AIME 2024, la précision passe de 50 à 56 pour cent, atteignant un pic à 58 pour cent. Cela place FIPO devant Deepseek-R1-Zero-Math-32B à environ 47 pour cent et o1-mini d'OpenAI à environ 56 pour cent. Sur le plus difficile AIME 2025, les scores passent de 38 à 43 pour cent.

Les chercheurs notent qu'il ne s'agit pas seulement de quelques valeurs aberrantes qui s'allongent. L'ensemble de la distribution des longueurs de réponse se déplace vers le haut, des réponses les plus courtes aux plus longues. Cela suggère un changement fondamental dans la manière dont le modèle aborde les problèmes.

Le modèle commence à vérifier ses propres résultats

L'article décrit quatre phases que le modèle traverse pendant l'entraînement. Au début, il produit des modèles de planification superficiels—essentiellement des esquisses sans véritable mathématiques qui se terminent par une réponse hallucinée. Dans la deuxième phase, où les modèles entraînés par DAPO restent pour le reste de l'entraînement, le modèle exécute une chaîne de raisonnement linéaire propre et s'arrête à la première réponse qu'il trouve.

Dans la troisième phase, le modèle commence à vérifier spontanément ses propres résultats intermédiaires. Il atteint une réponse mais pivote ensuite vers une autre approche, passant par exemple de la manipulation algébrique à l'interprétation géométrique pour vérifier. À la phase quatre, le modèle exécute une vérification systématique en plusieurs passes, recalculant de grands nombres carrés étape par étape et travaillant à travers la dérivation complète plusieurs fois.

L'article note que ce comportement ressemble beaucoup aux stratégies d'échelle de temps d'inférence dans les séries o d'OpenAI et Deepseek-R1, mais FIPO y parvient uniquement par apprentissage par renforcement, sans données synthétiques de chaînes de pensée longues.

Encore des tests à réaliser

FIPO a été évalué uniquement sur des problèmes mathématiques, entraîné sur un seul jeu de données, et testé uniquement sur des modèles de base sans pré-entraînement sur des chaînes de pensée longues. Les séquences plus longues augmentent également les coûts de calcul. Il reste donc beaucoup de tests à effectuer, selon l'équipe.

De plus, il est encore incertain si ces gains se traduisent dans d'autres domaines comme le code ou la logique symbolique. Il existe également un écart de performance par rapport à la distillation à partir de modèles enseignants plus grands. L'apprentissage par renforcement pur enseigne moins à un modèle que l'instruction directe d'un modèle plus fort.

L'équipe prévoit de rendre le système d'entraînement open source ainsi que toutes les configurations.

Lire l'article original sur The Decoder

📧

Cet article vous a plu ?

Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.

Chaque soir à 19h

Gratuit · Pas de spam · Désabonnement en 1 clic

Commentaires