Brief IA : GPT-5.5 boosté de 23 points grâce à un simple fichier Markdown
🔬 Recherche

GPT-5.5 boosté de 23 points grâce à un simple fichier Markdown

Brief IA
Tom Levy·3 min·2 vues

Un fichier Markdown de 1 400 tokens a amélioré GPT-5.5 de 23,5 points sans ajuster les poids du modèle. SkillOpt optimise un fichier de compétence en Markdown, améliorant les performances du modèle sur divers benchmarks. Les gains sont notables sur des tâches procédurales comme SpreadsheetBench, démontrant l'efficacité de SkillOpt.

En bref
1Un fichier Markdown de 1 400 tokens a amélioré GPT-5.5 de 23,5 points sans ajuster les poids du modèle.
2SkillOpt optimise un fichier de compétence en Markdown, améliorant les performances du modèle sur divers benchmarks.
3Les gains sont notables sur des tâches procédurales comme SpreadsheetBench, démontrant l'efficacité de SkillOpt.
💡Pourquoi c'est importantCette méthode propose une alternative économique et efficace au fine-tuning traditionnel des modèles d'IA.
Le brief IA que lisent les pros

Le brief IA que les pros lisent chaque soir

Les 7 actus IA du jour, décryptées en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Un fichier Markdown révolutionne GPT-5.5

Dans une expérience surprenante, un fichier Markdown de seulement 1 400 tokens a permis d'améliorer les performances de GPT-5.5 de manière significative. Sans toucher aux poids du modèle, une simple intégration de ce fichier dans la fenêtre de contexte a suffi pour faire passer la moyenne du modèle sur six benchmarks de 58,8 à 82,3. Cette augmentation de 23,5 points a été obtenue avec un fichier texte accessible via n'importe quel éditeur standard.

Le concept derrière SkillOpt

L'article explore ensuite le concept de SkillOpt, qui repose sur l'idée de traiter un document de compétence en Markdown comme un état pouvant être entraîné, tout en maintenant le modèle cible inchangé. Un modèle d'optimisation plus puissant est utilisé pendant l'entraînement pour proposer des modifications limitées, telles que l'ajout, la suppression ou le remplacement de contenu. Ces modifications ne sont acceptées que si elles améliorent un score de validation prédéfini, s'inspirant des principes de stabilité de la descente de gradient dans l'espace texte.

Résultats impressionnants sur divers benchmarks

Les résultats de l'étude sont basés sur 52 combinaisons différentes de modèles, benchmarks et harness. SkillOpt s'est avéré être le meilleur ou à égalité avec les meilleurs dans toutes ces combinaisons. En particulier, GPT-5.5 a vu ses performances en chat direct s'améliorer de 58,8 à 82,3 (+23,5 points), avec des gains particulièrement marqués sur des tâches procédurales et vérifiées au format, telles que SpreadsheetBench.

Les compétences entraînées en action

L'auteur décrit les compétences "entraînées" qui résultent de ce processus. Celles-ci incluent des règles pour vérifier la structure, écrire des valeurs explicitement évaluées, suivre l'état dans la navigation incarnée, et ancrer les réponses à la bonne ligne de tableau. Il est intéressant de noter que ces améliorations peuvent provenir de quelques modifications acceptées et d'une taille d'artéfact relativement petite.

Reproduire le processus avec SkillOpt

Pour ceux qui souhaitent reproduire ce flux de travail, l'article fournit une configuration pratique. Cela inclut l'installation de SkillOpt, la configuration des backends, l'exécution de la boucle d'entraînement, et le déploiement en préfixant le Markdown appris au contexte du modèle.

SkillOpt-Sleep : une extension innovante

L'article mentionne également SkillOpt-Sleep, une extension de style plugin qui apprend à partir des transcriptions passées d'un utilisateur. Cette extension utilise une boucle de consolidation hors ligne validée par révision et adoption, offrant ainsi une nouvelle dimension à l'apprentissage du modèle.

Limites et perspectives

Enfin, deux limitations sont abordées : la dépendance aux juges de notation automatique et le fait que l'optimisation se concentre sur un document à la fois. L'article conclut en soulignant que pour les tâches d'agent procédurales et vérifiables, entraîner le document plutôt que le modèle s'avère être une méthode d'optimisation plus fiable et économique que le fine-tuning traditionnel.

Commentaires