Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Un fichier Markdown révolutionne GPT-5.5
Dans une expérience surprenante, un fichier Markdown de seulement 1 400 tokens a permis d'améliorer les performances de GPT-5.5 de manière significative. Sans toucher aux poids du modèle, une simple intégration de ce fichier dans la fenêtre de contexte a suffi pour faire passer la moyenne du modèle sur six benchmarks de 58,8 à 82,3. Cette augmentation de 23,5 points a été obtenue avec un fichier texte accessible via n'importe quel éditeur standard.
Le concept derrière SkillOpt
L'article explore ensuite le concept de SkillOpt, qui repose sur l'idée de traiter un document de compétence en Markdown comme un état pouvant être entraîné, tout en maintenant le modèle cible inchangé. Un modèle d'optimisation plus puissant est utilisé pendant l'entraînement pour proposer des modifications limitées, telles que l'ajout, la suppression ou le remplacement de contenu. Ces modifications ne sont acceptées que si elles améliorent un score de validation prédéfini, s'inspirant des principes de stabilité de la descente de gradient dans l'espace texte.
Résultats impressionnants sur divers benchmarks
Les résultats de l'étude sont basés sur 52 combinaisons différentes de modèles, benchmarks et harness. SkillOpt s'est avéré être le meilleur ou à égalité avec les meilleurs dans toutes ces combinaisons. En particulier, GPT-5.5 a vu ses performances en chat direct s'améliorer de 58,8 à 82,3 (+23,5 points), avec des gains particulièrement marqués sur des tâches procédurales et vérifiées au format, telles que SpreadsheetBench.
Les compétences entraînées en action
L'auteur décrit les compétences "entraînées" qui résultent de ce processus. Celles-ci incluent des règles pour vérifier la structure, écrire des valeurs explicitement évaluées, suivre l'état dans la navigation incarnée, et ancrer les réponses à la bonne ligne de tableau. Il est intéressant de noter que ces améliorations peuvent provenir de quelques modifications acceptées et d'une taille d'artéfact relativement petite.
Reproduire le processus avec SkillOpt
Pour ceux qui souhaitent reproduire ce flux de travail, l'article fournit une configuration pratique. Cela inclut l'installation de SkillOpt, la configuration des backends, l'exécution de la boucle d'entraînement, et le déploiement en préfixant le Markdown appris au contexte du modèle.
SkillOpt-Sleep : une extension innovante
L'article mentionne également SkillOpt-Sleep, une extension de style plugin qui apprend à partir des transcriptions passées d'un utilisateur. Cette extension utilise une boucle de consolidation hors ligne validée par révision et adoption, offrant ainsi une nouvelle dimension à l'apprentissage du modèle.
Limites et perspectives
Enfin, deux limitations sont abordées : la dépendance aux juges de notation automatique et le fait que l'optimisation se concentre sur un document à la fois. L'article conclut en soulignant que pour les tâches d'agent procédurales et vérifiables, entraîner le document plutôt que le modèle s'avère être une méthode d'optimisation plus fiable et économique que le fine-tuning traditionnel.



