Brief IA : Parameter Golf : l'IA révolutionne la recherche en machine learning

Parameter Golf : l'IA révolutionne la recherche en machine learning

Brief IA
Tom Levy·6 min·3 vues

Parameter Golf a rassemblé plus de 1 000 participants et 2 000 soumissions pour explorer la recherche en apprentissage automatique assistée par l'IA. Cet événement a permis de tester des modèles sous des contraintes strictes, favorisant l'innovation dans la conception de modèles, et souligne l'importance croissante de l'IA dans la recherche et le développement de modèles innovants.

En bref
1Parameter Golf a réuni plus de 1 000 participants et généré 2 000 soumissions, révélant des innovations en machine learning.
2L'utilisation d'agents de codage IA a transformé la compétition, facilitant l'expérimentation et abaissant les barrières à l'entrée.
3Des approches variées, de l'optimisation à la quantification, ont démontré une créativité technique impressionnante.
💡Pourquoi c'est importantL'intégration des agents IA dans ces compétitions pourrait transformer les méthodes de recherche et d'innovation en machine learning.
Le brief IA que lisent les pros

Tu suis la course aux modèles IA ?

Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Un défi stimulant pour la communauté du machine learning

Le défi Parameter Golf a été lancé pour engager la communauté de recherche en machine learning dans l'exploration d'un problème nouveau et étroitement contraint. L'objectif était de créer un défi suffisamment complexe pour récompenser la créativité technique, tout en restant simple à vérifier. Les participants devaient minimiser la perte sur un ensemble de données FineWeb, tout en respectant une limite de 16 Mo pour les artefacts, incluant les poids du modèle et le code d'entraînement, ainsi qu'un budget d'entraînement de 10 minutes sur 8×H100s.

Nous avons fourni une base de référence, un ensemble de données et des scripts d'évaluation pour que les participants puissent forker le dépôt, améliorer le modèle et soumettre leurs résultats via GitHub. Au cours des huit semaines de compétition, plus de 1 000 participants ont soumis 2 000 propositions. Nous avons été impressionnés par l'étendue technique, la créativité et les innovations dans les soumissions, allant de l'optimisation minutieuse des algorithmes à de nouvelles idées de modélisation et à l'entraînement en temps de test.

L'impact des agents de codage IA

Une des parties les plus excitantes du défi a été de voir à quel point les participants utilisaient largement des agents de codage IA. Ces agents ont aidé à réduire le coût de l'expérimentation, ont facilité la participation d'un plus grand nombre de personnes et ont modifié le rythme de la compétition. Ils ont également créé de nouveaux défis pour la révision des soumissions, l'attribution et le scoring.

Le défi est également devenu une surface significative de découverte de talents pour nous. C'était l'un de nos objectifs pour Parameter Golf, et cela a été un signal utile que les défis techniques ouverts peuvent révéler un goût exceptionnel pour le machine learning et de la persistance.

Impressions techniques

Suivi des records

Nous avons jugé et reproduit indépendamment chaque soumission sur le tableau de classement des records, et avons vérifié que chaque soumission était record à l'époque de sa soumission. Plusieurs thèmes se sont démarqués.

Optimisation de l'entraînement

Certaines des meilleures performances provenaient d'un réglage minutieux des composants existants.

  • Soumission : #60@notapplica
    • Technique : Combinaison des précédentes victoires de #50, #42, et probablement #39, puis optimisation d'un modèle plus profond avec Muons, décroissance de poids, initialisation d'embedding spectral, planification de mélange résiduel, et évaluation compilée.
    • Pourquoi c'était important : Un exemple fort de travail discipliné sur le tableau de classement : identification des améliorations existantes pertinentes et combinaison propre.

Quantification

Plusieurs soumissions ont poussé fort sur la compression et l'exportation.

  • Soumission : #414@signalrush
    • Technique : Utilisation de GPTQ-lite pour quantifier les poids après l'entraînement.
    • Pourquoi c'était important : Première soumission sur le tableau de classement à utiliser avec succès GPTQ-lite, menant à une meilleure évaluation.

Stratégies d'évaluation et de test

Certaines soumissions ont repoussé la frontière entre l'amélioration du modèle et la stratégie d'évaluation. Ces approches étaient valides selon les règles, mais nécessitaient une révision minutieuse de notre part en tant qu'organisateurs.

  • Soumission : #77@samacqua
    • Technique : Utilisation de l'entraînement en temps de test LoRA par document, en adaptant uniquement sur des morceaux déjà évalués.
    • Pourquoi c'était important : A repoussé la frontière entre l'amélioration du modèle et la stratégie d'évaluation tout en restant révisable selon les règles.

Nouvelles idées de modélisation et de données

Quelques soumissions ont introduit des idées de modélisation ou de données particulièrement créatives.

  • Soumission : #1729@romeerp
    • Technique : Introduction du tokenizer CaseOps : opérateurs de capitalisation sans perte avec comptabilité de BPB en bytes d'origine.
    • Pourquoi c'était important : Une idée créative de tokenizer et de représentation des données.

Nous avons choisi de mettre en avant ces neuf soumissions car elles représentent la gamme de résultats que nous espérions voir émerger du défi. Certains participants ont trouvé des victoires grâce à un réglage minutieux. D'autres ont exploré des techniques de quantification et de faible rang. Plusieurs ont introduit des idées de modélisation ou de données, provenant de la littérature ou de zéro, qui ont produit des gains inattendus.

Pistes à retenir

Une différence majeure entre Parameter Golf et les compétitions antérieures était l'utilisation généralisée des agents de codage. La grande majorité des soumissionnaires ont mentionné l'utilisation d'agents dans leur travail.

Cela a abaissé la barrière à l'entrée. Les participants pouvaient configurer des expériences plus rapidement, inspecter du code inconnu et tester des idées avec moins de friction. Le soutien de RunPod avec un financement de 1 000 000 $ en ressources de calcul a également joué un rôle majeur dans l'accessibilité du défi.

Cependant, l'utilisation des agents a créé de nouveaux problèmes pour la soumission et le scoring. De nombreuses soumissions étaient de petites modifications apportées aux meilleurs scores existants, plutôt que des approches fondamentalement nouvelles. Cela a souvent été utile : de bonnes idées se propageaient rapidement et étaient affinées par d'autres. Mais cela a également créé du bruit. Lorsque des soumissions qui sortaient des lignes directrices de la compétition produisaient des scores exceptionnellement élevés, d'autres agents copiaient parfois ces idées et poursuivaient dans la même voie invalide.

Le volume des soumissions a également changé notre façon de gérer la compétition. Nous ne pouvions pas inspecter manuellement chaque soumission tout en maintenant le tableau de classement à jour. Pendant le défi, nous avons développé un bot de tri basé sur Codex pour surveiller les nouvelles soumissions et les signaler pour une révision humaine. Cela est devenu particulièrement important pendant les périodes où nous recevions des centaines de soumissions par jour.

Les agents IA sont également devenus une partie de la communauté autour du défi. Pendant une grande partie de la compétition, @notapplica et leur agent de codage ont géré un bulletin de "Mises à jour en direct", suivant les événements majeurs, expliquant les approches du tableau de classement et aidant d'autres participants à suivre la compétition. Des outils de révision communautaire ont également aidé les participants moins expérimentés à vérifier si leurs soumissions étaient conformes aux règles et à éviter des approches invalides courantes.

Que nous réserve l'avenir ?

Notre objectif principal était de lancer un défi auquel les participants éligibles pouvaient prendre part et vivre la recherche en machine learning. Parameter Golf a attiré une large gamme de soumissions techniquement solides et créatives, et nous a donné une vision plus claire de la façon dont les compétitions de recherche ouvertes pourraient évoluer à mesure que les agents IA deviennent plus capables et largement utilisés.

Nous envisageons de lancer d'autres défis similaires à l'avenir. Si vous êtes intéressé, veuillez remplir le formulaire de participation au défi.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires