Les LLM dominent la programmation et les mathématiques mais peinent sur les questions courantes, et ce n'est pas une contradiction
🤖 Modeles & LLM

Les LLM dominent la programmation et les mathématiques mais peinent sur les questions courantes, et ce n'est pas une contradiction

The Decoder
Matthias Bastian·3 min·0 vues
En bref
1Les modèles d'IA peuvent restructurer des bases de code entières en quelques heures.
2Les modèles de langage actuels montrent des limites face à des questions simples.
3Cette dichotomie souligne une faiblesse fondamentale dans la compréhension contextuelle des LLM.
💡Pourquoi c'est importantCela met en lumière les défis à surmonter pour améliorer l'interaction humaine avec l'IA.
📄
Article traduit en français

Les LLM dominent la programmation et les mathématiques mais peinent sur les questions courantes, et ce n'est pas une contradiction

Les modèles de langage (LLM) peuvent résoudre des tâches de programmation complexes en quelques heures, mais échouent face à des questions basiques du quotidien. Andrej Karpathy explique pourquoi cela n'est pas réellement contradictoire.

Il existe actuellement deux manières différentes de percevoir les progrès de l'IA, selon Karpathy. Le premier groupe a essayé la version gratuite de ChatGPT ou son mode vocal et a été influencé par des erreurs absurdes et des hallucinations. Ces modèles obsolètes ne reflètent pas l'état actuel des choses, affirme Karpathy.

Le deuxième groupe utilise les derniers modèles—comme GPT-5.4 Thinking d'OpenAI ou Claude Opus 4.6—dans des environnements performants comme Codex ou Claude Code pour un travail professionnel en programmation, mathématiques et recherche. Les progrès dans ces domaines ont été considérables cette année, selon Karpathy, les modèles étant désormais capables de restructurer de manière autonome des bases de code entières ou de détecter des vulnérabilités de sécurité par eux-mêmes. Karpathy souligne que ces deux groupes parlent en réalité de choses différentes.

Il est vrai qu'en même temps, le mode vocal gratuit d'OpenAI, que je pense légèrement abandonné, aura du mal avec les questions les plus simples sur vos reels Instagram, et en même temps, le modèle Codex d'OpenAI, de niveau supérieur et payant, pourra passer une heure à restructurer de manière cohérente une base de code entière ou à trouver et exploiter des vulnérabilités dans des systèmes informatiques.

L'analyse de Karpathy met en lumière quelque chose de plus vaste : des domaines comme le code ou les mathématiques, où il est possible de vérifier clairement si une réponse est juste ou fausse et de renforcer spécifiquement cela par l'apprentissage par renforcement avec des récompenses vérifiables, connaissent des gains mesurables plus importants grâce aux progrès de l'IA que des domaines plus flous comme l'écriture ou le conseil, où il n'existe pas de métrique claire à optimiser.

Pourquoi la vérifiabilité stimule les progrès de l'IA

Cela soulève une question centrale dans la recherche sur l'IA actuellement : une intelligence générale peut-elle réellement émerger des modèles de langage, ou ces modèles ne peuvent-ils être ajustés que pour bien performer dans des domaines spécifiques ?

Karpathy a exposé ce problème structurel dans un essai précédent : dans le paradigme du "Software 2.0", ce qui importe n'est pas de pouvoir spécifier une tâche, mais de pouvoir vérifier le résultat. Un système ne peut être formé efficacement par apprentissage par renforcement que s'il reçoit un retour automatisé - des vérifications de réussite/échec ou des signaux de récompense clairs. "Plus une tâche/un emploi est vérifiable, plus il est propice à l'automatisation dans le nouveau paradigme de programmation," déclare Karpathy.

L'été dernier, des rumeurs ont circulé au sujet d'un vérificateur universel d'OpenAI qui rendrait l'apprentissage par renforcement applicable à tous les domaines. Jusqu'à présent, rien de concret n'a été mis en œuvre. Pendant ce temps, Jerry Tworek, l'une des figures clés derrière la stratégie d'apprentissage par renforcement d'OpenAI, a récemment quitté l'entreprise et a déclaré que "la recherche en apprentissage profond est terminée."

Lire l'article original sur The Decoder

📧

Cet article vous a plu ?

Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.

Chaque soir à 19h

Gratuit · Pas de spam · Désabonnement en 1 clic

Commentaires