Les LLM dominent la programmation et les mathématiques mais peinent sur les questions courantes, et ce n'est pas une contradiction
Les modèles de langage (LLM) peuvent résoudre des tâches de programmation complexes en quelques heures, mais échouent face à des questions basiques du quotidien. Andrej Karpathy explique pourquoi cela n'est pas réellement contradictoire.
Il existe actuellement deux manières différentes de percevoir les progrès de l'IA, selon Karpathy. Le premier groupe a essayé la version gratuite de ChatGPT ou son mode vocal et a été influencé par des erreurs absurdes et des hallucinations. Ces modèles obsolètes ne reflètent pas l'état actuel des choses, affirme Karpathy.
Le deuxième groupe utilise les derniers modèles—comme GPT-5.4 Thinking d'OpenAI ou Claude Opus 4.6—dans des environnements performants comme Codex ou Claude Code pour un travail professionnel en programmation, mathématiques et recherche. Les progrès dans ces domaines ont été considérables cette année, selon Karpathy, les modèles étant désormais capables de restructurer de manière autonome des bases de code entières ou de détecter des vulnérabilités de sécurité par eux-mêmes. Karpathy souligne que ces deux groupes parlent en réalité de choses différentes.
Il est vrai qu'en même temps, le mode vocal gratuit d'OpenAI, que je pense légèrement abandonné, aura du mal avec les questions les plus simples sur vos reels Instagram, et en même temps, le modèle Codex d'OpenAI, de niveau supérieur et payant, pourra passer une heure à restructurer de manière cohérente une base de code entière ou à trouver et exploiter des vulnérabilités dans des systèmes informatiques.
L'analyse de Karpathy met en lumière quelque chose de plus vaste : des domaines comme le code ou les mathématiques, où il est possible de vérifier clairement si une réponse est juste ou fausse et de renforcer spécifiquement cela par l'apprentissage par renforcement avec des récompenses vérifiables, connaissent des gains mesurables plus importants grâce aux progrès de l'IA que des domaines plus flous comme l'écriture ou le conseil, où il n'existe pas de métrique claire à optimiser.
Pourquoi la vérifiabilité stimule les progrès de l'IA
Cela soulève une question centrale dans la recherche sur l'IA actuellement : une intelligence générale peut-elle réellement émerger des modèles de langage, ou ces modèles ne peuvent-ils être ajustés que pour bien performer dans des domaines spécifiques ?
Karpathy a exposé ce problème structurel dans un essai précédent : dans le paradigme du "Software 2.0", ce qui importe n'est pas de pouvoir spécifier une tâche, mais de pouvoir vérifier le résultat. Un système ne peut être formé efficacement par apprentissage par renforcement que s'il reçoit un retour automatisé - des vérifications de réussite/échec ou des signaux de récompense clairs. "Plus une tâche/un emploi est vérifiable, plus il est propice à l'automatisation dans le nouveau paradigme de programmation," déclare Karpathy.
L'été dernier, des rumeurs ont circulé au sujet d'un vérificateur universel d'OpenAI qui rendrait l'apprentissage par renforcement applicable à tous les domaines. Jusqu'à présent, rien de concret n'a été mis en œuvre. Pendant ce temps, Jerry Tworek, l'une des figures clés derrière la stratégie d'apprentissage par renforcement d'OpenAI, a récemment quitté l'entreprise et a déclaré que "la recherche en apprentissage profond est terminée."
📧
Cet article vous a plu ?
Recevez les 7 meilleures actus IA chaque soir à 19h — résumées en 5 min.
