My picture of the present in AI
Mon aperçu de la situation actuelle en IA
À partir du début d'avril 2026, les entreprises d'IA intègrent et déploient massivement des outils d'IA dans leur travail, obtenant des gains de productivité significatifs (mais pas excessifs). Au début de 2026, l'accélération de la recherche et de l'ingénierie était d'environ 1,4x, mais elle a atteint environ 1,6x chez OpenAI et Anthropic grâce à des modèles plus performants, de meilleurs outils, une meilleure adaptation et une diffusion accrue.
Utiliser des outils d'IA permet d'augmenter la productivité d'ingénierie comme si les gens travaillaient 1,6x plus vite. Cela inclut non seulement le codage, mais aussi d'autres activités comme la détermination des fonctionnalités à implémenter et la coordination avec d'autres ingénieurs.
De nombreuses tâches spécifiques d'ingénierie et de recherche peuvent désormais être réalisées avec beaucoup moins de temps humain (par exemple, 3 à 10 fois moins de temps), mais d'autres tâches voient des gains beaucoup plus modestes.
Les gens orientent leur travail vers deux types de tâches :
- Des tâches (de moindre valeur) où les IA sont particulièrement utiles.
- Des tâches qu'ils n'auraient pas pu réaliser sans IA (en raison de compétences ou de connaissances insuffisantes).
Lorsque les gens pensent à l'impact de l'IA, ils se demandent souvent combien de temps il leur faudrait pour accomplir leur travail sans IA. Cependant, cette question ne capture pas la réalité, car les gens ont adapté leurs flux de travail. Une question plus pertinente serait : "Combien devrions-nous vous accélérer avant que vous ne soyez indifférent entre cette accélération et l'utilisation d'outils d'IA ?" Je pense que la réponse à cette question est d'environ 1,6x actuellement.
L'accélération est également moins importante qu'il n'y paraît, car le code résultant est généralement moins soigné, moins fiable et moins bien compris que s'il avait été écrit uniquement par des ingénieurs humains.
Il est courant que personne (y compris les IA elles-mêmes) ne comprenne parfaitement comment fonctionne un code ou comment il s'intègre dans un système plus large, ce qui rend certains problèmes plus fréquents.
Pour beaucoup de recherches et de développement en IA, une faible fiabilité et une mauvaise compréhension ne sont pas catastrophiques. De plus, les expérimentations se font généralement dans de petits projets relativement autonomes où les IA (et les humains) peuvent obtenir une compréhension décente de ce qui se passe.
Cette accélération de l'ingénierie n'est pas répartie uniformément. Je m'attends à ce qu'Anthropic obtienne une plus grande accélération qu'OpenAI, qui à son tour obtient une accélération substantiellement plus importante que GDM.
Bien que l'accélération de l'ingénierie soit de 1,6x, l'accélération globale des progrès de l'IA est beaucoup plus faible — autour de 1,15x ou 1,2x — car l'ingénierie n'est qu'un sous-ensemble du travail pertinent.
Capacités d'ingénierie de l'IA et compétences qualitatives
Les IA sont capables d'automatiser des tâches de plus en plus grandes et complexes. Le benchmark historique METR a principalement saturé en ce qui concerne la mesure de la fiabilité à 50%, mais à 80%, les meilleurs modèles déployés publiquement atteignent un peu plus d'une heure, tandis que les meilleurs modèles internes atteignent un peu moins de deux heures.
Sur des tâches faciles et peu coûteuses à vérifier, les IA peuvent souvent accomplir des tâches difficiles qui prendraient aux meilleurs experts humains plusieurs mois, voire des années. Cela nécessite une certaine structure personnalisée et de grandes quantités de calcul d'inférence, mais reste moins coûteux que le travail humain pour la même tâche.
Cependant, les IA échouent souvent à terminer des tâches parce que celles-ci nécessitent de l'idéation ou des méthodes très complexes qui sont difficiles à construire de manière incrémentale et désordonnée. Plus la tâche est un projet d'ingénierie relativement simple (mais extrêmement vaste), mieux les IA s'en sortent.
Souvent, elles échouent simplement parce qu'elles ne s'investissent pas suffisamment ou abandonnent trop tôt.
L'ajout d'un humain (même avec un contexte minimal) peut aider considérablement en remarquant et en corrigeant certains de ces problèmes.
En ce qui concerne les benchmarks et les tâches faciles à vérifier, les IA obtiennent de moins bons résultats sur des tâches d'ingénierie échantillonnées au hasard au sein des entreprises d'IA.
Si nous échantillonnons aléatoirement des tâches internes d'ingénierie (pondérées par la valeur), je pense que la durée des tâches où les IA égalent un ingénieur d'une entreprise d'IA est d'environ 5 heures.
Les IA n'ont pas fait beaucoup de progrès sur des tâches très difficiles à vérifier ou conceptuellement délicates et tendent à être désordonnées dans leur raisonnement et leurs résultats.
Une nouvelle génération d'IA beaucoup plus performantes est en cours de développement (Mythos chez Anthropic et Spud chez OpenAI). Je m'attends à ce que cela soit largement motivé par l'augmentation et/ou l'amélioration du pré-entraînement.
Brief IA — Veille IA quotidienne
Toutes les innovations IA du monde entier, résumées et analysées automatiquement chaque jour.