Brief IA : LLM : Six mois de bouleversements et innovations technologiques

LLM : Six mois de bouleversements et innovations technologiques

Brief IA
Tom Levy·8 min·4 vues

Lors de PyCon US 2026, une présentation a résumé les six derniers mois des modèles de langage, mettant en avant un point d'inflexion en novembre 2025. Ce mois-là, le modèle Claude Sonnet 4.5, lancé le 29 septembre, a été rapidement surpassé par GPT-5.1 et Gemini 3, illustrant la compétition intense entre les trois grands fournisseurs.

En bref
1En novembre 2025, Claude Opus 4.5 a surpassé ses concurrents, devenant le modèle LLM le plus performant.
2Les agents de codage d'OpenAI et Anthropic ont franchi une étape cruciale, devenant des outils fiables pour le travail quotidien.
3OpenClaw, un assistant IA personnel, a émergé en février 2026, suscitant un engouement pour les Mac Minis.
💡Pourquoi c'est importantCes avancées transforment l'utilisation des LLM, rendant l'IA plus accessible et fonctionnelle pour les développeurs et le grand public.
Le brief IA que lisent les pros

Tu veux les meilleurs outils IA avant les autres ?

On teste et on décrypte les nouveaux outils IA chaque soir, en 5 min. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Une rétrospective des six derniers mois des LLM

Lors de PyCon US 2026, une présentation éclair a tenté de résumer les six derniers mois de développements dans les modèles de langage de grande taille (LLM). Cette période a été marquée par un point d'inflexion en novembre 2025, crucial pour les avancées en programmation.

Six mois est une période assez pratique à couvrir, car elle englobe ce que l'on appelle le point d'inflexion de novembre 2025. Novembre a été un mois critique pour les LLM, en particulier pour la programmation. Pour commencer, le modèle supposément "meilleur" (selon les impressions) a changé de mains cinq fois entre les trois grands fournisseurs.

L'évolution des modèles de langage

Au cours de ces six mois, le modèle considéré comme le "meilleur" a changé de mains à cinq reprises entre les trois principaux fournisseurs. En novembre, Claude Sonnet 4.5, sorti le 29 septembre, était en tête. Cependant, il a été rapidement dépassé par GPT-5.1, puis par Gemini 3, suivi de GPT-5.1 Codex Max, avant qu'Anthropic ne reprenne la couronne avec Claude Opus 4.5. Un test de génération d'un SVG d'un pélican faisant du vélo a été utilisé pour illustrer les différences entre ces modèles, car dessiner un pélican sur un vélo est une tâche complexe et non conventionnelle.

Pourquoi ce test ? Parce que les pélicans sont difficiles à dessiner, les vélos sont difficiles à dessiner, les pélicans ne peuvent pas faire de vélo... et il n'y a aucune chance qu'un laboratoire d'IA entraîne un modèle pour une tâche aussi ridicule.

Au début de novembre, le modèle largement reconnu comme le "meilleur" était Claude Sonnet 4.5, sorti le 29 septembre. Il m'a dessiné ce pélican. En novembre, il a été dépassé par GPT-5.1, puis Gemini 3, ensuite GPT-5.1 Codex Max, et enfin Anthropic a repris la couronne avec Claude Opus 4.5.

Je pense que Gemini 3 a dessiné le meilleur pélican de ce lot, mais les pélicans ne sont pas tout. La plupart des praticiens s'accordent à dire qu'Opus 4.5 a conservé la couronne pendant les mois suivants.

Amélioration des agents de codage

La véritable nouvelle de novembre était l'amélioration des agents de codage. OpenAI et Anthropic ont consacré une grande partie de 2025 à l'apprentissage par renforcement à partir de récompenses vérifiables pour améliorer la qualité du code généré par leurs modèles, notamment avec les agents Codex et Claude Code. En novembre, ces agents ont franchi une barrière de qualité, passant de "souvent fonctionnels" à "principalement fonctionnels", ce qui les a rendus utilisables pour des tâches quotidiennes sans nécessiter de corrections constantes.

Il a fallu un certain temps pour que cela devienne clair, mais la véritable nouvelle de novembre était que les agents de codage s'étaient améliorés. OpenAI et Anthropic avaient passé la majeure partie de 2025 à exécuter un apprentissage par renforcement à partir de récompenses vérifiables pour augmenter la qualité du code écrit par leurs modèles, surtout lorsqu'ils étaient associés à leurs agents Codex et Claude Code.

En novembre, les résultats de ce travail sont devenus évidents. Les agents de codage sont passés de "souvent fonctionnels" à "principalement fonctionnels", franchissant une barrière de qualité qui permettait de les utiliser comme outils quotidiens pour réaliser un vrai travail, sans avoir à passer la majeure partie de son temps à corriger leurs erreurs stupides.

Projets personnels et innovations

Durant la période des fêtes, de nombreux développeurs ont exploré ces nouveaux modèles et agents de codage. Certains, comme l'auteur de la présentation, ont lancé des projets ambitieux pour tester les limites de ces technologies. Un exemple notable est le projet micro-javascript, une implémentation de JavaScript en Python, appelée micro-javascript, qui fonctionne dans un navigateur via Pyodide et WebAssembly. Bien que ce projet ait été une démonstration technique impressionnante, il n'était pas nécessairement pratique ou sécurisé.

Aussi en novembre, cela s'est produit : le premier commit dans un dépôt obscur (à l'époque) appelé "Warelay" par un certain Pete. Durant la période des fêtes, de décembre à janvier, beaucoup d'entre nous ont profité de la pause pour explorer ces nouveaux modèles et agents de codage et voir ce qu'ils pouvaient faire.

Ils pouvaient faire beaucoup ! Certains d'entre nous se sont un peu trop emballés. J'ai moi-même eu une brève période de psychose liée aux LLM en commençant à lancer des projets très ambitieux pour voir jusqu'où je pouvais les pousser.

Un de mes projets était une implémentation codée par ambiance de JavaScript en Python — un port libre de MicroQuickJS — que j'ai appelé micro-javascript. Vous pouvez l'essayer dans votre navigateur dans ce playground.

Cette démo dans le playground montre du code JavaScript exécuté à l'aide de ma bibliothèque micro-javascript, en Python, fonctionnant à l'intérieur de Pyodide, tournant en WebAssembly, s'exécutant en JavaScript, dans un navigateur !

C'est plutôt cool ! Mais quelqu'un avait-il besoin d'une implémentation boguée, lente et peu sécurisée de JavaScript en Python ? Non, pas du tout. J'ai plusieurs autres projets de cette période de vacances que j'ai depuis retirés discrètement !

L'ascension d'OpenClaw

En novembre, un dépôt obscur appelé "Warelay" a vu son premier commit. Ce projet a évolué pour devenir OpenClaw, un assistant IA personnel qui a gagné en popularité en février 2026. OpenClaw, ainsi que ses variantes appelées Claws, ont capté l'attention, notamment dans la Silicon Valley, où les Mac Minis ont été utilisés pour faire fonctionner ces assistants. Une métaphore populaire pour les Claws est celle des griffes intelligentes du personnage Doc Ock dans le film Spider-Man 2.

Passons à février. Vous vous souvenez de ce projet Warelay qui avait son premier commit à la fin de novembre ? En décembre et janvier, il avait subi pas mal de changements de nom... et en février, il a pris d'assaut le monde sous son nom final, OpenClaw.

La quantité d'attention qu'il a reçue est assez étonnante pour un projet de moins de trois mois. OpenClaw est un "assistant IA personnel", et nous avons en fait obtenu un terme générique pour ces derniers, basé sur NanoClaw et ZeroClaw... ils sont appelés Claws.

Les Mac Minis ont commencé à se vendre comme des petits pains autour de la Silicon Valley, car les gens les achetaient pour faire fonctionner leurs Claws. Drew Breunig m'a plaisanté en disant que c'est parce qu'ils sont les nouveaux animaux de compagnie numériques, et un Mac Mini est le parfait aquarium pour votre Claw.

Ma métaphore préférée pour les Claws est le Doc Ock d'Alfred Molina dans le film Spider-Man 2 de 2004. Ses griffes étaient alimentées par l'IA, et étaient parfaitement sûres tant que rien n'endommageait sa puce d'inhibition... après quoi elles devenaient maléfiques et prenaient le contrôle.

Nouveaux modèles et démonstrations

En février, Gemini 3.1 Pro a été lancé, produisant un pélican remarquable. Google a également impressionné avec une vidéo animée montrant un pélican faisant du vélo, une grenouille sur un grand bi, une girafe conduisant une petite voiture, une autruche sur des patins à roulettes, une tortue faisant un kickflip sur un skateboard, et un teckel conduisant une limousine allongée. Ces démonstrations ont montré que les laboratoires d'IA prêtaient enfin attention aux détails créatifs.

Aussi en février : Gemini 3.1 Pro est sorti et m'a dessiné un très bon pélican faisant du vélo. Regardez ça ! Il a même un poisson dans son panier.

Et puis Jeff Dean de Google a tweeté cette vidéo d'un pélican animé faisant du vélo, plus une grenouille sur un grand bi et une girafe conduisant une petite voiture, et une autruche sur des patins à roulettes et une tortue faisant un kickflip sur un skateboard et un teckel conduisant une limousine allongée.

Alors peut-être que les laboratoires d'IA ont finalement prêté attention !

Beaucoup de choses se sont passées rien que le mois dernier. Google a sorti la série de modèles Gemma 4, qui sont les modèles à poids ouverts les plus performants que j'ai vus d'une entreprise américaine.

Également le mois dernier, le laboratoire d'IA chinois GLM a lancé GLM-5.1 — un monstre à poids ouvert de 1,5 To ! C'est un modèle très efficace... si vous pouvez vous permettre le matériel pour l'exécuter.

GLM-5.1 m'a dessiné ce pélican très compétent sur un vélo. ... bien que lorsqu'il a essayé de l'animer, le vélo a rebondi en haut et a été déformé.

Charles sur Bluesky m'a suggéré d'essayer avec un opossum de Virginie du Nord sur un E-scooter. Et il a fait ça ! J'ai essayé cela sur d'autres modèles et ils ne s'en approchent même pas. "Cruising the commonwealth since dusk" est parfait. C'est animé aussi.

Les autres modèles chinois à poids ouverts intéressants en avril venaient de Qwen. Qwen3.6-35B-A3B sur mon ordinateur portable m'a dessiné un meilleur pélican que Claude Opus 4.7. C'est un modèle à poids ouverts de 20,9 Go qui fonctionne sur mon ordinateur portable !

Je pense que cela démontre principalement que le pélican sur le vélo a fermement dépassé ses limites en tant que référence utile.

Voici ce pélican de Claude Sonnet 4.5 de septembre pour comparaison.

Ainsi, les deux principaux thèmes des six derniers mois étaient les suivants : les agents de codage se sont vraiment améliorés... et les modèles disponibles sur ordinateur portable, bien que beaucoup plus faibles que ceux de pointe, ont commencé à dépasser les attentes de manière spectaculaire.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires