Tu suis la course aux modèles IA ?
Chaque sortie (GPT, Claude, Gemini, Mistral…) décryptée le soir même, en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Lyptus Research : l'IA double ses capacités offensives en cybersécurité tous les 5,7 mois
La société de recherche en sécurité Lyptus Research a récemment publié une étude révélant une accélération significative des capacités offensives des modèles d'intelligence artificielle en cybersécurité. Cette étude, qui utilise la méthode METR de prévision temporelle, a été menée avec la participation de dix experts en sécurité professionnels.
Accélération du rythme de doublement
Les résultats de l'étude indiquent que depuis 2019, les capacités offensives de l'IA en cybersécurité ont doublé tous les 9,8 mois. Cependant, depuis 2024, ce rythme s'est accéléré, atteignant un doublement tous les 5,7 mois. Cette évolution rapide est illustrée par les performances des modèles Opus 4.6 et GPT-5.3 Codex, qui peuvent désormais accomplir des tâches avec un taux de réussite de 50 % en utilisant un budget de deux millions de tokens. Ces tâches, qui prendraient environ trois heures à des experts humains, témoignent de l'efficacité croissante de ces modèles.
Évolution des performances des modèles IA
Depuis 2019, les modèles d'IA ont considérablement amélioré leur efficacité. Le passage de GPT-2 à Opus 4.6 et GPT-5.3 Codex a vu l'horizon temporel pour résoudre des tâches passer de 30 secondes à environ trois heures. Cette progression est en partie due à la réduction du temps de doublement des capacités, qui est passé de 9,8 mois à 5,7 mois.
Impact des budgets de tokens sur les performances
L'étude a également exploré l'impact des budgets de tokens sur les performances des modèles. Par exemple, GPT-5.3 Codex peut étendre son horizon de 3,1 heures à 10,5 heures lorsqu'il dispose de dix millions de tokens au lieu de deux millions. Les chercheurs de Lyptus Research estiment que cela pourrait indiquer une sous-estimation du véritable rythme de progrès. Ils notent également que les modèles open-source accusent un retard d'environ 5,7 mois par rapport à leurs homologues fermés.
L'étude a analysé un total de 291 tâches, et toutes les données collectées sont disponibles sur les plateformes GitHub et Hugging Face. Le rapport complet de l'étude est accessible en ligne pour ceux qui souhaitent explorer plus en détail ces découvertes.


