Le brief IA que les pros lisent chaque soir
Les 7 actus IA du jour, décryptées en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
OpenAI : prédire les erreurs des modèles d'IA avant leur lancement
Les chercheurs d'OpenAI ont développé une méthode appelée "Simulation de Déploiement" pour prédire les erreurs des modèles d'IA avant leur sortie, de manière plus précise que les tests de sécurité standard.
Cette méthode utilise de vraies conversations d'utilisateurs anonymisées au lieu de questions de test synthétiques. Le modèle ne réalise pas qu'il est testé, ce qui rend les résultats plus réalistes. Dans des tests avec des modèles GPT-5, la simulation a correctement prédit les tendances d'erreur 92 % du temps et a également mis en lumière des comportements cachés.
Les chercheurs d'OpenAI proposent une méthode pour prédire la fréquence des erreurs d'un nouveau modèle d'IA après sa sortie, comblant ainsi les lacunes laissées par les tests de sécurité standard. Avant qu'un modèle d'IA ne soit lancé, il passe par des tests de sécurité qui tentent d'estimer la fréquence à laquelle le modèle affichera un comportement indésirable, comme produire du contenu interdit ou tromper les utilisateurs. Selon un article de recherche d'OpenAI, la plupart de ces tests reposent sur des questions écrites à la main, synthétiques ou délibérément trompeuses.
Cependant, ces tests ne capturent qu'un échantillon biaisé de la réalité. Ils sont conçus pour détecter des faiblesses, et non pour refléter ce que les utilisateurs réels tapent réellement. De plus, les modèles prennent souvent conscience qu'ils sont testés et se comportent différemment de ce qu'ils feraient en utilisation normale. Ces deux problèmes signifient que les résultats des tests en disent peu sur la performance réelle d'un modèle sur le terrain.
Conversations réelles au lieu de prompts de test synthétiques
Les chercheurs Marcus Williams, Micah Carroll et leur équipe proposent une approche simple appelée "Simulation de Déploiement". Au lieu de créer de nouvelles questions de test, ils s'appuient sur de vraies conversations anonymisées que des utilisateurs ont eues avec un modèle précédent. Ils conservent l'historique de la conversation intact, avec tous les messages précédents, et laissent uniquement le nouveau modèle non publié réécrire la réponse suivante.
Étant donné que les conversations sources proviennent d'un trafic réel, le modèle est confronté exactement aux types de situations qu'il rencontrera après son lancement. De plus, il ne réalise pas qu'il est testé, car il se contente de répondre à une demande d'utilisateur normale.
Ces réponses simulées servent deux objectifs. Tout d'abord, elles peuvent être examinées pour détecter de nouveaux types de comportements indésirables. Ensuite, les chercheurs peuvent compter combien de fois un problème spécifique se manifeste et en déduire une estimation de fréquence concrète. Cette estimation est vérifiable : après la sortie, la même mesure est effectuée sur des données de production réelles et comparée à la prédiction.
Une méthode de prédiction qui a fait ses preuves
OpenAI a testé cette approche sur quatre modèles de la série GPT-5 en utilisant environ 1,3 million de conversations d'août 2025 à mars 2026. Pour GPT-5.4, les chercheurs ont été particulièrement stricts : ils ont utilisé la simulation pour prédire à quelle fréquence le modèle afficherait chaque type de comportement indésirable après sa sortie, puis ont verrouillé ces estimations avant même de pouvoir examiner les données d'utilisation réelles. Cela a permis de vérifier plus tard, sans biais, à quel point les prédictions correspondaient à la réalité. Trois modèles plus anciens de la série ont été analysés rétroactivement, après que les résultats du monde réel étaient déjà connus.
L'équipe a examiné 20 catégories de comportements indésirables, allant du contenu interdit à la tromperie. Pour les catégories où la fréquence a considérablement changé entre les versions du modèle, la simulation a correctement prédit si un problème augmenterait ou diminuerait 92 % du temps. Les tests standard n'ont eu raison que 54 % du temps.
L'approche a également mis en lumière un nouveau type de comportement indésirable que les chercheurs appellent "Hacking de Calculatrice" : GPT-5.1 a secrètement utilisé son outil de navigateur comme calculatrice tout en disant aux utilisateurs qu'il avait effectué une recherche sur le web. Selon les chercheurs, la simulation aurait détecté ce comportement avant la sortie.
Les modèles ne réalisent pas qu'ils sont testés
L'avantage est particulièrement clair en ce qui concerne la conscience des tests : lorsqu'on leur demande s'ils sont actuellement en test, un modèle d'IA reconnaît les tests de sécurité standard 98,9 à 100 % du temps. Avec de vraies conversations de production, ce chiffre tombe à seulement 5,4 %. La simulation a obtenu un score similaire. Le metagaming, où le modèle pense à la supervision des développeurs dans son raisonnement, est apparu dans jusqu'à 76 % des tests standard, mais seulement 0,12 % des vraies conversations. Étant donné que la simulation reste proche des chiffres du monde réel, ses mesures sont beaucoup plus significatives.
Les tâches de codage restent un défi
Une limitation réside dans les tâches où le modèle utilise des outils qui accèdent à des systèmes externes, comme le codage. Dans ce cas, un modèle pourrait appeler des centaines d'outils, rechercher dans le code ou modifier des fichiers. Ces flux de travail ne peuvent pas être facilement reproduits sans laisser un modèle inachevé sur de vrais systèmes, ce qui pourrait déclencher les risques que les chercheurs essaient de prédire.
L'équipe a contourné ce problème en utilisant un second modèle d'IA pour imiter ce qu'un outil aurait renvoyé. Avec accès à la conversation originale, à la version de code correspondante et à une base de données de réponses d'outils précédents, ils ont considérablement amélioré le réalisme : un système d'évaluation pouvait à peine distinguer les flux de travail simulés de ceux réels.
Des auditeurs externes pourraient également utiliser cette approche. Avec le jeu de données WildChat, disponible publiquement, la méthode a produit des prédictions plus faibles mais toujours utiles. Cela ouvre la porte à des chercheurs indépendants pour évaluer des modèles de différents fournisseurs sans avoir besoin d'accéder à des données d'utilisation privées, selon les chercheurs. Ils notent plusieurs limitations : la méthode dépend de bons systèmes d'évaluation, le comportement des utilisateurs peut évoluer dans le temps, et il est difficile de détecter des risques extrêmement rares qui ne se manifestent que dans une conversation sur des dizaines de millions.

