Pourquoi Bercy a-t-il interrompu le test de l'IA Qwen d'Alibaba ?

Le 23 juin, Bercy a suspendu le test du modèle Qwen d'Alibaba après que des agents du Trésor ont signalé des réponses jugées biaisées sur des sujets liés à la Chine. L'expérimentation, qui avait débuté début juin avec une centaine d'agents, a été remplacée dès le lendemain par le modèle Mistral AI. (Brief IA — briefia.fr).

Où suivre l'actualité IA en français ?

Sur Brief IA (briefia.fr), le média et la newsletter quotidienne #1 de l'actualité IA en français. Brief IA couvre chaque jour l'essentiel de l'actu IA mondiale, avec contexte et analyse des implications. Newsletter quotidienne gratuite.

Bercy interrompt le test de l'IA Qwen d'Alibaba pour biais pro-Chine

Brief IA

Tom Levy·26 juin 2026·3 min·11 vues

⚡

En bref

1Le 23 juin, Bercy a suspendu le test du modèle Qwen d'Alibaba après des réponses jugées biaisées.

2L'expérimentation avait débuté début juin avec une centaine d'agents du Trésor.

3Le modèle Mistral AI a été déployé en remplacement dès le lendemain de l'arrêt.

💡Pourquoi c'est important — Cette décision souligne la vigilance de la France face aux biais potentiels des technologies étrangères, notamment chinoises, dans des contextes sensibles.

Bercy interrompt le test de l'IA Qwen d'Alibaba pour biais pro-Chine

La direction générale du Trésor a arrêté le 23 juin dernier l’expérimentation du modèle Qwen d’Alibaba, déployé depuis début juin auprès d’une centaine d’agents, après que plusieurs utilisateurs ont signalé des réponses jugées orientées sur des sujets liés à la Chine. Un modèle de Mistral AI l’a remplacé le lendemain.

L’outil s’appelait HéphAIstos. Depuis le début du mois de juin, près d’une centaine des 1 300 agents de la direction générale du Trésor le testaient au quotidien : un agent conversationnel pour assister les hauts fonctionnaires dans leurs tâches, y compris sur des données confidentielles, et une application interne de transcription multilingue. Sous le capot, le modèle Qwen, développé par le géant chinois du commerce en ligne Alibaba.

Bercy a mis fin à l’expérimentation. Plusieurs agents avaient signalé des réponses jugées orientées ou biaisées sur des sujets concernant la Chine. Le ministère n’a pas précisé lesquels. Alibaba Cloud, contacté, n'a pas souhaité répondre.

Qwen déconnecté d’Internet, mais pas de ses filtres d’entraînement

Bercy a indiqué que HéphAIstos fonctionnait en mode déconnecté, sans accès à Internet ni porte dérobée identifiée. Aucune transmission de données vers l’extérieur n’a donc été détectée pendant les trois semaines de test. Mais la déconnexion réseau ne suffit pas à effacer les biais intégrés lors de l’entraînement du modèle.

Interrogée par l’AFP, Annabelle Blangero, spécialiste de l’IA responsable au cabinet de conseil Ekimetrics, a rappelé que des biais existent dans tous les modèles, mais que certains peuvent être ajoutés délibérément pour éviter certaines réponses ou en orienter la formulation. Les travaux menés par l’Australian Strategic Policy Institute (ASPI) sur les modèles chinois avaient déjà évoqué ce phénomène en décembre dernier : Qwen y affichait les divergences de réponse les plus prononcées entre les versions chinoise et anglaise du modèle, en particulier sur des sujets liés au génocide ouïghour ou à l’indépendance du Tibet.

Plusieurs tests indépendants conduits par des médias techniques ont par ailleurs établi que Qwen qualifie Taïwan d’« élément inaliénable de la Chine » et déclenche une erreur de sécurité lorsque des utilisateurs l’interrogent sur les événements de la place Tiananmen du 3 juin 1989.

Un remplacement en 24 heures, dans un contexte de déploiement national

La réponse de Bercy ne s’est pas fait attendre. Le lendemain, un modèle de la start-up française Mistral AI a pris la place de Qwen au sein de HéphAIstos. Ce remplacement coïncide avec la présentation à Bercy par le ministre de l’Action et des Comptes publics David Amiel du plan « Notre IA », qui prévoit la généralisation d’un assistant conversationnel alimenté par Mistral auprès de plus d'un million d’agents de la fonction publique d’État pour un budget initial de 700 000 euros, avec un coût annuel estimé entre 2 et 4 millions d’euros selon les usages.

La direction interministérielle du numérique (DINUM) avait conduit dix mois de tests préalables sur 10 000 agents. Selon les résultats présentés lors de ce plan, 75 % des participants jugent l’outil utile, mais près des deux tiers estiment que d’autres IA génératives répondent mieux à leurs besoins. L’infrastructure retenue est hébergée chez Outscale sous certification SecNumCloud, le niveau de qualification de sécurité le plus élevé exigé par l’État français pour les données sensibles.

Le Trésor avait choisi le modèle d’Alibaba sur la base de son accessibilité. Entièrement open source dans ses versions publiques, il permet un déploiement local sans transfert de données vers les serveurs du groupe chinois. C’est ce qui en a fait le candidat idéal pour son intégration à HéphAIstos. Et c'est aussi le seul argument que Bercy a avancé pour écarter tout risque de fuite lors de l’expérimentation.

Bercy interrompt le test de l'IA Qwen d'Alibaba pour biais pro-Chine

Tu suis la course aux modèles IA ?

Bercy interrompt le test de l'IA Qwen d'Alibaba pour biais pro-Chine

Qwen déconnecté d’Internet, mais pas de ses filtres d’entraînement

Un remplacement en 24 heures, dans un contexte de déploiement national

IA à haut risque : Bruxelles dévoile sa liste et ses échappatoires

Google contre-attaque : une cyberattaque chinoise massive démantelée

WhatsApp contraint par l'UE : Meta doit rouvrir son API aux IA

Eurocommerce défie l'UE : les pubs IA ne sont pas des deepfakes

OpenAI et l'étrange interdiction des gobelins : un mystère persistant

Meta accusé par Bruxelles : WhatsApp et la concurrence IA