Brief IA : Cisco lance un "test ADN" pour IA, conforme à l'AI Act

Cisco lance un "test ADN" pour IA, conforme à l'AI Act

Brief IA
Tom Levy·4 min·8 vues

Cisco a lancé le Model Provenance Kit, un outil open source permettant de comparer l'origine des modèles d'intelligence artificielle, avec une précision de 96,4 % sur un banc d'essai de 111 paires de modèles. Cet outil répond aux exigences de l'AI Act, renforçant la transparence et facilitant la conformité réglementaire pour les entreprises utilisant l'IA.

En bref
1Cisco a introduit le Model Provenance Kit, un outil open source qui identifie l'origine commune des modèles d'IA avec une précision de 96,4 %.
2L'outil utilise des empreintes basées sur les poids, le tokenizer et l'architecture, et fonctionne en quelques millisecondes sur des ordinateurs classiques.
3Ce programme aide les entreprises à se conformer à l'AI Act, en fournissant des preuves vérifiables pour la documentation technique requise.
💡Pourquoi c'est importantCet outil gratuit démocratise l'accès à l'audit de modèles d'IA, crucial pour les PME face aux exigences réglementaires croissantes.
Le brief IA que lisent les pros

L’IA et sa régulation t’intéressent ?

Lois, cadres et décisions qui façonnent l’IA, décryptés en français. Gratuit.

Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.

Choisis ton rythme

Gratuit · Pas de spam · Désabonnement en 1 clic

📄
L'analyse en français

Cisco a récemment introduit un outil révolutionnaire, le Model Provenance Kit, qui promet de transformer la manière dont les modèles d'intelligence artificielle sont vérifiés pour leur origine. Ce programme open source, développé en Python, permet de comparer deux modèles d'IA afin de déterminer s'ils partagent une origine commune. Lors d'un test rigoureux impliquant 111 paires de modèles, l'outil a démontré une précision remarquable de 96,4 %. Le code est mis à disposition sur GitHub sous la licence Apache-2.0.

La base initiale du programme comprend 150 modèles issus de 45 familles et plus de 20 éditeurs, avec des tailles allant de 135 millions à plus de 70 milliards de paramètres. Parmi les plateformes hébergeant ces modèles, Hugging Face se distingue avec plus de 2 millions de modèles téléchargeables, dont beaucoup sont des dérivés non déclarés d'autres modèles, souvent ré-empaquetés sous de nouveaux noms.

Le programme de Cisco fonctionne via une interface en ligne de commande et génère une "empreinte" pour chaque modèle. Cette empreinte est composée de trois éléments essentiels : les poids acquis lors de l'entraînement, le tokenizer utilisé pour segmenter le texte, et les fichiers décrivant l'architecture du modèle. Deux modes d'utilisation principaux sont proposés : le mode comparaison, qui confronte directement deux modèles, et le mode balayage, qui recherche un modèle unique dans une base de 150 empreintes de référence.

Les créateurs de cet outil, Ehsan Aghaei, Amy Chang, Ankit Garg et Sanket Mendapara, le décrivent comme un "test ADN" pour l'IA. Il fonctionne sur des processeurs d'ordinateurs grand public et permet de comparer deux architectures en quelques millisecondes seulement. Le seuil de décision pour établir une correspondance est fixé à 0,70 sur une échelle de 0 à 1.

Le processus de comparaison se déroule en deux étapes. Dans un premier temps, il analyse les fichiers de configuration des modèles, tels que le nombre de couches du réseau de neurones, les dimensions internes, et le type de mécanisme d'attention utilisé. Si cette analyse initiale est insuffisante, le programme procède à une analyse fine des poids en utilisant cinq indicateurs, tels que la géométrie des relations entre mots et la répartition statistique des mots.

Un sixième indicateur, concernant le tokenizer, est mesuré mais n'influence pas le score final pour éviter les fausses correspondances. Par exemple, bien que les modèles StableLM et Pythia partagent le tokenizer de GPT-NeoX, ils n'ont pas de poids communs.

Sur le banc d'essai, l'outil a échoué dans 4 cas, tous liés à des transformations architecturales extrêmes. Ces erreurs sont considérées comme des limites mathématiques plutôt que des défauts du programme.

L'outil de Cisco s'aligne sur les exigences de l'AI Act, qui impose aux fournisseurs de systèmes à haut risque de fournir une documentation technique détaillée. Cette obligation, qui prendra effet en août 2026, pourrait être reportée au 2 décembre 2027. Les entreprises doivent prouver l'origine de leurs modèles, et le Model Provenance Kit offre des preuves vérifiables sous forme de scores numériques et de classements.

Pour les petites entreprises, l'article 11 de l'AI Act permet de fournir une documentation simplifiée. Cependant, prouver l'origine des composants tiers reste un défi coûteux. Le Model Provenance Kit, gratuit et sans besoin de matériel spécialisé, offre une solution accessible.

Un exemple concret est celui de Cursor Composer 2, qui utilise des éléments de Kimi 2.5 de Moonshot AI. Cette dépendance, non déclarée initialement, aurait pu être détectée grâce au kit de Cisco.

La base initiale de 150 modèles inclut des éditeurs majeurs comme Meta, Mistral, Alibaba et DeepSeek. Le programme produit des preuves vérifiables : un score numérique, un classement des modèles candidats, une décomposition par indicateur. Ces sorties s'intègrent à un dossier Annexe IV.

Reste la question du coût pour les petites structures. L'article 11 de l'AI Act autorise les PME et les start-ups à fournir une documentation simplifiée via un formulaire dédié. Elles doivent malgré tout prouver l'origine des composants tiers. Or, les solutions commerciales d'audit IA coûtent cher, alors que le Model Provenance Kit demeure gratuit sous licence Apache-2.0. Aucune carte graphique spécialisée n'est nécessaire, ni grappe de serveurs. Les empreintes pré-calculées sont mises en cache pour réutilisation. Des structures jusque-là exclues des outils d'audit accèdent désormais à la vérification d'origine.

Suivez Brief IA

L'actu IA du jour, aussi dans votre fil.

Commentaires