L’IA et sa régulation t’intéressent ?
Lois, cadres et décisions qui façonnent l’IA, décryptés en français. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
Cisco a récemment introduit un outil révolutionnaire, le Model Provenance Kit, qui promet de transformer la manière dont les modèles d'intelligence artificielle sont vérifiés pour leur origine. Ce programme open source, développé en Python, permet de comparer deux modèles d'IA afin de déterminer s'ils partagent une origine commune. Lors d'un test rigoureux impliquant 111 paires de modèles, l'outil a démontré une précision remarquable de 96,4 %. Le code est mis à disposition sur GitHub sous la licence Apache-2.0.
La base initiale du programme comprend 150 modèles issus de 45 familles et plus de 20 éditeurs, avec des tailles allant de 135 millions à plus de 70 milliards de paramètres. Parmi les plateformes hébergeant ces modèles, Hugging Face se distingue avec plus de 2 millions de modèles téléchargeables, dont beaucoup sont des dérivés non déclarés d'autres modèles, souvent ré-empaquetés sous de nouveaux noms.
Le programme de Cisco fonctionne via une interface en ligne de commande et génère une "empreinte" pour chaque modèle. Cette empreinte est composée de trois éléments essentiels : les poids acquis lors de l'entraînement, le tokenizer utilisé pour segmenter le texte, et les fichiers décrivant l'architecture du modèle. Deux modes d'utilisation principaux sont proposés : le mode comparaison, qui confronte directement deux modèles, et le mode balayage, qui recherche un modèle unique dans une base de 150 empreintes de référence.
Les créateurs de cet outil, Ehsan Aghaei, Amy Chang, Ankit Garg et Sanket Mendapara, le décrivent comme un "test ADN" pour l'IA. Il fonctionne sur des processeurs d'ordinateurs grand public et permet de comparer deux architectures en quelques millisecondes seulement. Le seuil de décision pour établir une correspondance est fixé à 0,70 sur une échelle de 0 à 1.
Le processus de comparaison se déroule en deux étapes. Dans un premier temps, il analyse les fichiers de configuration des modèles, tels que le nombre de couches du réseau de neurones, les dimensions internes, et le type de mécanisme d'attention utilisé. Si cette analyse initiale est insuffisante, le programme procède à une analyse fine des poids en utilisant cinq indicateurs, tels que la géométrie des relations entre mots et la répartition statistique des mots.
Un sixième indicateur, concernant le tokenizer, est mesuré mais n'influence pas le score final pour éviter les fausses correspondances. Par exemple, bien que les modèles StableLM et Pythia partagent le tokenizer de GPT-NeoX, ils n'ont pas de poids communs.
Sur le banc d'essai, l'outil a échoué dans 4 cas, tous liés à des transformations architecturales extrêmes. Ces erreurs sont considérées comme des limites mathématiques plutôt que des défauts du programme.
L'outil de Cisco s'aligne sur les exigences de l'AI Act, qui impose aux fournisseurs de systèmes à haut risque de fournir une documentation technique détaillée. Cette obligation, qui prendra effet en août 2026, pourrait être reportée au 2 décembre 2027. Les entreprises doivent prouver l'origine de leurs modèles, et le Model Provenance Kit offre des preuves vérifiables sous forme de scores numériques et de classements.
Pour les petites entreprises, l'article 11 de l'AI Act permet de fournir une documentation simplifiée. Cependant, prouver l'origine des composants tiers reste un défi coûteux. Le Model Provenance Kit, gratuit et sans besoin de matériel spécialisé, offre une solution accessible.
Un exemple concret est celui de Cursor Composer 2, qui utilise des éléments de Kimi 2.5 de Moonshot AI. Cette dépendance, non déclarée initialement, aurait pu être détectée grâce au kit de Cisco.
La base initiale de 150 modèles inclut des éditeurs majeurs comme Meta, Mistral, Alibaba et DeepSeek. Le programme produit des preuves vérifiables : un score numérique, un classement des modèles candidats, une décomposition par indicateur. Ces sorties s'intègrent à un dossier Annexe IV.
Reste la question du coût pour les petites structures. L'article 11 de l'AI Act autorise les PME et les start-ups à fournir une documentation simplifiée via un formulaire dédié. Elles doivent malgré tout prouver l'origine des composants tiers. Or, les solutions commerciales d'audit IA coûtent cher, alors que le Model Provenance Kit demeure gratuit sous licence Apache-2.0. Aucune carte graphique spécialisée n'est nécessaire, ni grappe de serveurs. Les empreintes pré-calculées sont mises en cache pour réutilisation. Des structures jusque-là exclues des outils d'audit accèdent désormais à la vérification d'origine.
