Tu codes avec l’IA ?
Outils, agents et nouveautés dev IA décryptés, chaque soir en 5 min. Gratuit.
Inclus dès l'inscription : notre sélection des meilleurs guides & comparatifs IA.
Choisis ton rythme
Gratuit · Pas de spam · Désabonnement en 1 clic
OpenAI a récemment introduit "Privacy Filter", un modèle d'intelligence artificielle open-source conçu pour anonymiser les données personnelles dans les textes. Ce modèle, qui fonctionne localement, est capable de détecter et de masquer automatiquement les informations sensibles avant tout traitement ultérieur.
Fonctionnalités et capacités
Privacy Filter est capable de reconnaître huit catégories de données personnelles, incluant les noms, adresses, adresses e-mail, numéros de téléphone, URL, dates, numéros de compte, et autres secrets comme les mots de passe ou les clés API. Contrairement aux chatbots traditionnels, il ne génère pas de nouveau texte. Il effectue plutôt un passage unique à travers l'entrée et étiquette les parties selon leur catégorie.
Le modèle est conçu pour gérer de longs documents grâce à une fenêtre de contexte de 128 000 tokens, permettant ainsi de traiter les textes sans les diviser. Le modèle est relativement compact, avec 1,5 milliard de paramètres, mais n'utilise que 50 millions de paramètres actifs par requête. Cela permet son exécution sur des ordinateurs portables ou directement dans un navigateur, sans nécessiter de connexion cloud.
Utilisation et ajustements
OpenAI a conçu Privacy Filter pour les équipes qui ont besoin de nettoyer de grands volumes de texte avant de les traiter davantage, que ce soit pour entraîner leurs propres modèles d'IA ou partager des données avec des tiers. Privacy Filter est disponible sous la licence Apache 2.0 sur GitHub et Hugging Face, autorisant ainsi une utilisation commerciale. Les utilisateurs peuvent ajuster la sensibilité du modèle pour une redaction plus ou moins agressive, selon leurs besoins spécifiques. Les équipes disposant de leurs propres ensembles de données peuvent également affiner le modèle pour mieux répondre à leurs exigences.
Limites et recommandations
Malgré ses capacités, OpenAI souligne que Privacy Filter ne garantit pas une anonymisation conforme aux lois. Le modèle présente des faiblesses, notamment dans la détection des noms rares ou des figures publiques, et ses performances diminuent avec les textes non anglais ou les scripts non latins. Le modèle est censé être une couche parmi une stratégie de protection des données plus large.
Pour les domaines sensibles tels que la santé, le droit, la finance ou les ressources humaines, OpenAI recommande de maintenir une révision humaine dans le processus pour assurer une protection adéquate des données. Les catégories d'étiquettes ne peuvent pas être modifiées en temps réel, nécessitant un ajustement du modèle pour des politiques différentes.

