OpenAI lance Privacy Filter : IA pour données personnelles

⚡

Key Takeaways

1OpenAI a lancé Privacy Filter, un modèle open-source qui anonymise les données personnelles dans les textes.

2Le modèle détecte huit types de données sensibles, comme les noms et adresses, et fonctionne localement sans connexion cloud.

3Malgré ses capacités, OpenAI recommande une révision humaine pour les textes sensibles, notamment en raison de ses limites avec les langues non anglaises.

💡Why it matters — Privacy Filter offre un outil puissant pour les entreprises souhaitant protéger les données personnelles tout en traitant de grands volumes de texte.

OpenAI a récemment introduit "Privacy Filter", un modèle d'intelligence artificielle open-source conçu pour anonymiser les données personnelles dans les textes. Ce modèle, qui fonctionne localement, est capable de détecter et de masquer automatiquement les informations sensibles avant tout traitement ultérieur.

Fonctionnalités et capacités

Privacy Filter est capable de reconnaître huit catégories de données personnelles, incluant les noms, adresses, adresses e-mail, numéros de téléphone, URL, dates, numéros de compte, et autres secrets comme les mots de passe ou les clés API. Contrairement aux chatbots traditionnels, il ne génère pas de nouveau texte. Il effectue plutôt un passage unique à travers l'entrée et étiquette les parties selon leur catégorie.

Le modèle est conçu pour gérer de longs documents grâce à une fenêtre de contexte de 128 000 tokens, permettant ainsi de traiter les textes sans les diviser. Le modèle est relativement compact, avec 1,5 milliard de paramètres, mais n'utilise que 50 millions de paramètres actifs par requête. Cela permet son exécution sur des ordinateurs portables ou directement dans un navigateur, sans nécessiter de connexion cloud.

Utilisation et ajustements

OpenAI a conçu Privacy Filter pour les équipes qui ont besoin de nettoyer de grands volumes de texte avant de les traiter davantage, que ce soit pour entraîner leurs propres modèles d'IA ou partager des données avec des tiers. Privacy Filter est disponible sous la licence Apache 2.0 sur GitHub et Hugging Face, autorisant ainsi une utilisation commerciale. Les utilisateurs peuvent ajuster la sensibilité du modèle pour une redaction plus ou moins agressive, selon leurs besoins spécifiques. Les équipes disposant de leurs propres ensembles de données peuvent également affiner le modèle pour mieux répondre à leurs exigences.

Limites et recommandations

Malgré ses capacités, OpenAI souligne que Privacy Filter ne garantit pas une anonymisation conforme aux lois. Le modèle présente des faiblesses, notamment dans la détection des noms rares ou des figures publiques, et ses performances diminuent avec les textes non anglais ou les scripts non latins. Le modèle est censé être une couche parmi une stratégie de protection des données plus large.

Pour les domaines sensibles tels que la santé, le droit, la finance ou les ressources humaines, OpenAI recommande de maintenir une révision humaine dans le processus pour assurer une protection adéquate des données. Les catégories d'étiquettes ne peuvent pas être modifiées en temps réel, nécessitant un ajustement du modèle pour des politiques différentes.

OpenAI lance Privacy Filter : IA pour données personnelles

Le brief IA que les pros lisent chaque soir

Fonctionnalités et capacités

Utilisation et ajustements

Limites et recommandations

Brief IA — L'actualité IA en français