Ceci est un notebook interactif. Vous pouvez l’exécuter localement ou utiliser les liens ci-dessous :
- Les expressions régulières pour identifier les données PII et les masquer.
- Presidio de Microsoft, un SDK de protection des données basé sur Python. Cet outil offre des fonctionnalités de masquage et de remplacement.
- Faker, une bibliothèque Python permettant de générer de fausses données, combinée à Presidio pour anonymiser les données PII.
weave.op et autopatch_settings pour intégrer le masquage et l’anonymisation des données PII au flux de travail. Pour plus d’informations, voir Personnaliser les entrées et sorties journalisées.
Pour commencer, procédez comme suit :
- Consultez la section Aperçu.
- Complétez les prérequis.
- Consultez les méthodes disponibles pour identifier, masquer et anonymiser les données PII.
- Appliquez les méthodes aux appels Weave.
Aperçu
weave.op, ainsi que des bonnes pratiques pour travailler avec des données PII dans Weave.
Personnaliser la journalisation des entrées et sorties à l’aide de weave.op
weave.op().
Bonnes pratiques pour Weave avec des données PII
Lors des tests
- Journalisez des données anonymisées pour vérifier la détection des PII.
- Suivez les processus de gestion des PII avec Weave Traces.
- Mesurez les performances de l’anonymisation sans exposer de véritables PII.
En production
- Ne journalisez jamais de PII en clair.
- Chiffrez les champs sensibles avant de les journaliser.
Conseils en matière de chiffrement
- Utilisez un chiffrement réversible pour les données que vous devrez déchiffrer ultérieurement.
- Utilisez un hachage à sens unique pour les ID uniques que vous n’avez pas besoin de rétablir.
- Envisagez un chiffrement spécialisé pour les données que vous devez analyser tout en restant chiffrées.
Prérequis
- Commencez par installer les packages requis.
- Créez des clés API aux adresses suivantes :
- Initialisez votre projet Weave.
- Chargez le jeu de données de démonstration contenant des PII, qui comprend 10 blocs de texte.
Aperçu des méthodes de masquage
- Expressions régulières pour identifier les données PII et les masquer.
- Microsoft Presidio, un SDK Python de protection des données qui offre des fonctionnalités de masquage et de remplacement.
- Faker, une bibliothèque Python permettant de générer de fausses données.
Méthode 1 : Filtrer avec des expressions régulières
Méthode 2 : Masquer à l’aide de Microsoft Presidio
Alex dans "My name is Alex" par <PERSON>.
Presidio prend en charge nativement les entités courantes. L’exemple suivant masque toutes les entités de type PHONE_NUMBER, PERSON, LOCATION, EMAIL_ADDRESS ou US_SSN. Le traitement Presidio est encapsulé dans une fonction.
Méthode 3 : anonymiser par remplacement à l’aide de Faker et Presidio
"My name is Raphael and I like to fish. My phone number is 212-555-5555"
Après traitement des données par Presidio et Faker, le résultat peut ressembler à ceci :
"My name is Katherine Dixon and I like to fish. My phone number is 667.431.7379"
Pour utiliser Presidio et Faker ensemble, vous devez fournir des références à vos opérateurs personnalisés. Ces opérateurs indiquent à Presidio quelles fonctions de Faker doivent remplacer les PII par des données factices.
Méthode 4 : Utiliser autopatch_settings
autopatch_settings pour configurer la gestion des PII directement lors de l’initialisation pour une ou plusieurs intégrations LLM prises en charge. W&B recommande cette approche lorsque vous souhaitez une gestion centralisée des PII sur tous les appels d’une intégration donnée. Les avantages de cette méthode sont les suivants :
- La logique de gestion des PII est centralisée et définie à l’initialisation, ce qui réduit le besoin de logique personnalisée dispersée.
- Vous pouvez personnaliser ou désactiver entièrement les flux de travail de traitement des PII pour des intégrations spécifiques.
autopatch_settings afin de configurer la gestion des PII, définissez postprocess_inputs ou postprocess_output dans op_settings pour l’une des intégrations LLM prises en charge.
Appliquer les méthodes aux appels Weave
predict dans laquelle l’API Anthropic est appelée. Claude Sonnet d’Anthropic effectue une analyse de sentiment tout en assurant le traçage des appels LLM à l’aide de Traces. Claude Sonnet reçoit un bloc de texte et renvoie l’une des classifications de sentiment suivantes : positive, negative ou neutral. Le modèle inclut également des fonctions de post-traitement pour garantir que les données PII sont masquées ou anonymisées avant d’être envoyées au LLM.
Une fois ce code exécuté, vous obtenez des liens vers la page du projet Weave, ainsi que vers la trace spécifique correspondant aux appels LLM que vous avez exécutés. Utilisez ces liens pour vérifier que les fonctions de post-traitement ont masqué ou anonymisé les données d’entrée comme prévu avant qu’elles n’atteignent le LLM.
Méthode regex
Méthode de masquage avec Presidio

Méthode de remplacement avec Faker et Presidio

méthode autopatch_settings
postprocess_inputs pour anthropic est défini avec la fonction postprocess_inputs_regex() lors de l’initialisation. La fonction postprocess_inputs_regex applique la méthode redact_with_regex définie dans Méthode 1 : Filtrage à l’aide d’expressions régulières. Par conséquent, redact_with_regex est appliquée à toutes les entrées de tous les modèles anthropic.
Facultatif : Chiffrez vos données

cryptography. Cette approche garantit que, même si les données anonymisées sont interceptées, elles restent illisibles sans la clé de chiffrement. L’exemple suivant montre comment chiffrer le texte d’entrée avant son enregistrement, puis le déchiffrer dans la méthode predict du modèle.