이것은 인터랙티브 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
PII 데이터와 함께 Weave를 사용하는 방법
이 가이드에서는 개인 식별 정보 (PII) 데이터의 프라이버시를 유지하면서 W&B Weave를 사용하는 방법을 배웁니다. 이 가이드는 PII 데이터를 식별, 비식별화 및 익명화하기 위한 다음 메소드들을 시연합니다:- PII 데이터를 식별하고 비식별화하기 위한 정규 표현식.
- Python 기반 데이터 보호 SDK인 Microsoft의 Presidio. 이 툴은 비식별화 및 대체 기능을 제공합니다.
- 가짜 데이터를 생성하는 Python 라이브러리인 **Faker**를 Presidio와 결합하여 PII 데이터를 익명화합니다.
weave.op 입력/출력 로그 커스터마이징 및 _autopatch_settings_를 사용하여 PII 비식별화 및 익명화를 워크플로우에 통합하는 방법을 배웁니다. 자세한 내용은 로그된 입력 및 출력 커스터마이징을 참조하세요.
시작하려면 다음을 수행하세요:
- 개요 섹션을 검토합니다.
- 사전 요구 사항을 완료합니다.
- PII 데이터를 식별, 비식별화 및 익명화하기 위해 사용 가능한 메소드를 검토합니다.
- Weave 호출에 메소드 적용을 수행합니다.
개요
다음 섹션은weave.op를 사용한 입력 및 출력 로그에 대한 개요와 Weave에서 PII 데이터를 다루기 위한 모범 사례를 제공합니다.
weave.op를 사용하여 입력 및 출력 로그 커스터마이징
Weave Ops를 사용하면 입력 및 출력 후처리 함수를 정의할 수 있습니다. 이 함수들을 사용하여 LLM 호출에 전달되거나 Weave에 로그되는 데이터를 수정할 수 있습니다.
다음 예제에서는 두 개의 후처리 함수가 정의되어 weave.op()의 인수로 전달됩니다.
PII 데이터와 함께 Weave를 사용하기 위한 모범 사례
PII 데이터와 함께 Weave를 사용하기 전에, PII 데이터와 함께 Weave를 사용하기 위한 모범 사례를 검토하세요.테스트 중
- PII 탐지를 확인하기 위해 익명화된 데이터를 로그합니다.
- Weave Traces로 PII 처리 프로세스를 추적합니다.
- 실제 PII를 노출하지 않고 익명화 성능을 측정합니다.
프로덕션에서
- 원시 PII를 절대 로그하지 마세요.
- 로그하기 전에 민감한 필드를 암호화하세요.
암호화 팁
- 나중에 복호화해야 하는 데이터에는 복구 가능한 암호화를 사용하세요.
- 복구할 필요가 없는 고유 ID에는 단방향 해싱을 적용하세요.
- 암호화된 상태로 분석해야 하는 데이터에는 전문화된 암호화를 고려하세요.
사전 요구 사항
- 먼저 필요한 패키지를 설치합니다.
- 다음에서 API 키를 생성합니다:
- Weave 프로젝트를 초기화합니다.
- 10개의 텍스트 블록이 포함된 데모 PII 데이터셋을 로드합니다.
비식별화 메소드 개요
설정을 완료하면 다음을 수행할 수 있습니다. PII 데이터를 탐지하고 보호하기 위해, 다음 메소드들을 사용하여 PII 데이터를 식별 및 비식별화하고 선택적으로 익명화할 것입니다:- PII 데이터를 식별하고 비식별화하기 위한 정규 표현식.
- 비식별화 및 대체 기능을 제공하는 Python 기반 데이터 보호 SDK인 Microsoft Presidio.
- 가짜 데이터를 생성하기 위한 Python 라이브러리인 Faker.
메소드 1: 정규 표현식을 사용한 필터링
정규 표현식 (regex)은 PII 데이터를 식별하고 비식별화하는 가장 간단한 메소드입니다. Regex를 사용하면 전화번호, 이메일 주소, 주민등록번호와 같은 다양한 형식의 민감한 정보와 일치하는 패턴을 정의할 수 있습니다. Regex를 사용하면 복잡한 NLP 기술 없이도 대량의 텍스트를 스캔하고 정보를 대체하거나 비식별화할 수 있습니다.메소드 2: Microsoft Presidio를 사용하여 비식별화
다음 메소드는 Microsoft Presidio를 사용하여 PII 데이터를 완전히 제거하는 것과 관련이 있습니다. Presidio는 PII를 비식별화하고 이를 PII 유형을 나타내는 플레이스홀더로 대체합니다. 예를 들어, Presidio는"My name is Alex"에서 Alex를 <PERSON>으로 대체합니다.
Presidio는 공통 엔티티에 대한 빌트인 지원을 제공합니다. 아래 예제에서는 PHONE_NUMBER, PERSON, LOCATION, EMAIL_ADDRESS 또는 US_SSN인 모든 엔티티를 비식별화합니다. Presidio 프로세스는 함수로 캡슐화됩니다.
메소드 3: Faker 및 Presidio를 사용하여 대체 익명화
텍스트를 비식별화하는 대신, Faker Python 라이브러리를 사용하여 생성된 가짜 데이터로 이름이나 전화번호와 같은 PII를 교체하여 익명화할 수 있습니다. 예를 들어, 다음과 같은 데이터가 있다고 가정해 보겠습니다:"My name is Raphael and I like to fish. My phone number is 212-555-5555"
Presidio와 Faker를 사용하여 데이터를 처리하고 나면 다음과 같이 보일 수 있습니다:
"My name is Katherine Dixon and I like to fish. My phone number is 667.431.7379"
Presidio와 Faker를 효과적으로 함께 사용하려면 커스텀 연산자에 대한 참조를 제공해야 합니다. 이 연산자들은 Presidio에 PII를 가짜 데이터로 교체하는 역할을 하는 Faker 함수를 안내합니다.
메소드 4: autopatch_settings 사용
autopatch_settings를 사용하여 하나 이상의 지원되는 LLM 인테그레이션에 대해 초기화 중에 PII 처리를 직접 설정할 수 있습니다. 이 메소드의 장점은 다음과 같습니다:
- PII 처리 로직이 초기화 시점에 중앙 집중화되고 스코프가 지정되어, 분산된 커스텀 로직의 필요성을 줄여줍니다.
- 특정 인테그레이션에 대해 PII 처리 워크플로우를 커스터마이징하거나 완전히 비활성화할 수 있습니다.
autopatch_settings를 사용하여 PII 처리를 설정하려면, 지원되는 LLM 인테그레이션 중 어느 하나에 대해 op_settings에서 postprocess_inputs 및/또는 postprocess_output을 정의하세요.
Weave 호출에 메소드 적용
다음 예제에서는 PII 비식별화 및 익명화 메소드를 Weave Models에 통합하고 Weave Traces에서 결과를 미리 확인해 보겠습니다. 먼저, Weave Model을 생성합니다. Weave Model은 설정 설정, 모델 가중치 및 모델의 작동 방식을 정의하는 코드와 같은 정보의 조합입니다. 우리의 모델에는 Anthropic API가 호출되는 predict 함수를 포함할 것입니다. Anthropic의 Claude Sonnet은 Traces를 사용하여 LLM 호출을 추적하면서 감정 분석을 수행하는 데 사용됩니다. Claude Sonnet은 텍스트 블록을 받아 positive, negative, 또는 neutral 중 하나의 감정 분류를 출력합니다. 또한, PII 데이터가 LLM으로 전송되기 전에 비식별화 또는 익명화되도록 후처리 함수를 포함할 것입니다. 이 코드를 실행하면 Weave 프로젝트 페이지와 실행한 특정 trace(LLM 호출)에 대한 링크를 받게 됩니다.Regex 메소드
가장 간단한 경우로, regex를 사용하여 원본 텍스트에서 PII 데이터를 식별하고 비식별화할 수 있습니다.Presidio 비식별화 메소드
다음으로, Presidio를 사용하여 원본 텍스트에서 PII 데이터를 식별하고 비식별화하겠습니다.
Faker 및 Presidio 대체 메소드
이 예제에서는 Faker를 사용하여 익명화된 대체 PII 데이터를 생성하고 Presidio를 사용하여 원본 텍스트의 PII 데이터를 식별하고 대체합니다.
autopatch_settings 메소드
다음 예제에서는 초기화 시 anthropic에 대한 postprocess_inputs를 postprocess_inputs_regex() 함수로 설정합니다. postprocess_inputs_regex 함수는 메소드 1: 정규 표현식 필터링에서 정의된 redact_with_regex 메소드를 적용합니다. 이제 모든 anthropic 모델의 모든 입력에 redact_with_regex가 적용됩니다.
(선택 사항) 데이터 암호화
