이 문서는 대화형 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
가드레일로 사용하는 Scorer
score 메서드가 있는 클래스입니다. 기본 규칙부터 LLM을 판정자로 사용하는 방식까지 다양하게 활용할 수 있습니다.
이 노트북은 런타임에 Scorer를 적용해 원치 않는 모델 출력을 차단하거나 필터링하려는 Weave 사용자를 위한 내용입니다. 이 내용을 따라 하면 LLM 응답을 가로채고, Scorer로 평가하고, Scorer가 해당 응답을 안전하지 않다고 판단할 경우 대체 메시지를 반환하는 콘텐츠 안전 가드레일을 구축하게 됩니다. 이런 방식으로 Scorer를 사용하면 오프라인 Experiments를 구동하는 동일한 평가 로직을 재사용해 프로덕션에서 안전 정책을 강제 적용할 수 있습니다.
이 노트북을 마치면 LLM Call을 감싸고 Scorer의 판정에 따라 원래 응답 또는 안전한 대체 응답을 반환하는 ContentSafetyScorer를 완성하게 됩니다.