핵심 기능
- 에이전트 세션과 멀티턴 대화, 또는 애플리케이션 코드의 개별 함수 Call과 출력에 대한 가시성.
- 엄선된 테스트 케이스를 기준으로 성능을 측정하는 체계적인 평가.
- 무엇이 변경되었는지 파악할 수 있도록 프롬프트, 모델, 데이터의 버전 추적.
- 다양한 프롬프트와 모델을 비교하는 실험.
- 사람의 판단과 어노테이션을 수집하기 위한 피드백 수집.
- LLM의 안전성과 품질을 위해 프로덕션 환경에서 가드레일과 Scorer를 사용하는 모니터링.
에이전트 트레이싱
애플리케이션 트레이싱
- 데이터가 LLM 애플리케이션 전반에서 어떻게 흐르는지 엔드 투 엔드로 추적하세요.
- LLM 피드백을 생성하는 데 사용된 원본 문서를 확인하세요.
- 특정 프롬프트와 답변이 생성되는 방식을 자세히 살펴보세요.
평가
- 어떤 모델 및 프롬프트 버전이 어떤 성능으로 이어졌는지 추적할 수 있습니다.
- 하나 이상의 scoring function을 사용해 응답을 평가하는 메트릭을 정의합니다.
- 여러 메트릭에 걸쳐 두 개 이상의 서로 다른 평가를 비교합니다. 특정 샘플의 성능 차이도 대조할 수 있습니다.
모든 요소를 버전 관리하세요
프롬프트와 모델 실험하기
피드백 수집
프로덕션 모니터링
Weave 시작하기
- https://wandb.ai/site에서 W&B 계정을 만들고, https://wandb.ai/authorize에서 API 키를 발급받습니다.
- Weave를 설치합니다:
- 스크립트에서 Weave를 임포트하고 프로젝트를 초기화합니다.
<your-team>은 담당 W&B 팀 이름으로,<your-project>는 W&B 프로젝트 이름으로 바꾸세요.