이 문서는 대화형 노트북입니다. 로컬에서 실행하거나 아래 링크를 사용할 수 있습니다:
리더보드 퀵스타트
- 가상의 우편번호 데이터셋을 생성합니다.
- 몇 가지 점수화 함수를 작성하고 기준선 모델을 평가합니다.
- 이러한 기법을 사용해 모델과 평가 조합의 매트릭스를 평가합니다.
- Weave UI에서 리더보드를 검토합니다.
Step 1: 가짜 우편번호 데이터셋 생성
generate_dataset_rows를 만듭니다. 이 합성 데이터셋은 각 모델을 평가할 때 리더보드에 일관된 입력값과 기대값을 제공합니다.
check_concrete_fields: 모델 출력이 예상한 도시와 주에 일치하는지 확인합니다.check_value_fields: 모델 출력이 예상한 인구수와 중위 소득의 10% 이내인지 확인합니다.check_subjective_fields: LLM을 사용해 모델 출력이 예상한 “known for” 필드와 일치하는지 확인합니다.
Step 3: Evaluation 만들기
Evaluation 객체는 데이터셋을 Scorer와 연결하므로, 동일한 벤치마크를 기준으로 어떤 모델이든 실행할 수 있습니다.