
시작하기
Verifiers를 Weave와 통합하려면 우선uv를 사용하여 Verifiers 라이브러리를 설치합니다(라이브러리 작성자가 권장하는 방식입니다). 다음 코맨드 중 하나를 사용하여 라이브러리를 설치하세요.
Trace rollout 및 평가
필요한 라이브러리를 설치한 후, Weave와 Verifiers를 함께 사용하여 호출을 추적(trace)하고 평가를 실행할 수 있습니다. 다음 예시 스크립트는 Verifiers로 평가를 실행하고 결과를 Weave에 로그하는 방법을 보여줍니다. 이 스크립트는 GSM8K 데이터셋을 사용하여 수학 문제를 해결하는 LLM의 능력을 테스트합니다. GPT-4에 두 개의 수학 문제를 풀도록 요청하고, 각 응답에서 수치 값을 추출한 다음, Verifiers를 평가 프레임워크로 사용하여 시도를 채점합니다. 예시를 실행하고 Weave에서 결과를 확인해 보세요.실험 추적 및 트레이싱을 통한 모델 파인튜닝
Weave는 트레이닝 중 모델이 어떻게 수행되고 있는지에 대한 통찰력을 제공함으로써 RL 파인튜닝 워크플로우에서 강력한 툴이 될 수 있습니다. W&B와 함께 사용하면 종합적인 가시성을 얻을 수 있습니다. W&B는 트레이닝 메트릭과 성능 차트를 추적하고, Weave는 트레이닝 프로세스 중 각 상호작용의 상세한 추적(trace)을 캡처합니다.verifiers 레포지토리에는 시작을 돕기 위해 즉시 실행 가능한 예시들이 포함되어 있습니다.
다음 RL 트레이닝 파이프라인 예시는 로컬 추론 서버를 실행하고 GSM8K 데이터셋을 사용하여 모델을 트레이닝합니다. 모델은 수학 문제에 대한 답을 내놓고, 트레이닝 루프는 출력을 채점하고 그에 따라 모델을 업데이트합니다. W&B는 손실(loss), 보상(reward), 정확도와 같은 트레이닝 메트릭을 로그하며, Weave는 입력, 출력, 추론 과정 및 채점 결과를 캡처합니다.
이 파이프라인을 사용하려면:
- 소스에서 프레임워크를 설치합니다. 다음 코맨드는 GitHub에서 Verifiers 라이브러리와 필요한 종속성을 설치합니다.
- 기성(off-the-shelf) 환경을 설치합니다. 다음 코맨드는 사전 설정된 GSM8K 트레이닝 환경을 설치합니다.
- 모델을 트레이닝합니다. 다음 코맨드는 각각 추론 서버와 트레이닝 루프를 시작합니다. 이 예시 워크플로우는 기본적으로
report_to=wandb로 설정되어 있으므로wandb.init을 별도로 호출할 필요가 없습니다. W&B에 메트릭을 로그하기 위해 이 머신을 인증하라는 안내가 표시됩니다.
이 예시는 2xH100 환경에서 테스트를 성공적으로 마쳤으며, 안정성을 높이기 위해 다음과 같은 환경 변수를 설정했습니다.이 변수들은 디바이스 메모리 할당을 위한 CUDA 통합 메모리(CuMem)를 비활성화합니다.
Environment.a_generate 및 Rubric.score_rollouts 메소드에 대한 logprobs를 제외합니다. 이는 페이로드 크기를 작게 유지하면서 트레이닝을 위한 원본 데이터는 그대로 보존하기 위함입니다.