Serverless RL을 사용하면 여러 턴의 에이전트 작업을 수행할 때 새로운 동작을 학습하고 신뢰성, 속도, 비용 효율을 개선하는 LLM을 포스트 트레이닝할 수 있습니다. Serverless RL은 현재 공개 프리뷰로 제공되고 있습니다. W&B는 환경 설정의 전체 유연성은 유지하면서 트레이닝 인프라(on CoreWeave)를 프로비저닝해 드립니다. 즉시 액세스할 수 있는 관리형 트레이닝 클러스터는 수십 개의 GPU까지 탄력적으로 자동 확장됩니다. Serverless RL은 RL 워크플로를 추론 단계와 트레이닝 단계로 분리하고, 이를 여러 작업에 멀티플렉싱해 GPU 사용량을 높이고 트레이닝 시간과 비용을 줄입니다. Serverless RL은 다음과 같은 작업에 적합합니다:Documentation Index
Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt
Use this file to discover all available pages before exploring further.
- 음성 에이전트
- 딥 리서치 어시스턴트
- 온프레미스 모델
- 콘텐츠 마케팅 분석 에이전트
왜 Serverless RL인가요?
- 더 낮은 트레이닝 비용: Serverless RL은 여러 사용자에게 공유 인프라를 다중화해 활용하고, 각 작업마다 설정 과정을 반복하지 않으며, 실제로 트레이닝하지 않을 때는 GPU 비용을 0까지 낮춰 트레이닝 비용을 크게 절감합니다.
- 더 빠른 트레이닝 시간: Serverless RL은 추론 요청을 여러 GPU에 분산하고 필요할 때 즉시 트레이닝 인프라를 프로비저닝하여 트레이닝 작업을 더 빠르게 실행하고 반복 주기를 단축할 수 있게 합니다.
- 자동 배포: Serverless RL은 트레이닝한 모든 체크포인트를 자동으로 배포하므로 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 로컬, 스테이징, 프로덕션 환경에서 트레이닝된 모델에 즉시 액세스해 테스트할 수 있습니다.
Serverless RL이 W&B 서비스를 사용하는 방법
- Inference: 모델을 실행합니다
- Models: LoRA 어댑터의 트레이닝 중 성능 메트릭을 추적합니다
- Artifacts: LoRA 어댑터를 저장하고 버전을 관리합니다
- Weave (선택): 트레이닝 루프의 각 단계에서 모델이 어떻게 응답하는지 관찰할 수 있습니다