- 음성 에이전트
- 심층 연구(research) 어시스턴트
- 온프레미스(on-prem) 모델
- 콘텐츠 마케팅 분석(analysis) 에이전트
왜 Serverless RL인가요?
강화학습(RL)은 직접 소유하거나 대여한 GPU를 포함하여 다양한 트레이닝 설정에서 사용할 수 있는 강력한 트레이닝 기법 모음입니다. Serverless RL은 RL 사후 트레이닝에서 다음과 같은 장점을 제공합니다:- 트레이닝 비용 절감: 여러 사용자 간에 공유 인프라를 멀티플렉싱하고, 각 작업에 대한 설정 프로세스를 생략하며, 트레이닝을 하지 않을 때는 GPU 비용을 0으로 줄임으로써 Serverless RL은 트레이닝 비용을 획기적으로 낮춥니다.
- 더 빠른 트레이닝 시간: 추론 요청을 여러 GPU에 분산하고 필요할 때 트레이닝 인프라를 즉시 프로비저닝함으로써, Serverless RL은 트레이닝 작업 속도를 높이고 더 빠른 반복(iterate)을 가능하게 합니다.
- 자동 배포: Serverless RL은 트레이닝된 모든 체크포인트를 자동으로 배포하므로 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 트레이닝된 모델은 로컬, 스테이징 또는 프로덕션 환경에서 즉시 엑세스하고 테스트할 수 있습니다.
Serverless RL의 W&B 서비스 활용 방식
Serverless RL은 운영을 위해 다음과 같은 W&B 구성 요소들을 조합하여 사용합니다:- Inference: 모델 실행
- Models: LoRA 어댑터 트레이닝 중 성능 메트릭(metrics) 추적
- Artifacts: LoRA 어댑터 저장 및 버전 관리
- Weave (선택 사항): 트레이닝 루프의 각 단계에서 모델이 어떻게 응답하는지에 대한 관찰 가능성(observability) 확보