Serverless SFT

현재 퍼블릭 프리뷰로 제공되는 Serverless SFT는 개발자가 선별된 데이터셋에 대해 지도 학습을 사용해 LLM을 파인튜닝할 수 있도록 지원합니다. W&B는 사용자를 위해 트레이닝 인프라(CoreWeave 기반)를 프로비저닝하면서도, 환경 설정은 원하는 대로 유연하게 구성할 수 있게 해줍니다. Serverless SFT를 사용하면 트레이닝 워크로드를 처리하도록 탄력적으로 자동 확장되는 관리형 트레이닝 클러스터에 즉시 액세스할 수 있습니다. Serverless SFT는 다음과 같은 작업에 이상적입니다:

Distillation: 더 크고 성능이 뛰어난 모델의 지식을 더 작고 더 빠른 모델로 전달
출력 스타일 및 형식 학습: 특정 응답 형식, 톤 또는 구조를 따르도록 모델을 트레이닝
RL 이전 워밍업: 이후 추가 개선을 위해 강화 학습을 적용하기 전에 지도 예제로 모델을 사전 트레이닝

Serverless SFT는 특정 작업에 맞게 모델을 특화하기 위해 저랭크 어댑터(LoRA)를 트레이닝합니다. 트레이닝한 LoRA는 자동으로 W&B 계정의 아티팩트에 저장되며, 백업을 위해 로컬 또는 서드파티에 저장할 수 있습니다. Serverless SFT를 통해 트레이닝한 모델은 W&B Inference에도 자동으로 호스팅됩니다. 시작하려면 ART Serverless SFT 문서를 참조하세요.

왜 Serverless SFT를 사용하나요?

지도 파인튜닝(SFT)은 모델이 선별된 입력-출력 예제를 바탕으로 학습하는 트레이닝 기법입니다. W&B의 Serverless SFT는 다음과 같은 장점을 제공합니다.

더 낮은 트레이닝 비용: 여러 사용자에게 공유 인프라를 다중화해 활용하고, 각 작업마다 설정 과정을 건너뛰며, 실제로 트레이닝하지 않을 때는 GPU 비용을 0까지 줄일 수 있으므로, Serverless SFT는 트레이닝 비용을 크게 낮춰 줍니다.
더 빠른 트레이닝 시간: 필요할 때 즉시 트레이닝 인프라를 프로비저닝하므로, Serverless SFT는 트레이닝 작업을 더 빠르게 실행하고 더 신속하게 반복 개선할 수 있게 해줍니다.
자동 배포: Serverless SFT는 트레이닝한 모든 checkpoint를 자동으로 배포하므로, 호스팅 인프라를 수동으로 설정할 필요가 없습니다. 트레이닝된 모델은 로컬, 스테이징, 또는 프로덕션 환경에서 즉시 액세스하고 테스트할 수 있습니다.

Serverless SFT가 W&B 서비스를 사용하는 방법

Serverless SFT는 다음 W&B 컴포넌트를 함께 사용해 동작합니다:

Inference: 모델을 실행합니다
Models: LoRA 어댑터의 트레이닝 중 성능 메트릭을 추적합니다
Artifacts: LoRA 어댑터를 저장하고 버전을 관리합니다
Weave (선택): 트레이닝 루프의 각 step에서 모델이 어떻게 응답하는지 관측할 수 있습니다

Serverless SFT는 퍼블릭 프리뷰 상태입니다. 프리뷰 기간에는 Inference 사용과 artifact 저장에 대해서만 요금이 청구됩니다. W&B는 프리뷰 기간 동안 어댑터 트레이닝에 대해서는 요금을 청구하지 않습니다.

Serverless RL

API Reference

Serverless SFT

왜 Serverless SFT를 사용하나요?

Serverless SFT가 W&B 서비스를 사용하는 방법

Serverless RL

Serverless SFT

API Reference

​왜 Serverless SFT를 사용하나요?

​Serverless SFT가 W&B 서비스를 사용하는 방법

왜 Serverless SFT를 사용하나요?

Serverless SFT가 W&B 서비스를 사용하는 방법