메인 콘텐츠로 건너뛰기

Documentation Index

Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt

Use this file to discover all available pages before exploring further.

가격

가격은 Inference, 트레이닝, 저장소의 세 가지 컴포넌트로 구성됩니다. 자세한 청구 요율은 가격 페이지에서 확인하세요.

추론

Serverless RL 추론 요청에는 Serverless Inference와 동일한 가격이 적용됩니다. 자세한 내용은 모델별 비용을 참조하세요. 크레딧 구매, 계정 등급, 사용 한도에 대한 자세한 내용은 Serverless Inference 문서를 참조하세요.

트레이닝

각 트레이닝 단계에서 Serverless RL은 에이전트의 출력과 관련 보상(보상 함수로 계산됨)이 포함된 트래젝토리 배치를 수집합니다. Serverless RL은 이렇게 배치된 트래젝토리를 사용해 작업에 맞게 기본 모델을 특화하는 LoRA 어댑터의 가중치를 업데이트합니다. 이러한 LoRA를 업데이트하는 트레이닝 작업은 Serverless RL이 관리하는 전용 GPU 클러스터에서 실행됩니다. 공개 프리뷰 기간에는 트레이닝을 무료로 사용할 수 있습니다.

모델 저장소

Serverless RL은 학습된 LoRA의 체크포인트를 저장하므로, 언제든지 이를 평가하거나 서빙하거나 트레이닝을 계속할 수 있습니다. W&B는 총 체크포인트 크기와 가격 플랜에 따라 저장소 비용을 매월 청구합니다. 모든 플랜에는 최소 5GB의 무료 저장소가 포함되며, 이는 대략 LoRA 30개를 저장하기에 충분합니다. 공간을 절약하려면 성능이 낮은 LoRA를 삭제하세요. 자세한 지침은 ART SDK를 참조하세요.

제한 사항

  • Inference 동시성 제한: 기본적으로 Serverless RL은 현재 사용자당 최대 2000개의 동시 요청, 프로젝트당 최대 6000개의 동시 요청을 지원합니다. 요청 속도 제한을 초과하면 Inference API는 429 Concurrency limit reached for requests 응답을 반환합니다. 이 오류를 방지하려면 트레이닝 작업 또는 프로덕션 워크로드가 한 번에 보내는 동시 요청 수를 줄이세요. 더 높은 요청 속도 제한이 필요하면 support@wandb.com으로 요청하실 수 있습니다.
  • 지리적 제한: Serverless RL은 지원되는 지리적 위치에서만 사용 가능합니다. 자세한 내용은 Terms of Service를 참조하세요.