使用状況と制限

Pricing

Pricing は、推論、トレーニング、ストレージの 3 つの要素で構成されます。具体的な請求レートについては、pricing ページを参照してください。

推論

Serverless RL の推論リクエストの料金は、W&B Inference の料金と同じです。詳細は、モデル別の料金を参照してください。クレジットの購入、アカウントティア、利用上限について詳しくは、W&B Inference ドキュメントを参照してください。

トレーニング

各トレーニングstepで、Serverless RL は、エージェントの出力とそれに対応する報酬 (報酬関数によって計算) を含む軌跡のバッチを収集します。Serverless RL は、このバッチ化された軌跡を使用して、タスクに特化したベースモデル用の LoRA アダプターの重みを更新します。これらの LoRA を更新するトレーニングジョブは、Serverless RL が管理する専用の GPU クラスター上で実行されます。トレーニングは、パブリックプレビュー期間中は無料です。

モデルストレージ

Serverless RL は、トレーニング済み LoRA のチェックポイントを保存するため、いつでもそれらを評価、サーブ、またはトレーニングを再開できます。W&B は、チェックポイントの合計サイズと料金プランに応じてストレージ料金を毎月請求します。どのプランにも少なくとも 5GB の無料ストレージが含まれており、LoRA 約 30 個分に相当します。容量を節約するには、パフォーマンスの低い LoRA を削除してください。手順については、ART SDK を参照してください。

制限

推論の同時実行制限: デフォルトでは、Serverless RL は現在、ユーザーごとに最大 2000 件、プロジェクトごとに最大 6000 件の同時リクエストをサポートしています。レート制限を超えると、推論 API は 429 Concurrency limit reached for requests レスポンスを返します。このエラーを回避するには、トレーニングジョブまたは本番ワークロードから一度に送信する同時リクエスト数を減らしてください。より高いレート制限が必要な場合は、support@wandb.com に依頼できます。
地理的制限: Serverless RL は、サポートされる地域でのみ利用できます。詳細は、Terms of Serviceを参照してください。

Serverless RL

Serverless SFT

API リファレンス

Pricing

推論

トレーニング

モデルストレージ

制限

Serverless RL

Serverless SFT

API リファレンス

Documentation Index

​Pricing

​推論

​トレーニング

​モデル ストレージ

​制限

Pricing

推論

トレーニング

モデルストレージ

制限