メインコンテンツへスキップ

Pricing

Pricing は、推論、トレーニング、ストレージの 3 つの要素で構成されます。具体的な請求レートについては、pricing ページを参照してください。

推論

Serverless RL の推論リクエストの料金は、W&B Inference の料金と同じです。詳細は、モデル別の料金を参照してください。クレジットの購入、アカウントティア、利用上限について詳しくは、W&B Inference ドキュメントを参照してください。

トレーニング

各トレーニングstepで、Serverless RL は、エージェントの出力とそれに対応する報酬 (報酬関数によって計算) を含む軌跡のバッチを収集します。次に、このバッチ化された軌跡を使用して、タスクに特化したベースモデル用の LoRA アダプターの重みを更新します。これらの LoRA を更新するトレーニングジョブは、Serverless RL が管理する専用の GPU クラスター上で実行されます。 トレーニングは、パブリックプレビュー期間中は無料です。

モデル ストレージ

Serverless RL は、トレーニング済み LoRA のチェックポイントを保存するため、いつでもそれらを評価、サーブ、またはトレーニングを再開できます。ストレージ料金は、チェックポイントの合計サイズと 料金プラン に応じて毎月請求されます。どのプランにも少なくとも 5GB の無料ストレージが含まれており、LoRA 約 30 個分に相当します。容量を節約するため、パフォーマンスの低い LoRA は削除することをおすすめします。削除方法については、ART SDK を参照してください。

制限

  • 推論 の同時実行制限: デフォルトでは、Serverless RL は現在、ユーザーごとに最大 2000 件、プロジェクトごとに最大 6000 件の同時リクエストをサポートしています。レート制限を超えると、推論 API は 429 Concurrency limit reached for requests レスポンスを返します。このエラーを回避するには、トレーニングジョブまたは本番ワークロードから一度に送信する同時リクエスト数を減らしてください。より高いレート制限が必要な場合は、support@wandb.com に依頼できます。
  • 地理的制限: Serverless RL は、サポートされる地域でのみ利用できます。詳細は、Terms of Serviceを参照してください。