メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt

Use this file to discover all available pages before exploring further.

Pricing

料金は、Inference、トレーニング、ストレージの 3 つの要素で構成されています。具体的な課金率については、pricing pageをご覧ください。

Inference

Serverless RL の Inference リクエストの価格は、Serverless Inference の価格と同じです。詳しくは、モデル固有のコストを参照してください。クレジットの購入方法、アカウントティア、利用上限について詳しくは、Serverless Inference ドキュメントを参照してください。

トレーニング

各トレーニングステップで、Serverless RL は、エージェントの output と関連する報酬 (報酬関数で計算) を含む軌跡のバッチを収集します。Serverless RL は、このバッチ化された軌跡を使用して、タスクに合わせて base model を特化する LoRA アダプターの重みを更新します。これらの LoRA アダプターを更新するトレーニング ジョブは、Serverless RL が管理する専用の GPU クラスター上で実行されます。 パブリックプレビュー期間中、トレーニングは無料です。

モデル ストレージ

Serverless RL は、トレーニングした LoRA アダプターのチェックポイントを保存するため、いつでもそれらを評価、サーブ、またはトレーニングの再開を行えます。W&B では、チェックポイントの合計サイズとご利用の 料金プラン に応じて、ストレージ料金が毎月請求されます。各プランには少なくとも 5GB の無料ストレージが含まれており、これはおよそ 30 個の LoRA アダプターに相当します。容量を節約するには、性能の低い LoRA アダプターを削除してください。手順については、ART SDK をご覧ください。

制限

  • Inference の同時実行制限: デフォルトでは、Serverless RL は現在、ユーザーごとに最大 2000 件、project ごとに最大 6000 件の同時リクエストをサポートしています。レート制限を超えると、Inference API は 429 Concurrency limit reached for requests レスポンスを返します。このエラーを回避するには、トレーニング ジョブまたは本番ワークロードから同時に送信するリクエスト数を減らしてください。より高いレート制限が必要な場合は、support@wandb.com で申請できます。
  • 地理的制限: Serverless RL は、サポート対象の地域でのみ利用できます。詳細は、Terms of Serviceを参照してください。