Serverless RL を使用すると、新しい振る舞いを学習する LLM を事後トレーニングでき、マルチターンのエージェント型タスクを実行する際の信頼性、速度、コストを改善できます。Serverless RL は現在パブリックプレビュー中です。W&B は、環境設定の柔軟性を損なうことなく、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。数十台の GPU まで弾力的に自動スケールするマネージドトレーニングクラスターに、すぐにアクセスできます。Serverless RL は RL ワークフローを推論フェーズとトレーニングフェーズに分割し、それらを複数のジョブにまたがって多重化することで、GPU 使用率を高め、トレーニング時間とコストを削減します。 Serverless RL は、次のようなタスクに最適です。Documentation Index
Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt
Use this file to discover all available pages before exploring further.
- 音声エージェント
- ディープリサーチアシスタント
- オンプレミスモデル
- コンテンツマーケティング分析エージェント
なぜ Serverless RL なのか?
- トレーニングコストの削減: 多数のユーザー間で共有インフラストラクチャーを多重利用し、各ジョブごとの設定作業を省き、トレーニングしていない間の GPU コストを 0 まで抑えることで、Serverless RL はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 推論リクエストを複数の GPU に分散し、必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless RL はトレーニングジョブを高速化し、よりすばやく反復できるようにします。
- 自動デプロイ: Serverless RL は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティングインフラストラクチャーを手動で設定する必要はありません。トレーニング済みモデルには、ローカル、ステージング、本番の各環境ですぐにアクセスしてテストできます。
Serverless RL における W&B サービスの使用方法
- Inference: モデルを実行するため
- Models: LoRA アダプターのトレーニング中にパフォーマンス メトリクスをトラッキングするため
- Artifacts: LoRA アダプターを保存してバージョン管理するため
- Weave (optional): トレーニング ループの各ステップでモデルがどのように応答するかを可観測化するため