Serverless RL - Weights & Biases Documentation

Serverless RL を使用すると、新しい振る舞いを学習する LLM を事後トレーニングでき、マルチターンのエージェント型タスクを実行する際の信頼性、速度、コストを改善できます。Serverless RL は現在パブリックプレビュー中です。W&B は、環境設定の柔軟性を損なうことなく、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。数十台の GPU まで弾力的に自動スケールするマネージドトレーニングクラスターに、すぐにアクセスできます。Serverless RL は RL ワークフローを推論フェーズとトレーニングフェーズに分割し、それらを複数のジョブにまたがって多重化することで、GPU 使用率を高め、トレーニング時間とコストを削減します。 Serverless RL は、次のようなタスクに最適です。

音声エージェント
ディープリサーチアシスタント
オンプレミスモデル
コンテンツマーケティング分析エージェント

Serverless RL は、エージェント固有のタスク向けにモデルを特化させるため、低ランクアダプター (LoRA アダプター) をトレーニングします。これにより、実際のタスク実行で得た経験を通じて、元のモデルの能力を拡張できます。W&B は、トレーニングした LoRA アダプターをアカウント内にアーティファクトとして自動的に保存します。バックアップ用に、ローカルまたはサードパーティにも保存できます。さらに、Serverless Inference は Serverless RL を通じてトレーニングしたモデルも自動的にホストします。使い始めるには、ART のクイックスタートまたは Google Colab ノートブックを参照してください。

なぜ Serverless RL なのか？

強化学習 (RL) は強力なトレーニング手法群であり、自前で所有する GPU や直接レンタルした GPU を含む、さまざまなトレーニング構成で使用できます。Serverless RL には、RL のポストトレーニングにおいて次のような利点があります。

トレーニングコストの削減: 多数のユーザー間で共有インフラストラクチャーを多重利用し、各ジョブごとの設定作業を省き、トレーニングしていない間の GPU コストを 0 まで抑えることで、Serverless RL はトレーニングコストを大幅に削減します。
トレーニング時間の短縮: 推論リクエストを複数の GPU に分散し、必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless RL はトレーニングジョブを高速化し、よりすばやく反復できるようにします。
自動デプロイ: Serverless RL は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティングインフラストラクチャーを手動で設定する必要はありません。トレーニング済みモデルには、ローカル、ステージング、本番の各環境ですぐにアクセスしてテストできます。

Serverless RL における W&B サービスの使用方法

Serverless RL は、以下の W&B コンポーネントを組み合わせて動作します。

Inference: モデルを実行するため
Models: LoRA アダプターのトレーニング中にパフォーマンスメトリクスをトラッキングするため
Artifacts: LoRA アダプターを保存してバージョン管理するため
Weave (optional): トレーニングループの各ステップでモデルがどのように応答するかを可観測化するため

Serverless RL は現在パブリックプレビューです。プレビュー期間中、W&B では Inference の使用量と artifact ストレージに対してのみ課金されます。アダプターのトレーニングについては、プレビュー期間中は課金されません。

Serverless SFT

強化学習に加えて、Serverless SFTを使用すると、厳選したデータセットでモデルをファインチューニングできます。SFT は、蒸留、出力のスタイルや形式の学習、または RL を適用する前のモデルのウォームアップに使用します。

Documentation Index

​なぜ Serverless RL なのか？

​Serverless RL における W&B サービスの使用方法

​Serverless SFT

なぜ Serverless RL なのか？

Serverless RL における W&B サービスの使用方法

Serverless SFT