Serverless RL

現在パブリックプレビュー中の Serverless RL は、開発者が LLM をポストトレーニングして新しい振る舞いを学習させ、マルチターンのエージェントタスクの実行における信頼性向上、速度向上、コスト削減を実現できるよう支援します。W&B は、環境設定の自由度を保ちながら、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。Serverless RL を使うと、数十台の GPU まで弾力的に自動スケールするマネージドトレーニングクラスターをすぐに利用できます。RL ワークフローを推論フェーズとトレーニングフェーズに分け、それらを複数のジョブにまたがって多重化することで、Serverless RL は GPU 使用率を高め、トレーニング時間とコストを削減します。 Serverless RL は、次のようなタスクに最適です。

音声エージェント
ディープリサーチアシスタント
オンプレミスモデル
コンテンツマーケティング分析エージェント

Serverless RL は、エージェントの特定タスク向けにモデルを特化させるため、低ランクアダプター (LoRA) をトレーニングします。これにより、元のモデルの能力を実運用での経験によって拡張できます。トレーニングした LoRA は自動的に W&B アカウント内に Artifacts として保存され、バックアップ用にローカルまたはサードパーティにも保存できます。Serverless RL でトレーニングしたモデルは、W&B Inference 上でも自動的にホストされます。開始するには、ART のクイックスタートまたは Google Colab ノートブックを参照してください。

なぜ Serverless RL なのか？

強化学習 (RL) は強力なトレーニング手法の総称であり、自前で所有または直接レンタルした GPU を使う場合を含め、さまざまなトレーニング構成で使用できます。Serverless RL には、RL のポストトレーニングにおいて次のような利点があります。

トレーニングコストの削減: 共有インフラストラクチャーを多くのユーザーで多重利用し、ジョブごとのセットアップを省略し、トレーニングしていない間の GPU コストを 0 まで抑えることで、Serverless RL はトレーニングコストを大幅に削減します。
トレーニング時間の短縮: 推論リクエストを複数の GPU に分散し、必要なときにすぐトレーニング用インフラストラクチャーをプロビジョニングすることで、Serverless RL はトレーニングジョブを高速化し、より素早い反復を可能にします。
自動デプロイ: Serverless RL は、トレーニングしたすべての checkpoint を自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番環境ですぐにアクセスしてテストできます。

Serverless RL での W&B サービスの使用方法

Serverless RL は、動作にあたって以下の W&B コンポーネントを組み合わせて使用します。

Inference: モデルを実行するため
Models: LoRA アダプターのトレーニング中にパフォーマンスメトリクスをトラッキングするため
Artifacts: LoRA アダプターを保存し、バージョン管理するため
Weave (オプション) : トレーニングループの各 step でモデルがどのように応答するかを把握するため

Serverless RL は現在パブリックプレビュー中です。プレビュー期間中は、Inference の使用分と Artifacts の保存分に対してのみ課金されます。W&B は、プレビュー期間中のアダプターのトレーニングについては課金しません。

Serverless SFT

API Reference

Serverless RL

なぜ Serverless RL なのか？

Serverless RL での W&B サービスの使用方法

Serverless RL

Serverless SFT

API Reference

​なぜ Serverless RL なのか？

​Serverless RL での W&B サービスの使用方法

なぜ Serverless RL なのか？

Serverless RL での W&B サービスの使用方法