W&B Training - Weights & Biases Documentation

現在パブリックプレビュー中の W&B Training では、強化学習 (RL) と教師ありファインチューニング (SFT) の両方に対応した、大規模言語モデル (LLM) 向けのサーバーレスなポストトレーニングを利用できます。

Serverless RL: 速度を高めてコストを削減しながら、複数ターンのエージェントタスクを実行する際のモデルの信頼性を向上させます。RL は、モデルが出力に対するフィードバックを通じて振る舞いを改善していくトレーニング手法です。
Serverless SFT: 蒸留、出力のスタイルや形式の学習、または RL 前のウォームアップのために、厳選されたデータセットを使ってモデルをファインチューニングします。

W&B Training は、次のものとインテグレーションされています。

ART: 柔軟なファインチューニングフレームワーク。
RULER: 汎用ベリファイア。
CoreWeave Cloud 上のフルマネージドバックエンド。

開始するには、まずサービス利用のための前提条件を満たし、そのうえで Serverless RL クイックスタートまたは Serverless SFT ドキュメントを参照して、モデルをポストトレーニングする方法を確認してください。

⌘I