メインコンテンツへスキップ
現在パブリックプレビュー中の W&B Training では、強化学習 (RL) と教師ありファインチューニング (SFT) の両方に対応した、大規模言語モデル (LLM) 向けのサーバーレスなポストトレーニングを利用できます。
  • Serverless RL: 速度を高めてコストを削減しながら、複数ターンのエージェントタスクを実行する際のモデルの信頼性を向上させます。RL は、モデルが出力に対するフィードバックを通じて振る舞いを改善していくトレーニング手法です。
  • Serverless SFT: 蒸留、出力のスタイルや形式の学習、または RL 前のウォームアップのために、厳選されたデータセットを使ってモデルをファインチューニングします。
W&B Training は、次のものとインテグレーションされています。
  • ART: 柔軟なファインチューニングフレームワーク。
  • RULER: 汎用ベリファイア。
  • CoreWeave Cloud 上のフルマネージドバックエンド。
開始するには、まずサービス利用のための前提条件を満たし、そのうえで Serverless RL クイックスタート または Serverless SFT ドキュメント を参照して、モデルをポストトレーニングする方法を確認してください。