Serverless SFT を使用すると、厳選されたデータセットに対する教師あり学習で LLM をファインチューニングできます。Serverless SFT は現在パブリックプレビューです。W&B は、環境設定の自由度を維持しながら、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。必要に応じて自動的にスケールするマネージド トレーニング クラスターに、すぐにアクセスできます。 Serverless SFT は、次のようなタスクに最適です。Documentation Index
Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt
Use this file to discover all available pages before exploring further.
- 蒸留: より大規模で高性能なモデルの知識を、より小型で高速なモデルに移すこと
- 出力スタイルと形式の学習: 特定のレスポンス形式、トーン、または構造に従うようモデルをトレーニングすること
- RL 前のウォームアップ: 強化学習を適用してさらに改善する前に、教師ありのサンプルでモデルを事前トレーニングすること
なぜ Serverless SFT なのか?
- トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを多重利用し、各ジョブの設定プロセスを省略し、トレーニングしていない間は GPU コストを 0 までスケールダウンできるため、Serverless SFT はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 必要なときにトレーニング用インフラストラクチャーを即座にプロビジョニングすることで、Serverless SFT はトレーニングジョブを高速化し、より素早く反復できるようにします。
- 自動デプロイ: Serverless SFT は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番の各環境からすぐにアクセスしてテストできます。
Serverless SFT における W&B サービスの利用方法
- Inference: モデルを実行するため
- Models: LoRA アダプターのトレーニング中にパフォーマンス メトリクスをトラッキングするため
- Artifacts: LoRA アダプターを保存し、バージョン管理するため
- Weave (optional): トレーニング ループの各ステップでモデルがどのように応答するかを観測するため