- 蒸留: より大規模で高性能なモデルの知識を、より小型で高速なモデルに移すこと
- 出力スタイルと形式の学習: 特定の応答形式、トーン、または構造に従うようモデルをトレーニングすること
- RL 前のウォームアップ: さらに改善するために強化学習を適用する前に、教師ありの例でモデルを事前トレーニングすること
なぜ Serverless SFT なのか?
- トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを効率的に利用し、ジョブごとの設定作業を省き、トレーニングしていない間の GPU コストを 0 まで抑えられるため、Serverless SFT はトレーニングコストを大幅に削減します。
- トレーニング時間の短縮: 必要なときにすぐトレーニング用インフラストラクチャーをプロビジョニングできるため、Serverless SFT はトレーニングジョブを高速化し、より素早く反復できるようにします。
- 自動デプロイ: Serverless SFT は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番環境ですぐにアクセスしてテストできます。
Serverless SFT における W&B サービスの利用方法
- Inference: モデルを実行するため
- Models: LoRA アダプターのトレーニング中のパフォーマンスメトリクスをトラッキングするため
- Artifacts: LoRA アダプターを保存してバージョン管理するため
- Weave (optional): トレーニングループの各 step でモデルがどのように応答するかを可観測化するため