Serverless SFT

現在パブリックプレビュー中の Serverless SFT は、厳選されたデータセットに対する教師あり学習を用いて、開発者が LLM をファインチューニングできるようにします。W&B は、環境のセットアップに完全な柔軟性を持たせながら、トレーニング用インフラストラクチャー (CoreWeave 上) をプロビジョニングします。Serverless SFT を使うと、トレーニングワークロードに応じて柔軟に自動スケールするマネージドなトレーニング cluster に即座にアクセスできます。 Serverless SFT は、次のようなタスクに最適です。

蒸留: より大規模で高性能なモデルの知識を、より小型で高速なモデルに移すこと
出力スタイルと形式の学習: 特定の応答形式、トーン、または構造に従うようモデルをトレーニングすること
RL 前のウォームアップ: さらに改善するために強化学習を適用する前に、教師ありの例でモデルを事前トレーニングすること

Serverless SFT は、特定のタスク向けにモデルを特化させるため、低ランクアダプター (LoRA) をトレーニングします。トレーニングした LoRA は自動的に W&B アカウントに Artifacts として保存され、バックアップ用にローカルまたはサードパーティにも保存できます。Serverless SFT を通じてトレーニングしたモデルは、W&B Inference 上にも自動的にホストされます。開始するには、ART の Serverless SFT ドキュメントを参照してください。

なぜ Serverless SFT なのか？

教師ありファインチューニング (SFT) は、厳選された入出力例を使ってモデルを学習させるトレーニング手法です。W&B の Serverless SFT には、次のような利点があります。

トレーニングコストの削減: 多数のユーザーで共有インフラストラクチャーを効率的に利用し、ジョブごとの設定作業を省き、トレーニングしていない間の GPU コストを 0 まで抑えられるため、Serverless SFT はトレーニングコストを大幅に削減します。
トレーニング時間の短縮: 必要なときにすぐトレーニング用インフラストラクチャーをプロビジョニングできるため、Serverless SFT はトレーニングジョブを高速化し、より素早く反復できるようにします。
自動デプロイ: Serverless SFT は、トレーニングしたすべてのチェックポイントを自動的にデプロイするため、ホスティング用インフラストラクチャーを手動で設定する必要がありません。トレーニング済みモデルには、ローカル、ステージング、本番環境ですぐにアクセスしてテストできます。

Serverless SFT における W&B サービスの利用方法

Serverless SFT は、以下の W&B コンポーネントを組み合わせて動作します。

Inference: モデルを実行するため
Models: LoRA アダプターのトレーニング中のパフォーマンスメトリクスをトラッキングするため
Artifacts: LoRA アダプターを保存してバージョン管理するため
Weave (optional): トレーニングループの各 step でモデルがどのように応答するかを可観測化するため

Serverless SFT は現在パブリックプレビュー中です。プレビュー期間中に課金されるのは、Inference の使用と Artifacts の storage のみです。W&B は、プレビュー期間中のアダプターのトレーニングについては課金しません。

Serverless RL

API Reference

Serverless SFT

なぜ Serverless SFT なのか？

Serverless SFT における W&B サービスの利用方法

Serverless RL

Serverless SFT

API Reference

​なぜ Serverless SFT なのか？

​Serverless SFT における W&B サービスの利用方法

なぜ Serverless SFT なのか？

Serverless SFT における W&B サービスの利用方法