LoRAs で Serverless Inference を使用する理由
- 一度アップロードすれば、サーバーを管理せずにデプロイできます。
- アーティファクト のバージョン管理により、どのバージョンが本番稼働中かをトラッキングできます。
- モデル全体の重みではなく、小さな LoRA ファイルを差し替えるだけで、モデルを更新できます。
ワークフロー
- LoRA アダプター の重みを W&B アーティファクトとしてアップロードします
- API で、モデル名としてアーティファクト URI を指定します
- W&B が推論時に重みを動的に読み込みます
前提条件
LoRA アダプター を追加して使用する
- 別の環境でトレーニングした LoRA アダプター をアップロードする
- W&B で新しい LoRA アダプター をトレーニングする
独自のカスタム LoRA アダプター ディレクトリを W&B アーティファクト としてアップロードします。LoRA アダプター を別の環境 (ローカル環境、cloud provider、またはパートナーサービス) でトレーニングした場合は、この方法を使用します。この Python コードは、ローカルに保存された LoRA アダプター の重みを、バージョン管理された アーティファクト として W&B にアップロードします。必要なメタデータ (ベースモデル と storage region) を含む
lora タイプの アーティファクト を作成し、ローカルディレクトリから LoRA アダプター ファイルを追加して、推論で使用できるよう W&B のプロジェクトにログします。主な要件
独自の LoRA アダプター を Inference で使用するには、次の点を満たしていることを確認してください。- LoRA アダプター は、サポートされているベースモデル section に記載されているモデルのいずれかを使用してトレーニングされている必要があります。
- LoRA アダプター は、W&B アカウント内に
loraタイプの アーティファクト として PEFT 形式で保存されている必要があります。 - 低レイテンシを実現するため、LoRA アダプター は
storage_region="coreweave-us"に保存されている必要があります。 - アップロード時には、トレーニングに使用した ベースモデル の名 (たとえば
meta-llama/Llama-3.1-8B-Instruct) を含めてください。これにより、W&B は適切なモデルで読み込めます。
サポートされているベースモデル
wandb.base_model を設定する際は、正確なモデル ID の string を使用してください。これにより、W&B は推論時にアダプターを正しいベースモデルと対応付けることができます。
| モデル ID (API 用) | 最大 LoRA ランク |
|---|---|
meta-llama/Llama-3.1-70B-Instruct | 16 |
meta-llama/Llama-3.1-8B-Instruct | 16 |
openai/gpt-oss-120b | 64 |
OpenPipe/Qwen3-14B-Instruct | 16 |
Qwen/Qwen3.6-27B | 16 |
Qwen/Qwen3-30B-A3B-Instruct-2507 | 16 |