LoRAs で W&B Inference を使用する理由
- 一度アップロードすれば、すぐにデプロイできます。サーバー管理は不要です。
- アーティファクト のバージョン管理により、どのバージョンが本番稼働中かを正確にトラッキングできます。
- モデル全体の重みではなく、小さな LoRA ファイルを差し替えるだけで、数秒でモデルを更新できます。
ワークフロー
- LoRA の重みを W&B アーティファクトとしてアップロードします
- API で、モデル名としてアーティファクト URI を指定します
- W&B が推論時に重みを動的に読み込みます
前提条件
LoRA を追加して使用する方法
- 別の環境でトレーニングした LoRA をアップロードする
- W&B で新しい LoRA をトレーニングする
独自のカスタム LoRA ディレクトリを W&B アーティファクト としてアップロードします。これは、LoRA を別の環境 (ローカル環境、cloud provider、またはパートナーサービス) でトレーニングした場合に最適です。この Python コードは、ローカルに保存された LoRA の重みを、バージョン管理された アーティファクト として W&B にアップロードします。必要なメタデータ (ベースモデル と storage region) を含む
lora タイプの アーティファクト を作成し、ローカルディレクトリから LoRA ファイルを追加して、推論で使用できるよう W&B プロジェクトにログします。主な要件
独自の LoRA を Inference で使用するには:- LoRA は、Supported Base Models section に記載されているモデルのいずれかを使用してトレーニングされている必要があります。
- LoRA は、W&B アカウント内に
loraタイプの アーティファクト として PEFT 形式で保存されている必要があります。 - 低レイテンシを実現するため、LoRA は
storage_region="coreweave-us"に保存されている必要があります。 - アップロード時には、トレーニングに使用した ベースモデル の名 (たとえば
meta-llama/Llama-3.1-8B-Instruct) を含めてください。これにより、W&B は適切なモデルで読み込めます。
サポートされているベースモデル
wandb.base_model には以下の文字列を正確に使用してください) 。今後さらに多くのモデルに対応予定です。
| モデル ID (API 用) | 最大 LoRA ランク |
|---|---|
meta-llama/Llama-3.1-70B-Instruct | 16 |
meta-llama/Llama-3.1-8B-Instruct | 16 |
openai/gpt-oss-120b | 64 |
OpenPipe/Qwen3-14B-Instruct | 16 |
Qwen/Qwen3-30B-A3B-Instruct-2507 | 16 |