Pourquoi utiliser Serverless Inference pour les LoRAs
- Téléversez une fois, déployez sans gérer de serveurs.
- Suivez la version en production grâce à la gestion des versions des artifacts.
- Mettez à jour les modèles en remplaçant de petits fichiers LoRA plutôt que l’ensemble des poids du modèle.
Flux de travail
- Téléversez vos poids LoRA en tant qu’artifact W&B.
- Utilisez l’URI de l’artifact comme nom de votre modèle dans l’API.
- W&B charge dynamiquement vos poids pour l’inférence.
Prérequis
- Une clé API W&B.
- Un projet W&B.
- Python 3.8+ avec les paquets
openaietwandb:pip install wandb openai.
Ajouter et utiliser des LoRA
- Téléverser un LoRA entraîné ailleurs
- Entraîner un nouveau LoRA avec W&B
Téléversez votre propre répertoire LoRA personnalisé en tant qu’artifact W&B. Utilisez cette méthode si vous avez entraîné votre LoRA ailleurs (dans un environnement local, chez un fournisseur cloud ou via un service partenaire).Ce code Python téléverse les poids de votre LoRA stockés localement dans W&B en tant qu’artifact versionné. Il crée un artifact de type
lora avec les métadonnées requises (modèle de base et région de stockage), ajoute vos fichiers LoRA depuis un répertoire local, puis l’enregistre dans votre projet W&B pour l’utiliser avec Inférence.Exigences clés
Pour utiliser vos propres LoRA avec Inférence, assurez-vous des points suivants :- Le LoRA doit avoir été entraîné à l’aide de l’un des modèles listés dans la section Modèles de base pris en charge.
- Le LoRA doit être enregistré au format PEFT en tant qu’artifact de type
loradans votre compte W&B. - Le LoRA doit être stocké dans
storage_region="coreweave-us"pour garantir une faible latence. - Lors du téléversement, indiquez le nom du modèle de base sur lequel il a été entraîné (par exemple,
meta-llama/Llama-3.1-8B-Instruct). Cela garantit que W&B peut le charger avec le bon modèle.
Modèles de base pris en charge
wandb.base_model, afin que W&B puisse associer votre adaptateur au bon modèle de base au moment de l’inférence.
| ID du modèle (pour une utilisation via l’API) | Rang LoRA maximal |
|---|---|
meta-llama/Llama-3.1-70B-Instruct | 16 |
meta-llama/Llama-3.1-8B-Instruct | 16 |
openai/gpt-oss-120b | 64 |
OpenPipe/Qwen3-14B-Instruct | 16 |
Qwen/Qwen3.6-27B | 16 |
Qwen/Qwen3-30B-A3B-Instruct-2507 | 16 |
Tarification
- Stockage : le stockage qui contient vos poids LoRA vous est facturé.
- Utilisation de l’inférence : Les appels qui utilisent des Artifacts LoRA sont facturés aux mêmes tarifs que l’inférence de modèle standard.