run_id ou utilisez wandb.init(resume=...) pendant l’exécution d’un agent de balayage, W&B ignore l’ID du run et démarre à la place un nouveau run. Vous verrez l’avertissement suivant :
-
Créer des points de contrôle et les recharger dans un seul run : enregistrez des points de contrôle du modèle à intervalles réguliers dans votre fonction d’entraînement. Au redémarrage, chargez le point de contrôle le plus récent au début de
train(). Le sweep démarre un nouveau run, mais l’entraînement reprend à partir de l’état enregistré. -
Utiliser
--count 1sur SLURM avec remise en file d’attente : soumettez chaque tâche d’agent de sweep avecwandb agent --count 1 SWEEP_ID. Si la tâche est préemptée, SLURM peut la remettre en file d’attente et le contrôleur du sweep attribuera une nouvelle configuration. - Marquer un run comme échoué et le remettre manuellement en file d’attente : si un run plante en cours d’exécution, le contrôleur du sweep finira par le marquer comme échoué et pourra attribuer la même configuration à un nouvel agent, selon les paramètres de votre sweep.
wandb.init(resume="allow", id="YOUR_RUN_ID") dans un script autonome. Voir Reprendre des runs et Résoudre les problèmes de sweeps.
Sweeps Reprise