wandb.init(), sans que ce processus ait appelé wandb.finish(). Cela se produit lorsque le processus d’entraînement est arrêté de force, se termine de manière inattendue ou perd la connectivité avant de pouvoir signaler une fin propre.
Causes courantes
- Erreur de mémoire insuffisante (OOM) : le processus est tué par le système d’exploitation ou le pilote GPU lorsqu’il dépasse la mémoire disponible. Consultez
output.logpour rechercher les messagesCUDA out of memoryouKilled. - Exception non interceptée : une exception Python non gérée provoque l’arrêt du processus sans appel à
wandb.finish(). L’exception apparaît dansoutput.log. - Préemption par l’ordonnanceur de jobs : avec SLURM ou d’autres ordonnanceurs de cluster, les jobs peuvent être préemptés et arrêtés sans avertissement. Le run n’a alors pas la possibilité de se terminer proprement.
- Perte de réseau : dans de rares cas, une interruption réseau prolongée amène le backend W&B à expirer en attendant les signaux de vie et à marquer le run comme planté, même si le processus est toujours en cours d’exécution.
- Processus tué manuellement : l’utilisation de
kill -9ou deSIGKILLcontourne les gestionnaires de signaux de Python, ce qui empêche l’appel àwandb.finish().
- Dans la barre latérale du projet, cliquez sur Runs.
- Cliquez sur le nom de votre run, puis sur l’onglet Files.
- Téléchargez
output.logpour stdout/stderr. Ce fichier contient généralement l’erreur à l’origine du crash. - Téléchargez
debug.logetdebug-internal.logpour obtenir des diagnostics au niveau de W&B (problèmes de connectivité, erreurs de téléversement). - Si le run a été exécuté sur un cluster, vérifiez également le journal du job de l’ordonnanceur pour repérer une préemption ou des signaux OOM.
wandb sync. Remplacez [TIMESTAMP] et [ID] par les valeurs de votre run :
wandb.init() en tant que gestionnaire de contexte afin que le run se termine proprement lorsque votre script lève une exception. Le run est marqué comme Failed (plutôt que Crashed) et les données en mémoire tampon sont vidées :
Runs Crashs de runs