- Blocage au début de l’entraînement : le multiprocessing de W&B peut interférer avec celui des frameworks d’entraînement distribué.
- Blocage à la fin de l’entraînement : le processus W&B ne détecte pas à quel moment il doit s’arrêter.
Corriger les blocages au démarrage
0.13.0 et les versions ultérieures. Si vous utilisez une version antérieure, mettez à niveau votre SDK :
0.12.5 à 0.12.x du SDK W&B, activez explicitement W&B Service :
0.12.4 et les versions antérieures, définissez la variable d’environnement WANDB_START_METHOD :
Corriger le blocage en fin de run
wandb.finish() à la fin de votre script d’entraînement pour indiquer à W&B que le run est terminé :
Experiments Run Crashes