Skip to main content
Cet article explique comment utiliser W&B dans des programmes d’entraînement qui s’exécutent sur plusieurs processus, comme les tâches d’entraînement distribué, afin que les runs soient correctement enregistrés sans conflit. Si un programme d’entraînement utilise plusieurs processus, structurez-le de façon à éviter d’appeler des méthodes W&B depuis des processus qui n’ont pas exécuté wandb.init(). Choisissez l’une des approches suivantes pour gérer l’entraînement multiprocessus :
  • Appelez wandb.init() dans tous les processus et utilisez l’argument mot-clé group pour créer un groupe partagé. Chaque processus a son propre run W&B, et l’interface utilisateur regroupe les processus d’entraînement.
  • Appelez wandb.init() dans un seul processus et transmettez les données à journaliser via des files d’attente multiprocessing.
Consultez Journaliser les expériences d’entraînement distribué pour des explications détaillées de ces approches, y compris des exemples de code avec Torch DDP.

Experiments