Skip to main content
この記事では、分散トレーニング ジョブなど、複数のプロセスにまたがるトレーニングプログラムで W&B を使用し、競合を起こさずに Runs を正しくログする方法を説明します。 トレーニングプログラムで複数のプロセスを使用する場合は、wandb.init() を実行していないプロセスから W&B の method を呼び出さないようにプログラムを構成してください。 マルチプロセスのトレーニングは、次の方法で管理できます。
  • すべてのプロセスで wandb.init() を呼び出し、group キーワード引数を使用して共有グループを作成します。各プロセスはそれぞれ独自の W&B run を持ち、UI ではそれらのトレーニングプロセスがグループ化されて表示されます。
  • 1 つのプロセスでのみ wandb.init() を呼び出し、ログするデータを multiprocessing queues 経由で渡します。
これらの方法の詳細な説明については、Torch DDP を使ったコード例を含む Log distributed training experiments を参照してください。

Experiments