Skip to main content
이 문서에서는 분산 트레이닝 작업과 같이 여러 프로세스에 걸쳐 실행되는 트레이닝 프로그램에서 충돌 없이 run이 올바르게 로깅되도록 W&B를 사용하는 방법을 설명합니다. 트레이닝 프로그램이 여러 프로세스를 사용하는 경우, wandb.init()를 호출하지 않은 프로세스에서 W&B 메서드를 호출하지 않도록 프로그램을 구성하세요. 다음 방법 중 하나를 선택해 멀티프로세스 트레이닝을 관리하세요:
  • 모든 프로세스에서 wandb.init()를 호출하고 group 키워드 인수를 사용해 공유 그룹을 만듭니다. 각 프로세스는 자체 W&B run을 가지며, UI에서 이 트레이닝 프로세스들이 함께 그룹화됩니다.
  • 하나의 프로세스에서만 wandb.init()를 호출하고, 로그할 데이터는 multiprocessing queues를 통해 전달합니다.
Torch DDP 코드 예제를 포함한 이러한 방법의 자세한 설명은 Log distributed training experiments를 참고하세요.

Experiments