run_id를 전달하거나 wandb.init(resume=...)를 사용하면 W&B는 run ID를 무시하고 대신 새 run을 시작합니다. 다음과 같은 경고가 표시됩니다:
-
단일 run 내에서 checkpoint 저장 및 다시 로드: 트레이닝 함수 내부에서 일정 간격으로 모델 checkpoint를 저장하세요. 다시 시작할 때는
train()시작 부분에서 최신 checkpoint를 로드하세요. 스윕은 새 run을 시작하지만, 트레이닝은 저장된 상태부터 이어집니다. -
SLURM에서 requeue와 함께
--count 1사용: 각 스윕 에이전트 작업을wandb agent --count 1 SWEEP_ID로 제출하세요. 작업이 선점되면 SLURM이 이를 requeue할 수 있고, 스윕 컨트롤러는 새 설정을 부여합니다. - run을 실패로 표시하고 수동으로 requeue: run이 중간에 크래시되면 스윕 컨트롤러가 결국 이를 실패로 표시하고, 스윕 설정에 따라 동일한 설정을 새 에이전트에 부여할 수 있습니다.
wandb.init(resume="allow", id="YOUR_RUN_ID")를 사용하세요. Resume runs 및 Troubleshoot sweeps를 참조하세요.
스윕 재개