Cuda out of memory が発生する場合は、プロセスベースの実行を使用するようにコードをリファクタリングしてください。コードを Python スクリプトとして書き直し、Python SDK ではなく CLI から sweep エージェントを呼び出します。
-
トレーニング ロジックを Python スクリプト (たとえば
train.py) に追加します。 -
YAML の sweep 設定でそのスクリプトを参照します。
-
CLI で sweep を初期化します。
-
CLI で sweep エージェントを起動します。
[SWEEP-ID]は前の手順で返された ID に置き換えてください。
wandb agent) は、各 run をそれぞれ独立したメモリ割り当てを持つ別個のプロセスとして実行するため、CUDA メモリが run 間で蓄積するのを防げます。Python SDK (wandb.agent) では、このプロセス分離は提供されません。
詳細は, Sweeps のトラブルシューティングを参照してください。
Sweeps run の異常終了