Stable Baselines 3 PyTorch

Stable Baselines 3 (SB3)는 PyTorch로 구현된 신뢰할 수 있는 강화 학습 알고리즘 모음입니다. W&B SB3 인테그레이션은 다음을 지원합니다:

loss 및 에피소드 반환값과 같은 메트릭을 로깅합니다.
에이전트가 게임을 플레이하는 비디오를 업로드합니다.
트레이닝된 모델을 저장합니다.
모델의 하이퍼파라미터를 로깅합니다.
모델 그라디언트 히스토그램을 로깅합니다.

SB3 실험 로깅하기

SB3 트레이닝을 W&B에 로깅하려면 모델의 learn 메서드에 WandbCallback을 전달하세요:

from wandb.integration.sb3 import WandbCallback

model.learn(..., callback=WandbCallback())

`WandbCallback` 인수

다음 표에서는 WandbCallback에 전달할 수 있는 인수를 설명합니다:

인수	사용
`verbose`	SB3 출력의 상세도입니다.
`model_save_path`	모델이 저장되는 폴더의 경로입니다. 기본값은 `None`이므로 모델은 로깅되지 않습니다.
`model_save_freq`	모델을 저장하는 주기입니다.
`gradient_save_freq`	그라디언트를 로깅하는 주기입니다. 기본값은 `0`이므로 그라디언트는 로깅되지 않습니다.

기본 예시

W&B SB3 인테그레이션은 TensorBoard에서 생성된 로그 출력을 사용해 메트릭을 로깅합니다.

import gym
from stable_baselines3 import PPO
from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common.vec_env import DummyVecEnv, VecVideoRecorder
import wandb
from wandb.integration.sb3 import WandbCallback


config = {
    "policy_type": "MlpPolicy",
    "total_timesteps": 25000,
    "env_name": "CartPole-v1",
}
run = wandb.init(
    project="sb3",
    config=config,
    sync_tensorboard=True,  # sb3의 tensorboard 메트릭 자동 업로드
    monitor_gym=True,  # 에이전트가 게임을 플레이하는 비디오 자동 업로드
    save_code=True,  # 선택 사항
)


def make_env():
    env = gym.make(config["env_name"])
    env = Monitor(env)  # 반환값 등의 통계 기록
    return env


env = DummyVecEnv([make_env])
env = VecVideoRecorder(
    env,
    f"videos/{run.id}",
    record_video_trigger=lambda x: x % 2000 == 0,
    video_length=200,
)
model = PPO(config["policy_type"], env, verbose=1, tensorboard_log=f"runs/{run.id}")
model.learn(
    total_timesteps=config["total_timesteps"],
    callback=WandbCallback(
        gradient_save_freq=100,
        model_save_path=f"models/{run.id}",
        verbose=2,
    ),
)
run.finish()

Weights & Biases

Powered by CoreWeave

Platform Details

Resources

SB3 실험 로깅하기

`WandbCallback` 인수

기본 예시

​SB3 실험 로깅하기

​WandbCallback 인수

​기본 예시

SB3 실험 로깅하기

`WandbCallback` 인수

기본 예시