Metaflow

Overview

Metaflow는 Netflix에서 만든 ML 워크플로 생성 및 실행용 프레임워크입니다. 이 인테그레이션을 사용하면 Metaflow의 step 및 플로우에 데코레이터를 적용해 파라미터와 아티팩트를 W&B에 자동으로 로깅할 수 있으며, 맞춤형 로깅 코드를 작성하지 않고도 Metaflow로 구축한 워크플로 전반에서 Experiments를 추적하고 리니지를 확인할 수 있습니다:

step에 데코레이터를 적용하면 해당 step 내 특정 유형에 대한 로깅을 켜거나 끌 수 있습니다.
플로우에 데코레이터를 적용하면 플로우의 모든 step에 대한 로깅을 켜거나 끌 수 있습니다.

퀵스타트

다음 섹션에서는 W&B에 인증하고, 필요한 라이브러리를 설치한 다음, Metaflow step과 플로우에 wandb_log 데코레이터를 추가하는 방법을 설명합니다. API 키는 사용 중인 머신을 W&B에 인증하는 데 사용됩니다. 사용자 프로필에서 API 키를 생성할 수 있습니다.

더 간편하게 하려면 User Settings로 이동해 API 키를 생성하세요. API 키는 즉시 복사해 비밀번호 관리자와 같은 안전한 위치에 저장하세요.

W&B App에서 API 키를 찾으려면 다음과 같이 하세요.

오른쪽 상단에 있는 사용자 프로필 아이콘을 클릭합니다.
User Settings를 선택한 다음 API Keys 섹션까지 스크롤합니다.

`wandb` 라이브러리 설치 및 로그인

로컬 환경에 wandb 라이브러리를 설치하고 로그인하려면 다음 단계를 따르세요.

wandb 버전 0.19.8 이하에서는 plum-dispatch 대신 fastcore 버전 1.8.0 이하(fastcore<1.8.0)를 설치하세요.

명령줄
Python
Python notebook

WANDB_API_KEY 환경 변수에 API 키를 설정합니다. <>로 묶인 값은 사용자의 값으로 바꾸세요.
export WANDB_API_KEY=<your_api_key>

wandb 라이브러리를 설치하고 로그인합니다.

pip install -Uqqq metaflow "plum-dispatch<3.0.0" wandb

wandb login

pip install -Uqqq metaflow "plum-dispatch<3.0.0" wandb

import wandb
wandb.login()

!pip install -Uqqq metaflow "plum-dispatch<3.0.0" wandb

import wandb
wandb.login()

플로우와 step 데코레이션하기

Step
Flow
Flow and steps

step을 데코레이션하면 해당 step 내의 특정 유형에 대한 로깅을 켜거나 끌 수 있습니다.이 예제에서는 인테그레이션이 start의 모든 데이터셋과 모델을 로깅합니다:

from wandb.integration.metaflow import wandb_log

class WandbExampleFlow(FlowSpec):
    @wandb_log(datasets=True, models=True, settings=wandb.Settings(...))
    @step
    def start(self):
        self.raw_df = pd.read_csv(...)    # pd.DataFrame -> 데이터셋으로 업로드
        self.model_file = torch.load(...)  # nn.Module    -> 모델로 업로드
        self.next(self.transform)

플로우를 데코레이션하는 것은 플로우를 구성하는 모든 step에 기본값을 적용해 데코레이션하는 것과 같습니다.이 경우 WandbExampleFlow의 모든 step은 기본적으로 데이터셋과 모델을 로깅하며, 이는 각 step을 @wandb_log(datasets=True, models=True)로 데코레이션하는 것과 같습니다:

from wandb.integration.metaflow import wandb_log

@wandb_log(datasets=True, models=True)  # 모든 @step에 적용
class WandbExampleFlow(FlowSpec):
    @step
    def start(self):
        self.raw_df = pd.read_csv(...)    # pd.DataFrame -> 데이터셋으로 업로드
        self.model_file = torch.load(...)  # nn.Module    -> 모델로 업로드
        self.next(self.transform)

플로우를 데코레이션하는 것은 모든 step에 기본값을 적용해 데코레이션하는 것과 같습니다. 즉, 나중에 step에 다른 @wandb_log를 데코레이션하면 플로우 수준 데코레이션이 재정의됩니다.이 예제에서는 다음과 같습니다.

start와 mid는 데이터셋과 모델을 모두 로깅합니다.
end는 데이터셋도 모델도 로깅하지 않습니다.

from wandb.integration.metaflow import wandb_log

@wandb_log(datasets=True, models=True)  # start와 mid를 데코레이션하는 것과 동일
class WandbExampleFlow(FlowSpec):
  # 이 step은 데이터셋과 모델을 로깅합니다
  @step
  def start(self):
    self.raw_df = pd.read_csv(...)    # pd.DataFrame -> 데이터셋으로 업로드
    self.model_file = torch.load(...)  # nn.Module    -> 모델로 업로드
    self.next(self.mid)

  # 이 step도 데이터셋과 모델을 로깅합니다
  @step
  def mid(self):
    self.raw_df = pd.read_csv(...)    # pd.DataFrame -> 데이터셋으로 업로드
    self.model_file = torch.load(...)  # nn.Module    -> 모델로 업로드
    self.next(self.end)

  # 이 step은 재정의되어 데이터셋과 모델을 로깅하지 않습니다
  @wandb_log(datasets=False, models=False)
  @step
  def end(self):
    self.raw_df = pd.read_csv(...)    
    self.model_file = torch.load(...)

프로그래밍 방식으로 데이터에 접근하기

플로우와 step에 데코레이터를 적용하면 플로우가 실행될 때마다 Runs가 매개변수와 아티팩트를 W&B로 전송합니다. 캡처된 정보에는 세 가지 방법으로 접근할 수 있습니다. 로깅 중인 원래 Python 프로세스 내부에서 wandb 클라이언트 라이브러리를 사용하거나, web app UI를 사용하거나, Public API를 사용해 프로그래밍 방식으로 접근할 수 있습니다. Parameter는 W&B의 config에 저장되며 Overview tab에서 확인할 수 있습니다. datasets, models, others는 W&B Artifacts에 저장되며 Artifacts tab에서 확인할 수 있습니다. 기본 Python 유형은 W&B의 summary dict에 저장되며 Overview tab에서 확인할 수 있습니다. 외부에서 API를 사용해 이 정보를 프로그래밍 방식으로 조회하는 방법에 대한 자세한 내용은 Public API 가이드를 참조하세요.

빠른 레퍼런스

데이터	클라이언트 라이브러리	UI
`Parameter(...)`	`wandb.Run.config`	Overview tab, 설정
`datasets`, `models`, `others`	`wandb.Run.use_artifact("{var_name}:latest")`	Artifacts tab
기본 Python 유형 (`dict`, `list`, `str` 등)	`wandb.Run.summary`	Overview tab, Summary

`wandb_log` kwargs

kwarg	Options
`datasets`	`True`: 데이터셋인 인스턴스 변수를 기록합니다 `False`
`models`	`True`: 모델인 인스턴스 변수를 기록합니다 `False`
`others`	`True`: pickle로 직렬화할 수 있는 기타 모든 항목을 기록합니다 `False`
`settings`	`wandb.Settings(…)`: 이 step 또는 플로우에 사용할 `wandb` 설정을 직접 지정합니다 `None`: `wandb.Settings()`를 전달하는 것과 같습니다 기본적으로: `settings.run_group`가 `None`이면 `{flow_name}/{run_id}`로 설정됩니다 `settings.run_job_type`가 `None`이면 `{run_job_type}/{step_name}`로 설정됩니다

자주 묻는 질문

다음 섹션에서는 로깅 동작, 지원되는 데이터 유형, 그리고 아티팩트 리니지에 관한 자주 묻는 질문에 답변합니다.

정확히 무엇을 로깅하나요

wandb_log는 인스턴스 변수만 로깅합니다. 로컬 변수는 절대 로깅되지 않습니다. 따라서 불필요한 데이터가 로깅되는 것을 방지할 수 있습니다.

어떤 데이터 유형이 로깅되나요

W&B는 다음 유형을 지원합니다:

로깅 설정	유형
기본값(항상 켜짐)	`dict, list, set, str, int, float, bool`
`datasets`	`pd.DataFrame` `pathlib.Path`
`models`	`nn.Module` `sklearn.base.BaseEstimator`
`others`	pickle로 직렬화 가능하고 JSON으로 직렬화할 수 있는 모든 항목

로깅 동작 구성

변수 종류	동작	예시	데이터 유형
인스턴스	자동으로 로깅됨	`self.accuracy`	`float`
인스턴스	`datasets=True`인 경우 로깅됨	`self.df`	`pd.DataFrame`
인스턴스	`datasets=False`인 경우 로깅되지 않음	`self.df`	`pd.DataFrame`
로컬	로깅되지 않음	`accuracy`	`float`
로컬	로깅되지 않음	`df`	`pd.DataFrame`

Artifact 리니지 추적

step A의 출력이면서 동시에 step B의 입력인 artifact가 있으면, W&B가 리니지 DAG를 자동으로 생성합니다. 이 동작의 예시는 다음 Metaflow integration example notebook 및 해당 Artifacts page를 참조하세요.

Weights & Biases

Powered by CoreWeave

Platform Details

Resources

Overview

퀵스타트

`wandb` 라이브러리 설치 및 로그인

플로우와 step 데코레이션하기

프로그래밍 방식으로 데이터에 접근하기

빠른 레퍼런스

`wandb_log` kwargs

자주 묻는 질문

정확히 무엇을 로깅하나요

어떤 데이터 유형이 로깅되나요

로깅 동작 구성

Artifact 리니지 추적

​Overview

​퀵스타트

​가입하고 API 키 생성하기

​wandb 라이브러리 설치 및 로그인

​플로우와 step 데코레이션하기

​프로그래밍 방식으로 데이터에 접근하기

​빠른 레퍼런스

​wandb_log kwargs

​자주 묻는 질문

​정확히 무엇을 로깅하나요

​어떤 데이터 유형이 로깅되나요

​로깅 동작 구성

​Artifact 리니지 추적

Overview

퀵스타트

가입하고 API 키 생성하기

`wandb` 라이브러리 설치 및 로그인

플로우와 step 데코레이션하기

프로그래밍 방식으로 데이터에 접근하기

빠른 레퍼런스

`wandb_log` kwargs

자주 묻는 질문

정확히 무엇을 로깅하나요

어떤 데이터 유형이 로깅되나요

로깅 동작 구성

Artifact 리니지 추적