이 가이드는 에어갭(air-gapped), 완전 분리 또는 제한된 네트워크의 고객 관리 환경에 W&B Platform을 배포하는 단계별 지침을 제공합니다. 에어갭 배포는 다음과 같은 환경에서 일반적입니다.
- 보안이 중요한 정부 시설
- 엄격한 네트워크 격리가 필요한 금융 기관
- 규정 준수 요구 사항이 있는 의료 기관
- 산업 제어 시스템(ICS) 환경
- 기밀 네트워크를 사용하는 연구 시설
필수 W&B 이미지와 차트를 호스팅하려면 내부 컨테이너 레지스트리와 Helm 저장소를 사용하세요. Kubernetes 클러스터에 적절한 접근 권한이 있는 셸 콘솔에서 이 명령어를 실행하세요.
이 명령어는 Kubernetes 애플리케이션을 배포하는 데 사용하는 모든 CI/CD 도구에 맞게 조정할 수 있습니다.
인터넷 연결이 가능한 표준 온프레미스 Kubernetes 배포의 경우 Kubernetes Operator로 W&B 배포를 참조하세요.
시작하기 전에 에어갭 환경이 다음 요구 사항을 충족하는지 확인하세요.
| 소프트웨어 | 최소 버전 |
|---|
| Kubernetes | v1.32 이상 (지원되는 Kubernetes 버전) |
| Helm | v3.x |
| MySQL | v8.0.x가 필요하며 v8.0.32 이상이어야 합니다. v8.0.44 이상을 권장합니다. Aurora MySQL 3.x 릴리스는 v3.05.2 이상이어야 합니다. |
| Redis | v7.x |
W&B는 클라이언트와 서버 간의 보안 통신을 위해 유효한 공인 SSL/TLS 인증서를 요구합니다. SSL/TLS 종료는 인그레스/로드 밸런서에서 이루어져야 합니다. W&B Server 애플리케이션은 SSL 또는 TLS 연결을 종료하지 않습니다.
중요: W&B는 자체 서명 인증서와 사용자 지정 CA를 지원하지 않습니다. 자체 서명 인증서를 사용하면 사용자에게 문제가 발생할 수 있으며, 지원되지 않습니다.
가능하다면 Let’s Encrypt와 같은 서비스를 사용해 로드 밸런서에 신뢰할 수 있는 인증서를 제공하는 것이 좋습니다. Caddy 및 Cloudflare와 같은 서비스는 SSL을 대신 관리해 줍니다.
보안 정책상 신뢰할 수 있는 네트워크 내부에서도 SSL 통신이 필요하다면, Istio와 사이드카 컨테이너 같은 도구를 사용하는 것을 고려하세요.
CPU 아키텍처: W&B는 Intel(x86) CPU 아키텍처에서만 실행됩니다. ARM은 지원되지 않습니다.
사이징: Kubernetes 노드와 MySQL의 CPU, 메모리, 디스크 사이징 권장 사항은 레퍼런스 아키텍처의 Sizing 섹션을 참조하세요. 요구 사항은 Models, Weave 또는 둘 다를 실행하는지에 따라 달라집니다.
W&B를 사용하려면 외부 MySQL 데이터베이스가 필요합니다.
프로덕션 환경에서는 W&B는 관리형 데이터베이스 서비스 사용을 강력히 권장합니다:
관리형 데이터베이스 서비스는 자동 백업, 모니터링, 고가용성, 패치 적용을 제공하며 운영 오버헤드를 줄여줍니다.
사이징 권장 사항과 설정 파라미터를 포함한 전체 MySQL 요구 사항은 레퍼런스 아키텍처를 참조하세요. 데이터베이스 생성 SQL은 bare-metal guide를 참조하세요. 배포 환경의 데이터베이스 설정에 대해 궁금한 점이 있으면 지원팀 또는 AISE에 문의하세요.
자체 관리형 인스턴스용 MySQL 설정 매개변수는 레퍼런스 아키텍처의 MySQL 설정 섹션을 참조하세요.
W&B는 작업 큐잉과 데이터 캐싱을 위해 W&B 컴포넌트가 사용하는 단일 노드 Redis 7.x 배포에 의존합니다. 테스트 및 개념 검증을 편리하게 수행할 수 있도록, W&B Self-Managed에는 로컬 Redis 배포가 포함되어 있지만 이는 프로덕션 배포에는 적합하지 않습니다.
프로덕션 배포의 경우 W&B는 다음 환경의 Redis 인스턴스에 연결할 수 있습니다:
W&B에는 사전 서명된 URL 및 CORS를 지원하는 객체 저장소가 필요합니다.
권장 저장소 제공업체:
MinIO Open Source는 활성 개발이나 사전 컴파일된 바이너리 없이 유지 관리 모드에 있습니다. 프로덕션 배포의 경우 W&B는 관리형 객체 저장소 서비스 또는 MinIO Enterprise (AIStor)와 같은 엔터프라이즈 S3 호환 솔루션 사용을 권장합니다.
IAM 정책, CORS 설정, 액세스 설정을 포함한 자세한 버킷 프로비저닝 지침은 Bring Your Own Bucket (BYOB) 가이드를 참조하세요.
전체 요구 사항은 레퍼런스 아키텍처 객체 저장소 섹션을 참조하세요.
객체 저장소 프로비저닝에 관한 자세한 안내는 Bring Your Own Bucket (BYOB) 가이드를 참조하세요. 에어갭 환경에서는 일반적으로 MinIO Enterprise, NetApp StorageGRID, Dell ECS와 같은 온프레미스 S3 호환 저장소를 사용합니다.
위의 표준 요구 사항 외에도 에어갭 배포에는 다음이 필요합니다.
- 내부 컨테이너 레지스트리: 필요한 모든 W&B 이미지가 포함된 프라이빗 컨테이너 레지스트리(Harbor, JFrog Artifactory, Nexus 등)에 대한 액세스
- 내부 Helm 저장소: W&B Helm 차트가 있는 프라이빗 Helm 차트 저장소에 대한 액세스
- 이미지 전송 기능: 인터넷에 연결된 시스템에서 에어갭 레지스트리로 컨테이너 이미지를 전송할 수 있는 방법
- 라이선스 파일: 유효한 W&B 엔터프라이즈 라이선스. 라이선스를 획득하려면(예: 인터넷에 연결된 시스템에서) Requirements 페이지의 License 섹션을 참조하거나 W&B account team에 문의하세요.
네트워킹 및 로드 밸런서 설정을 포함한 전체 인프라 요구 사항은 레퍼런스 아키텍처를 참조하세요.
에어갭 배포를 성공적으로 수행하려면 필요한 모든 컨테이너 이미지를 에어갭 컨테이너 레지스트리에서 사용할 수 있어야 합니다.
W&B Operator의 요구 사항을 추적하고 컨테이너 레지스트리를 최신 이미지로 정기적으로 유지 관리하는 것은 사용자의 책임입니다. 필요한 컨테이너 이미지와 버전의 최신 목록은 Helm 차트를 참고하거나 W&B 지원팀 또는 배정된 W&B 지원 엔지니어에게 문의하세요.
다음 핵심 이미지는 필수입니다:
다음 타사 종속성 이미지는 필수입니다:
Helm 차트에서 필요한 이미지와 버전의 전체 목록을 추출하려면 다음 단계를 따르세요.
-
인터넷에 연결된 시스템에서 W&B Helm charts 저장소로부터 W&B Helm 차트를 다운로드합니다.
# helm-charts 저장소 복제
git clone https://github.com/wandb/helm-charts.git
cd helm-charts
-
values.yaml 파일을 확인해 모든 컨테이너 이미지와 해당 버전을 파악합니다.
# operator chart에서 이미지 레퍼런스 추출
helm show values charts/operator | grep -E "repository:|tag:" | grep -v "^#"
# platform chart에서 이미지 레퍼런스 추출
helm show values charts/operator-wandb | grep -E "repository:|tag:" | grep -v "^#"
또는 다음 명령을 사용해 저장소 이름만 추출할 수 있습니다(버전 태그 제외).
helm show values charts/operator-wandb \
| awk -F': *' '/^[[:space:]]*repository:/{print $2}' \
| grep -v "^#" \
| sort -u
저장소 목록은 다음과 비슷하게 표시됩니다.
wandb/controller
wandb/local
wandb/console
wandb/megabinary
wandb/weave-python
wandb/weave-trace
otel/opentelemetry-collector-contrib
prometheus/prometheus
prometheus-operator/prometheus-config-reloader
bitnamilegacy/redis
각 이미지의 정확한 버전 태그를 조회하려면 위의 첫 번째 명령(grep -E "repository:|tag:")을 사용하세요. 그러면 저장소 이름과 해당 버전 태그가 함께 표시됩니다.
-
인터넷에 연결된 시스템에서 필요한 모든 이미지를 pull한 다음 저장합니다.
아래 예시의 버전 번호는 위의 step 2에서 Helm 차트를 검사해 확인한 실제 버전으로 바꾸세요. 여기에 표시된 버전은 예시일 뿐이며, 시간이 지나면 더 이상 최신이 아니게 됩니다.
버전을 일관되게 관리하려면 셸 변수를 사용하세요:
# 버전 변수 설정(Helm 차트 버전에 맞게 업데이트)
CONTROLLER_VERSION="1.13.3"
APP_VERSION="0.59.2"
CONSOLE_VERSION="2.12.2"
# 이미지 pull
docker pull wandb/controller:${CONTROLLER_VERSION}
docker pull wandb/local:${APP_VERSION}
docker pull wandb/console:${CONSOLE_VERSION}
docker pull wandb/megabinary:${APP_VERSION}
# ... 필요한 다른 모든 이미지도 해당 버전으로 pull
# 이미지를 .tar 파일로 저장
docker save wandb/controller:${CONTROLLER_VERSION} -o wandb-controller-${CONTROLLER_VERSION}.tar
docker save wandb/local:${APP_VERSION} -o wandb-local-${APP_VERSION}.tar
docker save wandb/console:${CONSOLE_VERSION} -o wandb-console-${CONSOLE_VERSION}.tar
docker save wandb/megabinary:${APP_VERSION} -o wandb-megabinary-${APP_VERSION}.tar
# ... 다른 모든 이미지 저장
-
승인된 방법(USB 드라이브, 보안 파일 전송 등)을 사용해
.tar 파일을 air-gapped 환경으로 전송합니다.
-
air-gapped 환경에서 이미지를 로드한 뒤 내부 레지스트리에 push합니다:
# 위에서 사용한 것과 동일한 버전 변수 설정
CONTROLLER_VERSION="1.13.3"
APP_VERSION="0.59.2"
CONSOLE_VERSION="2.12.2"
INTERNAL_REGISTRY="registry.yourdomain.com"
# 이미지 로드
docker load -i wandb-controller-${CONTROLLER_VERSION}.tar
docker load -i wandb-local-${APP_VERSION}.tar
docker load -i wandb-console-${CONSOLE_VERSION}.tar
docker load -i wandb-megabinary-${APP_VERSION}.tar
# ... 다른 모든 이미지 로드
# 내부 레지스트리용 태그 지정
docker tag wandb/controller:${CONTROLLER_VERSION} ${INTERNAL_REGISTRY}/wandb/controller:${CONTROLLER_VERSION}
docker tag wandb/local:${APP_VERSION} ${INTERNAL_REGISTRY}/wandb/local:${APP_VERSION}
docker tag wandb/console:${CONSOLE_VERSION} ${INTERNAL_REGISTRY}/wandb/console:${CONSOLE_VERSION}
docker tag wandb/megabinary:${APP_VERSION} ${INTERNAL_REGISTRY}/wandb/megabinary:${APP_VERSION}
# ... 다른 모든 이미지 태그 지정
# 내부 레지스트리로 push
docker push ${INTERNAL_REGISTRY}/wandb/controller:${CONTROLLER_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/local:${APP_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/console:${CONSOLE_VERSION}
docker push ${INTERNAL_REGISTRY}/wandb/megabinary:${APP_VERSION}
# ... 다른 모든 이미지 push
Step 2: 내부 Helm 차트 저장소 설정
컨테이너 이미지와 함께, 내부 Helm 저장소에서 다음 Helm 차트를 사용할 수 있는지 확인하세요:
-
인터넷에 연결된 시스템에서 chart를 다운로드합니다:
# W&B Helm 저장소 추가
helm repo add wandb https://wandb.github.io/helm-charts
helm repo update
# chart 다운로드
helm pull wandb/operator --version 1.13.3
helm pull wandb/operator-wandb --version 0.18.0
-
.tgz chart 파일을 에어갭 환경으로 전송한 다음, 저장소 절차에 따라 내부 Helm 저장소에 업로드합니다.
operator chart는 W&B Kubernetes Operator(Controller Manager)를 배포합니다. operator-wandb chart는 Custom Resource(CR)에 설정된 값을 사용해 W&B Platform을 배포합니다.
-
에어갭 환경에서 Helm이 내부 저장소를 사용하도록 설정합니다:
helm repo add local-repo https://charts.yourdomain.com
helm repo update
-
차트를 사용할 수 있는지 확인합니다:
helm search repo local-repo/operator
helm search repo local-repo/operator-wandb
Step 4: Kubernetes Operator 설치
W&B Kubernetes Operator(컨트롤러 매니저)는 W&B 플랫폼 컴포넌트를 관리합니다. 에어갭 환경에 설치하려면 내부 컨테이너 레지스트리를 사용하도록 설정하세요.
-
다음 내용으로
values.yaml 파일을 생성합니다:
image:
repository: registry.yourdomain.com/wandb/controller
tag: 1.13.3
airgapped: true
저장소와 태그는 Step 1에서 내부 레지스트리로 전송한 실제 버전으로 바꾸세요. 여기 표시된 버전(1.13.3)은 예시이며, 시간이 지나면 더 이상 최신 버전이 아닐 수 있습니다.
-
Operator와 Custom Resource Definition(CRD)을 설치합니다:
helm upgrade --install operator local-repo/operator \
--namespace wandb \
--create-namespace \
--values values.yaml
-
Operator가 실행 중인지 확인합니다:
kubectl get pods -n wandb
Operator 파드가 Running 상태로 표시되어야 합니다.
지원되는 값에 대한 자세한 내용은 Kubernetes Operator GitHub 저장소 values 파일을 참고하세요.
W&B Custom Resource를 설정하기 전에 외부 MySQL 데이터베이스를 설정하세요. 프로덕션 배포의 경우, 가능한 환경에서는 관리형 데이터베이스 서비스를 사용할 것을 W&B에서 강력히 권장합니다. 하지만 자체 MySQL 인스턴스를 실행 중이라면 데이터베이스와 사용자를 생성하세요:
다음 SQL 명령을 사용해 데이터베이스와 사용자를 생성합니다. SOME_PASSWORD는 원하는 안전한 비밀번호로 바꾸세요:
CREATE USER 'wandb_local'@'%' IDENTIFIED BY 'SOME_PASSWORD';
CREATE DATABASE wandb_local CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci;
GRANT ALL ON wandb_local.* TO 'wandb_local'@'%' WITH GRANT OPTION;
MySQL 설정 매개변수는 레퍼런스 아키텍처 MySQL 설정 섹션을 참조하세요.
W&B Kubernetes Operator를 설치한 후에는 Custom Resource(CR)가 내부 Helm 저장소와 컨테이너 레지스트리를 가리키도록 설정하세요.
이 설정을 통해 Kubernetes Operator가 W&B 플랫폼의 필수 컴포넌트를 배포할 때 내부 레지스트리와 저장소를 사용하게 됩니다.
아래 예시 설정에는 곧 구식이 될 이미지 버전 태그가 포함되어 있습니다. 모든 tag: 값을 Step 1에서 내부 레지스트리로 옮긴 실제 버전으로 바꾸세요.
다음 내용으로 wandb.yaml 파일을 만드세요:
apiVersion: apps.wandb.com/v1
kind: WeightsAndBiases
metadata:
labels:
app.kubernetes.io/instance: wandb
app.kubernetes.io/name: weightsandbiases
name: wandb
namespace: wandb
spec:
chart:
url: https://charts.yourdomain.com
name: operator-wandb
version: 0.18.0
values:
global:
host: https://wandb.yourdomain.com
license: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
bucket:
accessKey: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
secretKey: xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
name: s3.yourdomain.com:9000
path: wandb
provider: s3
region: us-east-1
mysql:
database: wandb
host: mysql.yourdomain.com
password: <your-mysql-password>
port: 3306
user: wandb
redis:
host: redis.yourdomain.com
port: 6379
password: <your-redis-password>
api:
enabled: true
glue:
enabled: true
executor:
enabled: true
extraEnv:
ENABLE_REGISTRY_UI: 'true'
# 모든 컴포넌트 이미지가 내부 레지스트리를 사용하도록 설정
app:
image:
repository: registry.yourdomain.com/wandb/local
tag: 0.59.2
console:
image:
repository: registry.yourdomain.com/wandb/console
tag: 2.12.2
api:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
executor:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
glue:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
parquet:
image:
repository: registry.yourdomain.com/wandb/megabinary
tag: 0.59.2
weave:
image:
repository: registry.yourdomain.com/wandb/weave-python
tag: 0.59.2
otel:
image:
repository: registry.yourdomain.com/otel/opentelemetry-collector-contrib
tag: 0.97.0
prometheus:
server:
image:
repository: registry.yourdomain.com/prometheus/prometheus
tag: v2.47.0
configmapReload:
prometheus:
image:
repository: registry.yourdomain.com/prometheus-operator/prometheus-config-reloader
tag: v0.67.0
ingress:
annotations:
nginx.ingress.kubernetes.io/proxy-body-size: "0"
class: nginx
모든 플레이스홀더 값(호스트 이름, 비밀번호, 태그 등)을 실제 설정 값으로 바꾸세요. 위 예시에는 가장 일반적으로 사용되는 컴포넌트가 나와 있습니다.
배포 요구 사항에 따라 다음과 같은 추가 컴포넌트의 이미지 저장소도 설정해야 할 수 있습니다:
settingsMigrationJob
weave-trace
filestream
flat-runs-table
설정 가능한 컴포넌트의 전체 목록은 W&B Helm 저장소 values 파일을 참고하세요.
-
W&B Custom Resource를 적용해 플랫폼을 배포합니다:
kubectl apply -f wandb.yaml
-
배포 진행 상황을 모니터링합니다:
# 생성 중인 파드 확인
kubectl get pods -n wandb --watch
# 배포 상태 확인
kubectl get weightsandbiases -n wandb
# Operator 로그 확인
kubectl logs -n wandb deployment/wandb-operator-controller-manager
Operator가 필요한 모든 컴포넌트를 생성하므로 배포에 몇 분 정도 걸릴 수 있습니다.
W&B는 에어갭 OpenShift Kubernetes 클러스터에서의 배포를 완전히 지원합니다. OpenShift 배포에는 OpenShift의 더 엄격한 보안 정책으로 인해 보안 컨텍스트 설정이 추가로 필요합니다.
OpenShift는 파드 권한을 제어하기 위해 SCC(Security Context Constraints)를 사용합니다. 기본적으로 OpenShift는 파드에 restricted SCC를 할당하므로, 루트로 실행할 수 없으며 특정 사용자 ID가 필요합니다.
옵션 1: restricted SCC 사용(권장)
Custom Resource에서 적절한 security context를 설정해 W&B 컴포넌트가 restricted SCC로 실행되도록 구성합니다:
spec:
values:
# 모든 파드에 대한 보안 컨텍스트 설정
app:
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
console:
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
# 다른 컴포넌트에 대해 반복: api, executor, glue, parquet, weave
옵션 2: 맞춤형 SCC 만들기(필요한 경우)
배포에 restricted SCC에서 제공하지 않는 기능이 필요하면 맞춤형 SCC를 만드세요:
apiVersion: security.openshift.io/v1
kind: SecurityContextConstraints
metadata:
name: wandb-scc
allowHostDirVolumePlugin: false
allowHostIPC: false
allowHostNetwork: false
allowHostPID: false
allowHostPorts: false
allowPrivilegeEscalation: false
allowPrivilegedContainer: false
allowedCapabilities: []
defaultAddCapabilities: []
fsGroup:
type: MustRunAs
ranges:
- min: 1000
max: 65535
readOnlyRootFilesystem: false
requiredDropCapabilities:
- ALL
runAsUser:
type: MustRunAsRange
uidRangeMin: 1000
uidRangeMax: 65535
seLinuxContext:
type: MustRunAs
supplementalGroups:
type: RunAsAny
volumes:
- configMap
- downwardAPI
- emptyDir
- persistentVolumeClaim
- projected
- secret
-
SCC를 적용합니다:
oc apply -f wandb-scc.yaml
-
W&B 서비스 계정에 SCC를 바인딩합니다:
oc adm policy add-scc-to-user wandb-scc -z wandb-app -n wandb
oc adm policy add-scc-to-user wandb-scc -z wandb-console -n wandb
OpenShift는 표준 Kubernetes 인그레스 대신 Routes를 사용합니다. W&B가 OpenShift Routes를 사용하도록 구성하세요:
spec:
values:
ingress:
enabled: false
route:
enabled: true
host: wandb.apps.openshift.yourdomain.com
tls:
enabled: true
termination: edge
insecureEdgeTerminationPolicy: Redirect
인증이 필요한 내부 이미지 레지스트리를 OpenShift 클러스터에서 사용하는 경우:
-
이미지 풀 시크릿을 생성합니다:
kubectl create secret docker-registry wandb-registry-secret \
--docker-server=registry.yourdomain.com \
--docker-username=<username> \
--docker-password=<password> \
--namespace=wandb
-
Custom Resource에서 시크릿을 레퍼런스합니다:
spec:
values:
imagePullSecrets:
- name: wandb-registry-secret
다음은 OpenShift 에어갭 배포를 위한 전체 CR 예제입니다:
이 예제의 모든 tag: 값은 Step 1에서 내부 레지스트리로 전송한 실제 버전으로 바꾸세요. 여기에 표시된 버전은 예시이며 곧 더 이상 최신이 아니게 됩니다.
apiVersion: apps.wandb.com/v1
kind: WeightsAndBiases
metadata:
name: wandb
namespace: wandb
spec:
chart:
url: https://charts.yourdomain.com
name: operator-wandb
version: 0.18.0
values:
global:
host: https://wandb.apps.openshift.yourdomain.com
license: <your-license>
bucket:
accessKey: <your-access-key>
secretKey: <your-secret-key>
name: s3.yourdomain.com:9000
path: wandb
provider: s3
region: us-east-1
mysql:
database: wandb
host: mysql.yourdomain.com
password: <your-mysql-password>
port: 3306
user: wandb
redis:
host: redis.yourdomain.com
port: 6379
password: <your-redis-password>
# OpenShift 전용: 인그레스 대신 Route 사용
ingress:
enabled: false
route:
enabled: true
host: wandb.apps.openshift.yourdomain.com
tls:
enabled: true
termination: edge
# 내부 레지스트리용 이미지 풀 시크릿
imagePullSecrets:
- name: wandb-registry-secret
# OpenShift restricted SCC용 보안 컨텍스트
app:
image:
repository: registry.yourdomain.com/wandb/local
tag: 0.59.2
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
console:
image:
repository: registry.yourdomain.com/wandb/console
tag: 2.12.2
podSecurityContext:
fsGroup: 1000
runAsUser: 1000
runAsNonRoot: true
securityContext:
allowPrivilegeEscalation: false
capabilities:
drop:
- ALL
runAsNonRoot: true
seccompProfile:
type: RuntimeDefault
# api, executor, glue, parquet, weave에도 보안 컨텍스트 반복 적용
# (간결성을 위해 생략)
보안 요구 사항에 맞는 포괄적인 OpenShift 설정 예시가 필요하면 W&B 지원팀 또는 배정된 W&B 지원 엔지니어에게 문의하세요.
W&B를 배포한 후 설치가 제대로 작동하는지 확인하세요:
설치를 확인하려면 W&B에서는 W&B CLI 사용을 권장합니다. verify 명령어는 모든 컴포넌트와 설정을 확인하는 여러 테스트를 실행합니다.
이 단계에서는 첫 번째 관리자 사용자 계정이 브라우저에서 생성되었다고 가정합니다.
설치를 확인하려면 다음 단계를 따르세요:
- W&B CLI를 설치합니다:
- W&B에 로그인합니다:
wandb login --host=https://YOUR_DNS_DOMAIN
예를 들어:
wandb login --host=https://wandb.company-name.com
- 설치를 확인하세요:
설치에 성공하고 W&B 배포 환경이 정상적으로 작동하면 다음과 같은 출력이 표시됩니다:
Default host selected: https://wandb.company-name.com
이 테스트의 상세 로그 위치: /var/folders/pn/b3g3gnc11_sbsykqkm3tx5rh0000gp/T/tmpdtdjbxua/wandb
로그인 여부 확인 중...................................................✅
서명된 URL 업로드 확인 중..............................................✅
프록시를 통한 대용량 페이로드 전송 가능 여부 확인 중...................✅
기본 URL에 대한 요청 확인 중...........................................✅
서명된 URL을 통한 요청 확인 중.................................✅
버킷의 CORS 설정 확인 중...............................✅
wandb 패키지 버전 최신 여부 확인 중............................✅
로깅된 메트릭, 파일 저장 및 다운로드 확인 중..................✅
artifact 저장 및 다운로드 워크플로 확인 중...........................✅
오류가 발생하면 W&B 지원팀에 문의하세요.
에어갭 배포의 경우 다음 사항도 확인하세요:
-
이미지 pull: 모든 파드가 내부 레지스트리에서 이미지를 성공적으로 pull했는지 확인합니다:
kubectl get pods -n wandb -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.phase}{"\t"}{.status.containerStatuses[*].image}{"\n"}{end}'
모든 이미지는 내부 레지스트리를 가리켜야 하며, 모든 파드는 Running 상태여야 합니다.
-
외부 연결: W&B가 외부 연결을 시도하지 않는지 확인합니다(에어갭 모드에서는 외부 연결을 시도하면 안 됩니다):
kubectl logs -n wandb deployment/wandb-app --tail=100 | grep -i "connection"
-
라이선스 검증: W&B 콘솔에 접속해 라이선스가 활성 상태인지 확인합니다.
파드가 이미지를 pull하지 못하면 다음을 확인하세요.
-
내부 레지스트리에 이미지가 있는지 확인
-
이미지 풀 시크릿이 올바르게 설정되어 있는지 확인
-
Kubernetes 노드에서 레지스트리까지 네트워크로 연결되는지 확인
-
레지스트리 인증 자격 증명을 확인
# 이미지 pull을 수동으로 테스트
kubectl run test-pull --image=registry.yourdomain.com/wandb/local:0.59.2 --namespace=wandb
kubectl logs test-pull -n wandb
kubectl delete pod test-pull -n wandb
OpenShift에서 파드가 권한 오류로 실행에 실패하는 경우:
# 사용 중인 SCC 확인
oc get pod <pod-name> -n wandb -o yaml | grep scc
# service account 권한 확인
oc describe scc wandb-scc
oc get rolebinding -n wandb
Operator가 플랫폼 chart를 찾지 못하는 경우:
-
Custom Resource의 chart 저장소 URL을 확인합니다.
-
Operator 파드가 내부 Helm 저장소에 접속할 수 있는지 확인합니다.
-
저장소에 chart가 있는지 확인합니다.
helm search repo local-repo/operator-wandb
예. Custom Resource의 인그레스 설정을 수정해 인그레스 클래스를 설정하세요.
spec:
values:
ingress:
class: your-ingress-class
여러 인증서가 포함된 인증서 번들은 어떻게 처리하나요?
인증서를 customCACerts 섹션에서 여러 항목으로 나누세요:
spec:
values:
customCACerts:
cert1.crt: |
-----BEGIN CERTIFICATE-----
...
-----END CERTIFICATE-----
cert2.crt: |
-----BEGIN CERTIFICATE-----
...
-----END CERTIFICATE-----
자동 업데이트를 방지하려면 어떻게 해야 하나요?
W&B가 자동으로 업데이트되지 않도록 Operator를 구성하세요.
- Operator 설치에서
airgapped: true를 설정합니다(이렇게 하면 자동 업데이트 확인이 비활성화됩니다).
- Custom Resource에서
spec.chart.version을 수동으로 업데이트해 버전 업데이트를 제어합니다.
- 필요한 경우 W&B System Console에서 자동 업데이트를 비활성화합니다.
자세한 내용은 자동 앱 버전 업데이트 비활성화를 참조하세요.
W&B는 Self-Managed 인스턴스를 사용하는 고객에게 지원을 유지하고 최신 특성, 성능 개선, 수정 사항을 받기 위해 최소 분기마다 한 번 이상 배포를 최신 릴리스로 업데이트할 것을 강력히 권장합니다. W&B는 메이저 릴리스를 최초 릴리스 날짜로부터 12개월 동안 지원합니다. 자세한 내용은 릴리스 정책 및 프로세스를 참고하세요.
배포는 공개 리포지토리에 연결하지 않아도 작동하나요?
예. Operator 설정에 airgapped: true를 지정하면 Kubernetes Operator는 내부 리소스만 사용하고 공개 리포지토리에 연결을 시도하지 않습니다.
에어갭 환경에서 W&B를 어떻게 업데이트하나요?
W&B를 업데이트하려면 다음 단계를 따르세요.
-
인터넷에 연결된 시스템에서 새 컨테이너 이미지를 가져옵니다
-
이미지를 에어갭 레지스트리로 전송합니다
-
새 Helm chart를 내부 저장소에 업로드합니다
-
Custom Resource에서
spec.chart.version 및 이미지 태그를 업데이트합니다
-
업데이트된 Custom Resource를 적용합니다
Operator가 W&B 컴포넌트에 대해 롤링 업데이트를 수행합니다.
배포를 성공적으로 완료한 후:
- 사용자 인증 구성: SSO 또는 기타 인증 방법을 설정합니다.
- 모니터링 설정: W&B 인스턴스와 인프라에 대한 모니터링을 구성합니다.
- 업데이트 계획 수립: Server upgrade process를 검토하고 업데이트 주기를 수립합니다.
- 백업 구성: MySQL 데이터베이스용 백업 절차를 수립합니다.
- 프로세스 문서화: 특정 에어갭 업데이트 절차를 위한 운영 절차서를 작성합니다.
배포 중 문제가 발생하면 다음을 확인하세요: