왜 LoRA에 W&B Inference를 사용해야 하나요?
- 한 번 업로드하면 즉시 배포 — 관리할 서버가 없습니다.
- 아티팩트 버전 관리를 통해 현재 어떤 버전이 라이브 상태인지 정확히 추적합니다.
- 전체 모델 가중치 대신 작은 LoRA 파일을 교체하여 몇 초 만에 모델을 업데이트합니다.
워크플로우
- LoRA 가중치를 W&B 아티팩트로 업로드합니다.
- API에서 아티팩트 URI를 모델 이름으로 참조합니다.
- W&B가 추론을 위해 가중치를 동적으로 로드합니다.
사전 요구 사항
다음이 필요합니다:- W&B API 키
- W&B Projects
openai및wandb패키지가 설치된 Python 3.8+:pip install wandb openai
LoRA 추가 및 사용 방법
두 가지 방법으로 W&B 계정에 LoRA를 추가하고 사용할 수 있습니다:- 다른 곳에서 트레이닝한 LoRA 업로드하기
- W&B에서 새로운 LoRA 트레이닝하기
사용자 정의 LoRA 디렉토리를 W&B 아티팩트로 업로드하세요. 로컬 환경, 클라우드 제공업체 또는 파트너 서비스 등 다른 곳에서 LoRA를 트레이닝한 경우에 적합합니다.이 Python 코드는 로컬에 저장된 LoRA 가중치를 버전이 지정된 아티팩트로 W&B에 업로드합니다. 필수 메타데이터(베이스 모델 및 스토리지 리전)가 포함된
lora 유형의 아티팩트를 생성하고, 로컬 디렉토리에서 LoRA 파일을 추가한 다음, 추론에 사용할 수 있도록 W&B 프로젝트에 로그를 남깁니다.주요 요구 사항
사용자 정의 LoRA를 Inference에서 사용하려면 다음이 필요합니다:- LoRA는 지원되는 베이스 모델 섹션에 나열된 모델 중 하나를 사용하여 트레이닝되어야 합니다.
- W&B 계정에
lora유형의 아티팩트로 PEFT 형식으로 저장된 LoRA. - 낮은 지연 시간을 위해 LoRA는
storage_region="coreweave-us"에 저장되어야 합니다. - 업로드할 때 트레이닝에 사용한 베이스 모델의 이름(예:
meta-llama/Llama-3.1-8B-Instruct)을 포함해야 합니다. 이를 통해 W&B가 올바른 모델로 로드할 수 있습니다.
지원되는 베이스 모델
현재 Inference는 다음 LLM들에 대해 구성되어 있습니다 (wandb.base_model에 정확한 문자열을 사용해야 합니다). 더 많은 모델이 곧 추가될 예정입니다:
OpenPipe/Qwen3-14B-InstructQwen/Qwen2.5-14B-Instructmeta-llama/Llama-3.1-70B-Instructmeta-llama/Llama-3.1-8B-Instruct