NVIDIA NeMo 推論マイクロサービスデプロイジョブ

less than a minute

モデルアーティファクトを W&B から NVIDIA NeMo Inference Microservice にデプロイします。これを行うには、W&B Launch を使用します。W&B Launch はモデルアーティファクトを NVIDIA NeMo Model に変換し、稼働中の NIM/Triton サーバーにデプロイします。

W&B Launch は現在、以下の互換性のあるモデルタイプを受け入れています:

Llama2
StarCoder
NV-GPT (近日公開)

デプロイメント時間はモデルとマシンタイプによって異なります。ベースの Llama2-7b 構成は、GCP の a2-ultragpu-1g で約1分かかります。

クイックスタート

launch キューを作成するまだ持っていない場合は、以下に例としてキュー設定を示します。

net: host
gpus: all # 特定の GPU セットまたは `all` を使用してすべてを使うこともできます
runtime: nvidia # nvidia コンテナランタイムも必要です
volume:
  - model-store:/model-store/

プロジェクトにこのジョブを作成します:

wandb job create -n "deploy-to-nvidia-nemo-inference-microservice" \
   -e $ENTITY \
   -p $PROJECT \
   -E jobs/deploy_to_nvidia_nemo_inference_microservice/job.py \
   -g andrew/nim-updates \
   git https://github.com/wandb/launch-jobs

GPU マシンでエージェントを起動します:

wandb launch-agent -e $ENTITY -p $PROJECT -q $QUEUE

希望する設定でデプロイメントローンチジョブを Launch UI から送信します。

CLI から送信することもできます:

wandb launch -d gcr.io/playground-111/deploy-to-nemo:latest \
  -e $ENTITY \
  -p $PROJECT \
  -q $QUEUE \
  -c $CONFIG_JSON_FNAME

Launch UI でデプロイメントプロセスを追跡できます。

完了すると、すぐにエンドポイントに curl してモデルをテストできます。モデル名は常に ensemble です。

 #!/bin/bash
 curl -X POST "http://0.0.0.0:9999/v1/completions" \
     -H "accept: application/json" \
     -H "Content-Type: application/json" \
     -d '{
         "model": "ensemble",
         "prompt": "Tell me a joke",
         "max_tokens": 256,
         "temperature": 0.5,
         "n": 1,
         "stream": false,
         "stop": "string",
         "frequency_penalty": 0.0
         }'

フィードバック

このページは役に立ちましたか?

Glad to hear it! If you have more to say, please let us know.

Sorry to hear that. Please tell us how we can improve.

最終更新 August 7, 2025

ページの編集ドキュメントのissueを作成セクション全体を印刷