W&B ModelsでWeaveを使用する - Weights & Biases Documentation

これはインタラクティブなノートブックです。ローカルで実行することも、以下のリンクを使用することもできます。

前提条件

まず、必要なライブラリをインストールし、APIキーを設定して、W&B にログインし、新しい W&B プロジェクトを作成します。

pip を使って、weave、pandas、unsloth、wandb、litellm、pydantic、torch、faiss-gpu をインストールします。

%%capture
!pip install weave wandb pandas pydantic litellm faiss-gpu
python
%%capture
!pip install unsloth
# 最新のナイトリー版 Unsloth も取得する！
!pip uninstall unsloth -y && pip install --upgrade --no-cache-dir "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"

環境内の必要なAPIキーを追加します。

import os

from google.colab import userdata

os.environ["WANDB_API_KEY"] = userdata.get("WANDB_API_KEY")  # W&B Models と Weave
os.environ["OPENAI_API_KEY"] = userdata.get(
    "OPENAI_API_KEY"
)  # OpenAI - 検索埋め込み用
os.environ["GEMINI_API_KEY"] = userdata.get(
    "GEMINI_API_KEY"
)  # Gemini - ベースチャットモデル用

W&B にログインし、新しいプロジェクトを作成します。

import pandas as pd
import wandb

import weave

wandb.login()

PROJECT = "weave-cookboook-demo"
ENTITY = "wandb-smle"

weave.init(ENTITY + "/" + PROJECT)

Models Registry から `ChatModel` をダウンロードし、`UnslothLoRAChatModel` を実装する

このシナリオでは、Llama-3.2 モデルはすでに Model Team によって unsloth ライブラリを使用してパフォーマンス最適化向けにファインチューニングされており、W&B Models Registry で利用できます。この step では、Registry からファインチューニング済みの ChatModel を取得し、RagModel と互換性を持たせるために weave.Model に変換します。

以下で参照している RagModel は、完全な RAG application と見なせるトップレベルの weave.Model です。これには ChatModel、ベクトルデータベース、プロンプトが含まれます。ChatModel も weave.Model であり、W&B Registry から artifact をダウンロードするコードを含んでいます。ChatModel は、RagModel の一部として他の種類の LLM チャットモデルにも対応できるよう、モジュール単位で変更できます。詳細については、Weave でモデルを表示してください。

ChatModel をロードするには、アダプター付きの unsloth.FastLanguageModel または peft.AutoPeftModelForCausalLM を使用し、アプリに効率的にインテグレーションできます。Registry からモデルをダウンロードした後、model_post_init method を使用して初期化と予測ロジックを設定できます。この step に必要なコードは Registry の Use タブで利用でき、そのまま実装にコピーできます。以下のコードは、W&B Models Registry から取得したファインチューニング済み Llama-3.2 モデルを管理、初期化、使用するための UnslothLoRAChatModel クラスを定義しています。UnslothLoRAChatModel は、最適化された推論のために unsloth.FastLanguageModel を使用します。model_post_init method はモデルのダウンロードと設定を処理し、predict method はユーザーのクエリを処理してレスポンスを生成します。コードをユースケースに合わせて調整するには、MODEL_REG_URL をファインチューニングしたモデルの正しい Registry パスに更新し、max_seq_length や dtype などのパラメーターをハードウェアや要件に基づいて調整してください。

from typing import Any

from pydantic import PrivateAttr
from unsloth import FastLanguageModel

import weave

class UnslothLoRAChatModel(weave.Model):
    """
    モデル名だけでなく、より多くのパラメーターを保存してバージョン管理できるよう、追加のChatModelクラスを定義します。
    特に、固有のパラメーターを持つファインチューニング（ローカルまたはaaS）を考慮する場合に有用です。
    """

    chat_model: str
    cm_temperature: float
    cm_max_new_tokens: int
    cm_quantize: bool
    inference_batch_size: int
    dtype: Any
    device: str
    _model: Any = PrivateAttr()
    _tokenizer: Any = PrivateAttr()

    def model_post_init(self, __context):
        # レジストリの「Use」タブからそのままコピー＆ペーストできます
        run = wandb.init(project=PROJECT, job_type="model_download")
        artifact = run.use_artifact(f"{self.chat_model}")
        model_path = artifact.download()

        # unslothバージョン（ネイティブで2倍高速な推論を有効化）
        self._model, self._tokenizer = FastLanguageModel.from_pretrained(
            model_name=model_path,
            max_seq_length=self.cm_max_new_tokens,
            dtype=self.dtype,
            load_in_4bit=self.cm_quantize,
        )
        FastLanguageModel.for_inference(self._model)

    @weave.op()
    async def predict(self, query: list[str]) -> dict:
        # add_generation_prompt = true - 生成時に必ず追加してください
        input_ids = self._tokenizer.apply_chat_template(
            query,
            tokenize=True,
            add_generation_prompt=True,
            return_tensors="pt",
        ).to("cuda")

        output_ids = self._model.generate(
            input_ids=input_ids,
            max_new_tokens=64,
            use_cache=True,
            temperature=1.5,
            min_p=0.1,
        )

        decoded_outputs = self._tokenizer.batch_decode(
            output_ids[0][input_ids.shape[1] :], skip_special_tokens=True
        )

        return "".join(decoded_outputs).strip()
python
MODEL_REG_URL = "wandb32/wandb-registry-RAG Chat Models/Finetuned Llama-3.2:v3"

max_seq_length = 2048  # 任意の値を指定できます！内部でRoPEスケーリングを自動サポートしています！
dtype = (
    None  # 自動検出はNone。Tesla T4・V100はFloat16、Ampere以降はBfloat16を使用
)
load_in_4bit = True  # メモリ使用量削減のため4bit量子化を使用します。Falseも指定可能です。

new_chat_model = UnslothLoRAChatModel(
    name="UnslothLoRAChatModelRag",
    chat_model=MODEL_REG_URL,
    cm_temperature=1.0,
    cm_max_new_tokens=max_seq_length,
    cm_quantize=load_in_4bit,
    inference_batch_size=max_seq_length,
    dtype=dtype,
    device="auto",
)
python
await new_chat_model.predict(
    [{"role": "user", "content": "What is the capital of Germany?"}]
)

新しい `ChatModel` バージョンを `RagModel` に統合する

ファインチューニングしたチャットモデルを基に RAG アプリケーションを構築すると、パイプライン全体を作り直さなくても、用途に合わせて調整したコンポーネントを使用して対話型 AI を改善できます。この step では、Weave プロジェクトから既存の RagModel を取得し、その ChatModel を更新して、新たにファインチューニングしたモデルを使用するようにします。このシームレスな差し替えにより、ベクトルデータベース (VDB) やプロンプトなどの他のコンポーネントには手を加えず、アプリケーション全体の構造を維持したままパフォーマンスを向上できます。以下のコードは、Weave プロジェクトの参照を使用して RagModel オブジェクトを取得します。次に、RagModel の chat_model 属性を更新し、前の step で作成した新しい UnslothLoRAChatModel インスタンスを使用するようにします。その後、更新した RagModel を公開して新しいバージョンを作成します。最後に、更新した RagModel を使用してサンプルの予測クエリを実行し、新しいチャットモデルが使用されていることを確認します。

RagModel = weave.ref(
    "weave://wandb-smle/weave-cookboook-demo/object/RagModel:cqRaGKcxutBWXyM0fCGTR1Yk2mISLsNari4wlGTwERo"
).get()
python
RagModel.chat_model.chat_model
python
await RagModel.predict("When was the first conference on climate change?")
python
# MAGIC: chat_modelを差し替えて新しいバージョンを公開する（他のRAGコンポーネントは変更不要）
RagModel.chat_model = new_chat_model
python
RagModel.chat_model.chat_model
python
# 予測時に新しいバージョンを参照できるよう、先に新しいバージョンを公開する
PUB_REFERENCE = weave.publish(RagModel, "RagModel")
python
await RagModel.predict("When was the first conference on climate change?")

`weave.Evaluation` を実行する

次の step では、既存の weave.Evaluation を使用して、更新した RagModel のパフォーマンスを評価します。このプロセスにより、新たにファインチューニングしたチャットモデルが、RAG アプリケーション内で期待どおりに動作していることを確認できます。インテグレーションを簡素化し、Models チームと Apps チームのコラボレーションを可能にするため、評価結果をモデルの W&B run と Weave Workspace の両方にログします。 Models では:

評価 summary は、ファインチューニング済みチャットモデルのダウンロードに使用した W&B run にログされます。これには、分析用の workspace view に表示される summary メトリクスとグラフが含まれます。
評価のトレース ID は run の設定に追加され、Model Team が追跡しやすいように Weave ページへ直接リンクされます。

Weave では:

ChatModel の artifact または Registry へのリンクが、RagModel への入力として保存されます。
W&B run ID は、コンテキストをわかりやすくするために、評価トレースの追加列として保存されます。

以下のコードは、評価オブジェクトを取得し、更新した RagModel を使用して評価を実行し、その結果を W&B と Weave の両方にログする方法を示しています。評価 reference (WEAVE_EVAL) がプロジェクトの設定と一致していることを確認してください。

# MAGIC: 評価データセットとスコアラーを使って評価を取得し、そのまま使用できる
WEAVE_EVAL = "weave://wandb-smle/weave-cookboook-demo/object/climate_rag_eval:ntRX6qn3Tx6w3UEVZXdhIh1BWGh7uXcQpOQnIuvnSgo"
climate_rag_eval = weave.ref(WEAVE_EVAL).get()
python
with weave.attributes({"wandb-run-id": wandb.run.id}):
    # .call 属性を使用して結果と call の両方を取得し、評価トレースを Models に保存する
    summary, call = await climate_rag_eval.evaluate.call(climate_rag_eval, RagModel)
python
# Models にログする
wandb.run.log(pd.json_normalize(summary, sep="/").to_dict(orient="records")[0])
wandb.run.config.update(
    {"weave_url": f"https://wandb.ai/wandb-smle/weave-cookboook-demo/r/call/{call.id}"}
)
wandb.run.finish()

新しい RAG Model を Registry に保存

更新した RagModel を Models チームと Apps チームの両方が今後使用できるようにするため、参照 artifact として W&B Models Registry にプッシュします。以下のコードでは、更新した RagModel の weave オブジェクトのバージョンと名を取得し、それらを使用して参照リンクを作成します。続いて、モデルの Weave URL を含むメタデータを持つ新しい artifact を W&B に作成します。この artifact は W&B Registry にログされ、指定した registry path にリンクされます。コードを実行する前に、ENTITY 変数と PROJECT 変数がご利用の W&B 環境に合っていること、および対象の registry path が正しく指定されていることを確認してください。このプロセスにより、新しい RagModel が W&B エコシステムに公開され、共同作業や再利用をしやすくしたうえで workflow が完了します。

MODELS_OBJECT_VERSION = PUB_REFERENCE.digest  # weave オブジェクトバージョン
MODELS_OBJECT_NAME = PUB_REFERENCE.name  # weave オブジェクト名
python
models_url = f"https://wandb.ai/{ENTITY}/{PROJECT}/weave/objects/{MODELS_OBJECT_NAME}/versions/{MODELS_OBJECT_VERSION}"
models_link = (
    f"weave://{ENTITY}/{PROJECT}/object/{MODELS_OBJECT_NAME}:{MODELS_OBJECT_VERSION}"
)

with wandb.init(project=PROJECT, entity=ENTITY) as run:
    # 新しい Artifact を作成する
    artifact_model = wandb.Artifact(
        name="RagModel",
        type="model",
        description="Weave の RagModel からの Models リンク",
        metadata={"url": models_url},
    )
    artifact_model.add_reference(models_link, name="model", checksum=False)

    # 新しい artifact をログする
    run.log_artifact(artifact_model, aliases=[MODELS_OBJECT_VERSION])

    # registry にリンクする
    run.link_artifact(
        artifact_model, target_path="wandb32/wandb-registry-RAG Models/RAG Model"
    )

Documentation Index

​前提条件

​Models Registry から ChatModel をダウンロードし、UnslothLoRAChatModel を実装する

​新しい ChatModel バージョンを RagModel に統合する

​weave.Evaluation を実行する

​新しい RAG Model を Registry に保存

前提条件

Models Registry から `ChatModel` をダウンロードし、`UnslothLoRAChatModel` を実装する

新しい `ChatModel` バージョンを `RagModel` に統合する

`weave.Evaluation` を実行する

新しい RAG Model を Registry に保存