シグナル と カスタムモニター
| シグナル | Custom monitors | |
|---|---|---|
| Configuration | ワンクリックで有効化でき、prompt を作成する必要はありません | スコアリング用の prompt、モデル、パラメーターを完全に制御できます |
| Scope | 事前設定済みの品質分類器とエラー分類器 | 自分で定義した任意の評価基準 |
| Trace selection | 自動 (品質は成功したルートトレース、エラーは失敗したトレース) | operations、フィルター、サンプリング率を設定可能 |
| Model | Serverless Inference (プリセット) | 任意の商用モデルまたは Serverless Inference モデル |
| Use case | 実績のある分類器を使って本番モニタリングをすばやく開始したい場合 | アプリケーション固有のカスタム評価基準を使いたい場合 |
Weave でモニターを作成する
- W&B UI を開き、Weave プロジェクトを開きます。
- Weave のサイドバーで Monitors を選択し、+ New Monitor ボタンをクリックします。Create new monitor モーダル ダイアログが開きます。
-
Create new monitor メニューで、次のフィールドを設定します。
- Name: 文字または数値で始める必要があります。使用できるのは、文字、数値、ハイフン、アンダースコアです。
- Description (Optional): モニターの動作内容を説明します。
- Active monitor toggle: モニターのオン/オフを切り替えます。
- Calls to monitor:
- Operations: モニターする
@weave.opを 1 つ以上選択します。使用可能な op の一覧に表示されるには、その op を使用するトレースを少なくとも 1 つログしておく必要があります。 - Filter (Optional): 対象となる Call を絞り込みます (たとえば
max_tokensやtop_pに基づいて絞り込めます) 。 - Sampling rate: スコアリングする Call の割合です (0% ~ 100%) 。
- Operations: モニターする
- LLM-as-a-judge configuration:
- Scorer name: 文字または数値で始める必要があります。使用できるのは、文字、数値、ハイフン、アンダースコアです。
- Score Audio: 使用可能な LLM モデルをフィルターして、音声対応モデルのみを表示します。また、Media Scoring JSON Paths フィールドが表示されます。
- Score Images: 使用可能な LLM モデルをフィルターして、画像対応モデルのみを表示します。また、Media Scoring JSON Paths フィールドが表示されます。
- Judge model: op のスコアリングに使用するモデルを選択します。このメニューには、W&B アカウントで設定した商用 LLM モデルに加えて、Serverless Inference models も表示されます。音声対応モデルには、名前の横に Audio Input ラベルが表示されます。選択したモデルについて、次の設定を行います。
- Configuration name: このモデル設定の名前です。
- System prompt: 判定モデルの役割とペルソナを定義します。たとえば、“You are an impartial AI judge.” のように指定します。
- Response format: 判定モデルが応答を出力する形式です。
json_objectやプレーン テキストのtextなどがあります。 - Scoring prompt: op をスコアリングするための評価タスクです。スコアリング プロンプトでは、op の prompt variables を参照できます。たとえば、“Evaluate whether
{output}is accurate based on{ground_truth}.” のように指定します。
- Media Scoring JSON Paths: トレースデータからメディアを抽出する JSONPath 式 (RFC 9535) を指定します。パスを指定しない場合、モニターにはユーザー メッセージ内のスコアリング可能なすべてのメディアが含まれます。このフィールドは、Score Audio または Score Images を有効にすると表示されます。
- モニターの各フィールドを設定したら、Create monitor を選択します。モニターが Weave プロジェクトに追加されます。コードがトレースの生成を開始すると、Traces タブでモニター名を選択し、表示されたパネルのデータを確認してスコアをレビューできます。
feedback フィールドに自動的に保存します。
例: 真実性モニターを作成する
- 文を生成する関数を定義します。生成される文には、正しいものと正しくないものがあります。
- Python
- TypeScript
- project にトレースをログするために、関数を少なくとも 1 回実行します。これにより、その op を W&B UI でモニタリングできるようになります。
- W&B UI で Weave プロジェクトを開き、サイドバーから Monitors を選択します。次に、New Monitor を選択します。
-
Create new monitor メニューで、次の値を使用して各フィールドを設定します。
- Name:
truthfulness-monitor - Description:
Evaluates the truthfulness of generated statements. - Active monitor: オン に切り替えます。
- Operations:
generate_statementを選択します。 - サンプリング率: すべての call をスコアするため、
100%に設定します。 - Scorer name:
truthfulness-scorer - Judge model:
o3-mini-2025-01-31 - System prompt:
You are an impartial AI judge. Your task is to evaluate the truthfulness of statements. - Response format:
json_object - スコアリング プロンプト:
- Name:
- Create monitor を選択します。これで、モニターが Weave プロジェクトに追加されます。
- スクリプトで、真実性の度合いが異なる文を使って関数を呼び出し、scoring function をテストします。
- Python
- TypeScript
- 複数の異なる文でスクリプトを実行した後、W&B UI を開いて Traces タブに移動します。任意の LLMAsAJudgeScorer.score トレースを選択して、結果を確認します。

generate_statement の各呼び出しをスコアし、その結果を元のトレースとともに保存する、動作する真実性モニターを利用できます。結果は Weave UI での分析や比較に使用できます。