メインコンテンツへスキップ
エージェント型アプリケーションをトレースする場合は、Agents ページの Signals タブを使用してください。エージェント向け シグナルを参照してください。
レイテンシ、トークン数、コストといった標準的なシステムメトリクスだけでは、エージェントの動作を十分に捉えられません。個々のトレースを調べれば深い洞察を得られますが、本番環境で生成される数百万件ものトレースに対してそれを行うのは現実的ではありません。 シグナル は、本番環境のエージェントに対して自動化された動作ベースのスコアリングを提供することで、この課題に対応する高水準のモニタリングソリューションを実現します。
  • 自動スコアリング: 本番環境に入ってくるすべてのトレースが自動的に処理され、一般的な品質上の問題やエラーについてスコアリングされます。
  • インフラストラクチャー: 処理は CoreWeave compute と CoreWeave GPUs によって支えられており、数百万件のトレースにもスケーラブルに対応できます。
本番環境で シグナル を使用すると、次のことが可能になります。
  • 動作に関する洞察を得る。システムメトリクスを超えて、エージェントがハルシネーションを起こしていないか、会話パターンに従えているか、根拠となる証拠に基づいて応答できているかを把握できます。
  • リサーチループを加速する。シグナル によって生成されたスコアと失敗分析を使用して弱点を特定し、モデル改善、データアノテーション、または強化学習の検討に活用できます。

利用可能なシグナル

W&B Weave には組み込みシグナルを備えたモニターが用意されています。これらは、追加のカスタム設定なしでデフォルトで使用でき、本番トレースに対する一般的な品質上の問題やエラーを評価するプリセットの Scorer です。各組み込みシグナルは、ベンチマーク済みの LLM プロンプト を使用してトレースを分類し、検出された問題を表すカンマ区切りのタグとして結果を保存します。 シグナルはトレースのスコアリングに Serverless Inference モデルを使用するため、外部のAPIキーは必要ありません。 W&B Weave には、2 つのグループに分かれた 13 個のプリセットシグナルがあります。

品質シグナル

品質シグナルは、成功したルートレベルのトレースについて、出力の品質や安全性に関する問題を評価します。
SignalWhat it detects
Hallucination提供された入力コンテキストと矛盾する、捏造された事実や主張
Low quality形式が不適切、内容が不十分、または不完全な応答
User frustration繰り返しの質問、否定的な感情、苦情など、ユーザーの不満の兆候
Jailbreaking安全ガイドラインの回避を試みるプロンプトインジェクションやジェイルブレイク
NSFW入力または出力に含まれる、露骨、暴力的、またはその他の不適切なコンテンツ
Lazy簡潔すぎる、支援を拒否する、作業を先送りするなどの、手間をかけていない応答
Forgetful会話の前半で示されたコンテキストを使えていないこと、または以前に示された事実や指示を無視していること

エラーシグナル

エラーシグナルは、失敗したトレースを根本原因ごとに分類し、インフラストラクチャーやアプリケーションの問題を特定して解決しやすくします。
SignalWhat it detects
Network ErrorDNS の障害、タイムアウト、接続のリセット、その他の接続問題
RatelimitedHTTP 429 応答、クォータの枯渇、上流 API によるスロットリング
Request Too Largeサイズやトークンの制限を超えるリクエスト (コンテキストウィンドウ超過など)
Bad Requestサーバーがリクエストを拒否したクライアント側のエラー (429 を除く 4xx)
Bad Responseリモートサービスから返された無効、想定外、または使用不能な応答 (5xx)
BugKeyErrorTypeError、ロジックエラーなど、アプリケーションコードの不具合

シグナルの仕組み

各シグナルは、LLM-as-a-judge アプローチを使用してトレースを分類します。
  • トレースの選択: Quality シグナルは、正常終了したルートレベルのトレースを評価します。Error シグナルは、失敗したトレースを評価します。Weave は子スパンや中間の Call をスコアリングしません。
  • プロンプトの構築: Weave は、トレースのメタデータ、inputs、outputs、例外の詳細 (存在する場合) 、およびオペレーションのソースコードを含むプロンプトを構築します。Weave は、シグナルの分類器プロンプトに、検出対象の特定の問題に関する指示を追加します。
  • LLM によるスコアリング: 各シグナルについて、Serverless Inference モデルが二値分類 (その問題がトレースに存在するかどうか) を実行します。検出された問題は、カンマ区切りの string tags として返されます (例: "Low-quality, User-frustration, Forgetful") 。
同じグループ (Quality または Error) の複数のシグナルが有効になっている場合、Weave はそれらを 1 回の LLM Call にまとめて処理します。モデルは、有効なすべての分類器を 1 回で評価し、それぞれについて結果を返します。

Monitors ページからシグナルを追加する

シグナルを追加すると、自動スコアリングが有効になり、Weave がそのシグナルの条件に照らして新しい本番トレースを評価するようになります。シグナルを有効にするには、次の手順に従います。
  1. wandb.ai にアクセスし、Weave プロジェクトを開きます。
  2. Weave のプロジェクトのサイドバーで、Monitors を選択します。
  3. Monitors ページの上部に、推奨されるシグナルのカードが横一列に表示されます。各カードには、シグナル名、説明、+ Add signal ボタンが表示されます。
  4. シグナルを追加するには、シグナルカードの Add signal ボタンを選択します。シグナルはすぐに新しいトレースのスコアリングを開始します。
  5. 複数のシグナルを一度に追加するには、[X] more signals ボタンを選択します。すると、利用可能なすべてのシグナルがカテゴリごとにグループ化されて表示されるドロワーが開きます。
  6. 有効にするシグナルを選択し、Add signals を選択します。
シグナルを追加すると、Weave は受信したトレースを自動的にスコアリングします。

アクティブなシグナルを管理する

シグナルの実行を開始すると、どのシグナルがアクティブかを確認したり、不要になったシグナルをオフにしたりできます。アクティブなシグナルを表示または削除するには、次の手順に従います。
  1. Monitors ページで、Manage signals () ボタンを選択します。カテゴリごとに整理された、現在アクティブなすべてのシグナルの一覧を表示するドロワーが開きます。
  2. シグナルにカーソルを合わせ、Remove signal () ボタンを選択して、そのシグナルを無効にします。
シグナルを削除すると、新しいトレースに対するスコアリングは停止します。Weave はそのシグナルの既存のスコアを保持します。

組み込みシグナルを使用する

シグナルが有効になり、トレースの評価が始まると、Weave のさまざまな場所で結果を確認できます。Weave が問題を検出したときにアラートを設定することもできます。以下のセクションでは、シグナルの結果を確認できる場所と、その対処方法について説明します。

Traces ページでタグ付きの Call トレースを確認する

個々の function を @weave.op decorator を使って Ops としてトレースする場合、Weave はシグナル の結果を Call object の feedback として保存します。これらの結果は Traces ページからクエリできます。 Traces ページでは、Signals 列を使って、特定の動作を示すトレースを確認できます。Signals 列には、条件を満たした タグ が表示されます。これらの タグ にカーソルを合わせると、スコアの信頼度と推論を確認できます。 Signals 列の Signals タグにカーソルを合わせると、確信度と推論が表示される Weave Traces view。 トレース表の toolbar を使用して、特定の シグナル が trigger されたトレースだけが表示されるように、トレース表をフィルターできます。 シグナル が生成した 分類器 Call を選択して Trace Details view を確認すると、Traces ページで シグナル の追加詳細を確認できます。Call の Output で、推論については classifier_meta を確認してください。たとえば、次のスクリーンショットでは、Quality-classifiers シグナル が Low-quality に一致し、確信度 (0.9) とこの評価の理由が表示されています。 quality-classifier のトレースが選択された Weave Traces view。詳細パネルには、信頼度スコアと理由を含む classifiers メタデータを含む Call の詳細が表示されています。

project ダッシュボードでシグナルを確認する

project レベルでもシグナルを確認できます。
  1. プロジェクトのサイドバーで Project を選択します。
  2. Project ダッシュボードの上部で、Weave タブを選択します。
  3. Weave ダッシュボードのパネルで、Monitor Scores を確認します。
Monitor Scores project パネルでは、project で発生したシグナルの時系列グラフを確認できます。 project のアクティビティによるシグナルのグラフを表示する Weave project ダッシュボードの Monitor Scores パネル。

シグナルにアラートを設定する

UI でシグナルを確認するだけでなく、シグナルがトリガーされたときに Weave から通知を受け取ることもできます。エージェントのパフォーマンスが特定のしきい値を下回ったときに、Slack などのツールを通じてチームに通知する自動トリガーを設定できます。 シグナルがトリガーされたときに通知を受け取るには、オートメーションを設定します。
組み込みシグナルではカバーできない特定の監視を行うには、カスタムモニターを設定するを参照してください。