メインコンテンツへスキップ
Weave for Agents はパブリック プレビューです。一般提供前に、機能、API、Agents view UI は変更される可能性があります。
Agents ビュー では、エージェントが行ったすべての会話について、ターンごとの記録を token usage、ツールの呼び出し、実行 スパン とあわせて確認できます。 エージェント アプリケーションのデバッグが難しいのは、重要な動作がユーザーのリクエストと最終的なレスポンスの間で起こるためです。W&B Weave の Agents ビュー は、その中間レイヤーを可視化します。ここには、エージェントが行ったすべての会話が、完全なメッセージ履歴、スパン レベルの実行詳細、関連する token コストとともに記録されています。エージェントがタスクを完了したか、何回 ツール呼び出し を行ったか、時間や予算がどこで費やされたかをひと目で確認できます。エージェントを構築して反復的に改善するチームにとって、これは本番環境での動作を理解するための出発点です。

はじめに

project の Agents ビューを開くには、次の手順を実行します。
  1. https://wandb.ai にアクセスし、project を選択します。
  2. サイドバーメニューで Agents を選択すると、project に保存されているすべてのエージェントとの会話を表示できます。
Agents ビューは Agents タブで開き、project にトレースをログしている各エージェントがカードとして表示されます。ここから、以下のセクションで説明するタブを使用して、個々の会話、スパン、シグナルを詳しく確認できます。

Agents tab

Agents タブでは、この project にトレースをログしたすべてのエージェントを一覧し、全体像を把握できます。どのエージェントがアクティブかを確認したり、エージェント間でレイテンシやエラー率を比較したりするのに使用できます。個々の会話を詳しく確認する前に、注意が必要なエージェントを特定するのにも役立ちます。 エージェントカードのグリッドを表示した Agents タブ。各カードには会話数、span 数、平均レイテンシ、エラー率が表示されています。 次のようなシナリオで役立ちます。
  • 複数のエージェントの監視。 カードのグリッドを使うと、個々の会話を開かなくても、すべてのエージェントのレイテンシとエラー率を一度に比較できます。1 つのカードでレイテンシの急上昇や、新たに赤く表示されたエラー率が見られる場合は、調査すべきリグレッションの兆候です。
  • 動きのないエージェントの特定。 Last seen で並べ替えると、最近アクティビティを記録していないエージェントを見つけやすくなります。これは、deployment が稼働中であることを確認したり、予期せずトレースのログを停止した可能性があるエージェントを特定したりするのに役立ちます。
  • バージョンの比較。 各カードのバージョン数は、そのエージェントの異なるバージョンがいくつ deployment されたかを示します。エラー率の上昇に加えてバージョン数も多い場合は、最近の deployment で導入されたリグレッションを示している可能性があります。
  • エージェントの詳細確認。 任意のカードをクリックすると、そのエージェントの詳細パネルが開き、そこから会話または span にアクセスできます。
Agents タブで選択されたエージェントカード。右側で詳細パネルが開き、エージェントのメタデータとナビゲーション オプションが表示されています。

エージェントカード

各エージェントは、次の情報を表示するカードとして表されます。
フィールド説明
Agent nameエージェントのトレースとともにログされた名前。
Last seenエージェントが最後にアクティビティを記録してからの経過時間。
Versionエージェントの各スパンで記録された、重複しない agent_version 値の数。
Activity histogram最近の会話量を示す棒グラフで、利用傾向をすばやく把握できます。
Conversations記録された会話の総数。
Spansすべての会話で記録されたスパンの総数。
Latency (avg.)呼び出しごとのエンドツーエンドの平均所要時間。
Error rateエラーを返した呼び出しの割合。0% を超える場合は赤色で表示されます。

エージェントを検索して並べ替える

Search agents フィールドを使用して、エージェント名でカードをフィルターします。 並べ替えドロップダウン (デフォルト: Last seen) を使用して、グリッドの表示順を変更します。使用可能な 並べ替えオプションは次のとおりです。
  • Last seen: 直近でアクティブだったエージェントから順に表示されます。
  • Most invocations: 会話数が多い順に表示されます。
  • Most input tokens: 入力 tokens の消費量が多い順に表示されます。
  • Most errors: エラー数が多い順に表示されます。
Most errors で並べ替えると、日次の簡単なヘルスチェックに役立ちます。エラー率が 0 ではないエージェントが すぐに上位に表示され、カード上の赤いエラー率をひと目で確認するだけで、調査が必要なものをすぐに把握できます。

Conversations タブ

Agents ページの Conversations タブでは、個々のエージェントの Runs を閲覧、フィルター、詳細確認できます。これを使用すると、失敗の調査、token コストの測定、そして 1 つの run を構成する LLM calls と tool 実行の流れの把握が可能です。 会話全体を通してエージェントが何を発言し、何を行ったのかを高いレベルで把握したい場合は、まず Conversations タブを確認してください。 エージェント名、呼び出し回数、span 数、token 数、最終アクティビティの列を含む、エージェントの会話一覧を表示した Conversations タブ。

Conversations テーブル

Conversations テーブルには、会話ごとに 1 行が表示されます。以下の列がデフォルトで表示されます。
説明
Conversation会話 ID と最初のメッセージのプレビューです。
Last messageロールを示す表示付きの最新メッセージのプレビューです。
Agent関与したエージェントの名です。
Invocations会話中にエージェントが呼び出された回数です。
Spans記録されたスパンの合計数です。スパン数が多いほど、分岐やツールの使用が多いことを示します。
In tokens消費された入力トークン数です。
Out tokens生成された出力トークン数です。
Started会話が開始された時刻です。
Last activity最後のメッセージが記録されてからの経過時間です。
追加の列を表示または非表示にするには、ツールバーの Columns をクリックします。

フィルターと時間ウィンドウ

Filter バーを使用して、エージェント、モデル、エラーステータス、 その他の属性で結果を絞り込みます。 時間ウィンドウ セレクター (1m1h6h24h7d、または 30d) を使用すると、その期間内にアクティブだった会話のみに一覧を絞り込めます。 一覧の上にある会話数のヒストグラムは、選択したウィンドウに応じて更新されます。 会話一覧の任意の列ヘッダーにカーソルを合わせると、その列を特定の値または 範囲でフィルターできます。

Agent の会話の詳細

会話の行をクリックすると、2 つのサブタブ: TurnsEvents がある詳細パネルが開きます。 Conversations タブで選択した会話。詳細パネルが開き、ターンごとのメッセージスレッド、ツール呼び出し、推論、そして右側に Events のタイムラインが表示されています。

ターン

会話詳細のターン パネルには、各ターンが時系列順に、1 から番号付きで表示されます。 各ターンには、中間応答とツール呼び出しの数、および 合計の実行時間が表示されます。ターンを展開すると、メッセージスレッド全体を確認できます。
メッセージ
1 つのターン内では、メッセージはロールごとにグループ化されます。 ユーザー メッセージには、メッセージ テキストと、添付されたメディアまたはコンテンツ参照が表示されます。 アシスタント メッセージには、次の内容が表示されます。
  • エージェント名と使用されたモデル (例: gpt-5.5-2026-04-23) 。
  • タイムスタンプと所要時間。
  • 入力および出力の token 数 (例: 16086 in 295 out) 。
  • モデルで拡張思考が使用された場合は、展開可能な 推論 セクション。
  • 応答テキスト。長い応答は自動的に折りたたまれます。
ツール呼び出しには、ツール名、タイムスタンプ、所要時間が表示されます。引数または結果データを利用できる場合、ツール呼び出しは展開可能になり、キーと値の表に 引数結果 が表示されます。呼び出しが失敗した場合は、ERROR バッジが表示されます。
エラー状態
ツール呼び出しがエラー ステータスを返すと、その横に赤い ERROR バッジがインラインで 表示されます。Events タイムラインでは、そのイベントもタイプにかかわらず 赤色で表示されます。

イベント

右側の Events パネルには、選択したターン内で発生したイベントの 順序を示す色分けされた帯が表示されます。 イベント タイムラインでは、各セグメントの色がイベントのタイプを示します。
イベント タイプ
ユーザー メッセージ
アシスタント メッセージ
ツール コール
シエナサブエージェントの呼び出し
マゼンタエージェントのハンドオフ
灰色コンテキストの圧縮
エラーを返したイベント
Events タイムラインを使うと、ターンがどのように構成されていたかを すばやく把握できます。たとえば、メッセージ スレッド全体を読む前に、 LLM 中心だったのか、ツール中心だったのか、あるいは サブエージェントへの委任が含まれていたのかを確認できます。
スコア
project でいずれかのシグナルが有効になっている場合、会話のメトリクスを示す スコア セクションが表示されます。ここには、シグナルの Scorer 名、0〜1 の全体的な数値評価、 信頼度 (%) 、および スコアに寄与した各ルーブリック項目が表示されます。各ルーブリック項目には、それぞれの信頼度も表示されます。これにより、 ターンのスコアが高かったかどうかだけでなく、どのルーブリック 基準に合格したか、または不合格だったかも把握できます。
Meta summary
Meta summary セクションには、選択した会話の集計統計が表示されます。
FieldDescription
Tokens入力トークンと出力トークンの合計数。
Tool callsすべてのターンにわたる tool call の総数。
Messagesメッセージの総数。
Session time最初のメッセージから最後のメッセージまでの実時間。
Turn page現在表示されているターンの範囲と、ターンの総数。
Token の内訳
Token の内訳セクションには、選択した会話のキャッシュと推論の詳細が表示されます。
FieldDescription
Cache readprompt キャッシュから読み込まれたトークン。
Cache writtenprompt キャッシュに書き込まれたトークン。
Cache hit rateキャッシュから読み込まれた入力トークンの割合。割合が高いほど、コストとレイテンシが低減されます。
推論拡張思考に費やされたトークン。
推論 ratio拡張思考に費やされた出力トークンの割合。
Participants
Participants セクションには、会話に含まれるエージェントとモデルが一覧表示されます。マルチエージェントの会話では、ターンごとにここに表示されるモデル名が異なる場合があります。

Spans タブ

Spans タブには、project 内のすべてのエージェントアクティビティで記録された各 span が表示されます。Conversations タブではアクティビティが会話レベルの行に集約されます。Spans タブではその下にある生の処理内容、つまり各 LLM Call、tool の実行、エージェントの呼び出しがそれぞれ1行ずつ表示されます。これを使用すると、どの Call が遅かったのか、どのモデルが想定外に多くの トークン を消費したのか、どの tool の呼び出しが失敗したのかを正確に追跡できます。 エージェントの会話の span を表示する Spans タブ。

Spans 表

Spans 表は Conversations 表とほとんどの列 (agent、model、tool、token 数、ステータス) を共有しています。このビューに固有の列は次のとおりです。
説明
SpanSpan の名前と ID です。その下に trace ID が表示されます。
Kindこの操作の OpenTelemetry span kind です (INTERNALSERVERCLIENT など) 。
Operation操作のタイプです (chatexecute_toolinvoke_agent など) 。
Finishedモデルから返される終了理由です (stopmax_tokens など) 。終了理由をモデルが報告する chat span でのみ表示されます。
キャッシュ token の内訳、推論 token、LLM パラメーター、W&B Run メタデータの追加列は、Columns ボタンから利用できます。 Spans タブは、Conversations タブでは得られない操作レベルの精度が必要な場合に特に役立ちます。
  • 高コストな Call の特定。 In または Out token で並べ替えることで、会話レベルの合計ではなく、どの個別の LLM calls がコスト増の要因になっているかを特定できます。
  • 特定の操作タイプのデバッグ。 Operation でフィルターすると、すべての execute_tool span を絞り込んでエラー率を確認したり、特定のモデルのすべての chat span を確認したりできます。
  • 切り詰めの調査。 Finishedmax_tokens でフィルターすると、モデルが通常どおり完了する代わりに token 上限に達した span を検索できます。
  • W&B Run との関連付け。 デフォルトで非表示の列には W&B Run ID と run ステップが含まれており、特定の span を W&B 内のトレーニングまたは評価 run に関連付けることができます。

トレース グループ

任意の行をクリックすると、その行のトレースが選択され、同じトレース ID を持つ他のすべての スパン が強調表示されます。これにより、1 回のエージェント呼び出しで実行された一連の操作全体を確認できます。ここでのグループ化は会話単位ではなく、トレース単位で行われます。つまり、サブエージェントへの委譲が含まれる場合、1 つの会話に複数のトレースが含まれることがあります。

エージェント呼び出しの詳細

Spans 表の行をクリックすると、エージェント呼び出し全体のデータが表示された詳細パネルが開きます。 詳細パネルの上部にはフレームグラフが表示され、選択したトレース内のすべての span の実時間ベースでの 位置と相対的な所要時間を示します。各 span は、実際の所要時間に比例した色付きのブロックとして 表示され、トレース開始からの経過時間 (ミリ秒) における開始位置に配置されます。タイムラインでは次のことができます。
  • 最も時間のかかる処理をひと目で見つける。 幅の広いブロックは、全体のレイテンシの大部分を 占めた span を示します。
  • 並列性を確認する。 重なっているブロックは、span が順番にではなく 同時に実行されたことを示します。
  • 任意の span をその場で確認する。 タイムライン内のブロックをクリックすると、その span の詳細が表示され、入力メッセージと出力メッセージ、 トークン数、その他のメタデータを確認できます。
トレースを選択した状態の Spans タブ。表内の関連する span のグループが強調表示され、右側の詳細パネルにフレームグラフが表示されています。 また、詳細パネルのヘッダーで Show trace tree アイコンを選択すると、子 span を階層的なトレース ツリーとして表示することもできます。

Signals タブ

Signals タブには、エージェントの会話に対する tags と評価が表示されます。シグナルは、品質や安全性に関する問題を可視化し、問題のフラグ付け、パターンの検索、注意が必要なトレースの強調表示に役立ちます。シグナルを使用すると、エージェントの応答の品質を自動的にスコア化したり、ユーザーがいら立っていることを検知したり、NSFW コンテンツにフラグを付けたりできます。 セットアップと詳細な使用方法については、シグナルでエージェントをモニタリングするをご覧ください。