Weave for Agents はパブリック プレビューです。一般提供前に、機能、API、Agents view UI は変更される可能性があります。
Agents ビュー では、エージェントが行ったすべての会話について、ターンごとの記録を token usage、ツールの呼び出し、実行 スパン とあわせて確認できます。
エージェント アプリケーションのデバッグが難しいのは、重要な動作がユーザーのリクエストと最終的なレスポンスの間で起こるためです。W&B Weave の Agents ビュー は、その中間レイヤーを可視化します。ここには、エージェントが行ったすべての会話が、完全なメッセージ履歴、スパン レベルの実行詳細、関連する token コストとともに記録されています。エージェントがタスクを完了したか、何回 ツール呼び出し を行ったか、時間や予算がどこで費やされたかをひと目で確認できます。エージェントを構築して反復的に改善するチームにとって、これは本番環境での動作を理解するための出発点です。
project の Agents ビューを開くには、次の手順を実行します。
- https://wandb.ai にアクセスし、project を選択します。
- サイドバーメニューで Agents を選択すると、project に保存されているすべてのエージェントとの会話を表示できます。
Agents ビューは Agents タブで開き、project にトレースをログしている各エージェントがカードとして表示されます。ここから、以下のセクションで説明するタブを使用して、個々の会話、スパン、シグナルを詳しく確認できます。
Agents タブでは、この project にトレースをログしたすべてのエージェントを一覧し、全体像を把握できます。どのエージェントがアクティブかを確認したり、エージェント間でレイテンシやエラー率を比較したりするのに使用できます。個々の会話を詳しく確認する前に、注意が必要なエージェントを特定するのにも役立ちます。
次のようなシナリオで役立ちます。
- 複数のエージェントの監視。 カードのグリッドを使うと、個々の会話を開かなくても、すべてのエージェントのレイテンシとエラー率を一度に比較できます。1 つのカードでレイテンシの急上昇や、新たに赤く表示されたエラー率が見られる場合は、調査すべきリグレッションの兆候です。
- 動きのないエージェントの特定。 Last seen で並べ替えると、最近アクティビティを記録していないエージェントを見つけやすくなります。これは、deployment が稼働中であることを確認したり、予期せずトレースのログを停止した可能性があるエージェントを特定したりするのに役立ちます。
- バージョンの比較。 各カードのバージョン数は、そのエージェントの異なるバージョンがいくつ deployment されたかを示します。エラー率の上昇に加えてバージョン数も多い場合は、最近の deployment で導入されたリグレッションを示している可能性があります。
- エージェントの詳細確認。 任意のカードをクリックすると、そのエージェントの詳細パネルが開き、そこから会話または span にアクセスできます。
各エージェントは、次の情報を表示するカードとして表されます。
| フィールド | 説明 |
|---|
| Agent name | エージェントのトレースとともにログされた名前。 |
| Last seen | エージェントが最後にアクティビティを記録してからの経過時間。 |
| Version | エージェントの各スパンで記録された、重複しない agent_version 値の数。 |
| Activity histogram | 最近の会話量を示す棒グラフで、利用傾向をすばやく把握できます。 |
| Conversations | 記録された会話の総数。 |
| Spans | すべての会話で記録されたスパンの総数。 |
| Latency (avg.) | 呼び出しごとのエンドツーエンドの平均所要時間。 |
| Error rate | エラーを返した呼び出しの割合。0% を超える場合は赤色で表示されます。 |
Search agents フィールドを使用して、エージェント名でカードをフィルターします。
並べ替えドロップダウン (デフォルト: Last seen) を使用して、グリッドの表示順を変更します。使用可能な
並べ替えオプションは次のとおりです。
- Last seen: 直近でアクティブだったエージェントから順に表示されます。
- Most invocations: 会話数が多い順に表示されます。
- Most input tokens: 入力 tokens の消費量が多い順に表示されます。
- Most errors: エラー数が多い順に表示されます。
Most errors で並べ替えると、日次の簡単なヘルスチェックに役立ちます。エラー率が 0 ではないエージェントが
すぐに上位に表示され、カード上の赤いエラー率をひと目で確認するだけで、調査が必要なものをすぐに把握できます。
Agents ページの Conversations タブでは、個々のエージェントの Runs を閲覧、フィルター、詳細確認できます。これを使用すると、失敗の調査、token コストの測定、そして 1 つの run を構成する LLM calls と tool 実行の流れの把握が可能です。
会話全体を通してエージェントが何を発言し、何を行ったのかを高いレベルで把握したい場合は、まず Conversations タブを確認してください。
Conversations テーブルには、会話ごとに 1 行が表示されます。以下の列がデフォルトで表示されます。
| 列 | 説明 |
|---|
| Conversation | 会話 ID と最初のメッセージのプレビューです。 |
| Last message | ロールを示す表示付きの最新メッセージのプレビューです。 |
| Agent | 関与したエージェントの名です。 |
| Invocations | 会話中にエージェントが呼び出された回数です。 |
| Spans | 記録されたスパンの合計数です。スパン数が多いほど、分岐やツールの使用が多いことを示します。 |
| In tokens | 消費された入力トークン数です。 |
| Out tokens | 生成された出力トークン数です。 |
| Started | 会話が開始された時刻です。 |
| Last activity | 最後のメッセージが記録されてからの経過時間です。 |
追加の列を表示または非表示にするには、ツールバーの Columns をクリックします。
Filter バーを使用して、エージェント、モデル、エラーステータス、
その他の属性で結果を絞り込みます。
時間ウィンドウ セレクター (1m、1h、6h、24h、7d、または
30d) を使用すると、その期間内にアクティブだった会話のみに一覧を絞り込めます。
一覧の上にある会話数のヒストグラムは、選択したウィンドウに応じて更新されます。
会話一覧の任意の列ヘッダーにカーソルを合わせると、その列を特定の値または
範囲でフィルターできます。
会話の行をクリックすると、2 つのサブタブ: Turns と Events がある詳細パネルが開きます。
会話詳細のターン パネルには、各ターンが時系列順に、1 から番号付きで表示されます。
各ターンには、中間応答とツール呼び出しの数、および
合計の実行時間が表示されます。ターンを展開すると、メッセージスレッド全体を確認できます。
メッセージ
1 つのターン内では、メッセージはロールごとにグループ化されます。
ユーザー メッセージには、メッセージ テキストと、添付されたメディアまたはコンテンツ参照が表示されます。
アシスタント メッセージには、次の内容が表示されます。
- エージェント名と使用されたモデル (例:
gpt-5.5-2026-04-23) 。
- タイムスタンプと所要時間。
- 入力および出力の token 数 (例:
16086 in 295 out) 。
- モデルで拡張思考が使用された場合は、展開可能な 推論 セクション。
- 応答テキスト。長い応答は自動的に折りたたまれます。
ツール呼び出しには、ツール名、タイムスタンプ、所要時間が表示されます。引数または結果データを利用できる場合、ツール呼び出しは展開可能になり、キーと値の表に 引数 と 結果 が表示されます。呼び出しが失敗した場合は、ERROR バッジが表示されます。
エラー状態
ツール呼び出しがエラー ステータスを返すと、その横に赤い ERROR バッジがインラインで
表示されます。Events タイムラインでは、そのイベントもタイプにかかわらず
赤色で表示されます。
右側の Events パネルには、選択したターン内で発生したイベントの
順序を示す色分けされた帯が表示されます。
イベント タイムラインでは、各セグメントの色がイベントのタイプを示します。
| 色 | イベント タイプ |
|---|
| 紫 | ユーザー メッセージ |
| 緑 | アシスタント メッセージ |
| 青 | ツール コール |
| シエナ | サブエージェントの呼び出し |
| マゼンタ | エージェントのハンドオフ |
| 灰色 | コンテキストの圧縮 |
| 赤 | エラーを返したイベント |
Events タイムラインを使うと、ターンがどのように構成されていたかを
すばやく把握できます。たとえば、メッセージ スレッド全体を読む前に、
LLM 中心だったのか、ツール中心だったのか、あるいは
サブエージェントへの委任が含まれていたのかを確認できます。
スコア
project でいずれかのシグナルが有効になっている場合、会話のメトリクスを示す スコア セクションが表示されます。ここには、シグナルの Scorer 名、0〜1 の全体的な数値評価、
信頼度 (%) 、および
スコアに寄与した各ルーブリック項目が表示されます。各ルーブリック項目には、それぞれの信頼度も表示されます。これにより、
ターンのスコアが高かったかどうかだけでなく、どのルーブリック
基準に合格したか、または不合格だったかも把握できます。
Meta summary
Meta summary セクションには、選択した会話の集計統計が表示されます。
| Field | Description |
|---|
| Tokens | 入力トークンと出力トークンの合計数。 |
| Tool calls | すべてのターンにわたる tool call の総数。 |
| Messages | メッセージの総数。 |
| Session time | 最初のメッセージから最後のメッセージまでの実時間。 |
| Turn page | 現在表示されているターンの範囲と、ターンの総数。 |
Token の内訳
Token の内訳セクションには、選択した会話のキャッシュと推論の詳細が表示されます。
| Field | Description |
|---|
| Cache read | prompt キャッシュから読み込まれたトークン。 |
| Cache written | prompt キャッシュに書き込まれたトークン。 |
| Cache hit rate | キャッシュから読み込まれた入力トークンの割合。割合が高いほど、コストとレイテンシが低減されます。 |
| 推論 | 拡張思考に費やされたトークン。 |
| 推論 ratio | 拡張思考に費やされた出力トークンの割合。 |
Participants
Participants セクションには、会話に含まれるエージェントとモデルが一覧表示されます。マルチエージェントの会話では、ターンごとにここに表示されるモデル名が異なる場合があります。
Spans タブには、project 内のすべてのエージェントアクティビティで記録された各 span が表示されます。Conversations タブではアクティビティが会話レベルの行に集約されます。Spans タブではその下にある生の処理内容、つまり各 LLM Call、tool の実行、エージェントの呼び出しがそれぞれ1行ずつ表示されます。これを使用すると、どの Call が遅かったのか、どのモデルが想定外に多くの トークン を消費したのか、どの tool の呼び出しが失敗したのかを正確に追跡できます。
Spans 表は Conversations 表とほとんどの列 (agent、model、tool、token 数、ステータス) を共有しています。このビューに固有の列は次のとおりです。
| 列 | 説明 |
|---|
| Span | Span の名前と ID です。その下に trace ID が表示されます。 |
| Kind | この操作の OpenTelemetry span kind です (INTERNAL、SERVER、CLIENT など) 。 |
| Operation | 操作のタイプです (chat、execute_tool、invoke_agent など) 。 |
| Finished | モデルから返される終了理由です (stop や max_tokens など) 。終了理由をモデルが報告する chat span でのみ表示されます。 |
キャッシュ token の内訳、推論 token、LLM パラメーター、W&B Run メタデータの追加列は、Columns ボタンから利用できます。
Spans タブは、Conversations タブでは得られない操作レベルの精度が必要な場合に特に役立ちます。
- 高コストな Call の特定。 In または Out token で並べ替えることで、会話レベルの合計ではなく、どの個別の LLM calls がコスト増の要因になっているかを特定できます。
- 特定の操作タイプのデバッグ。 Operation でフィルターすると、すべての
execute_tool span を絞り込んでエラー率を確認したり、特定のモデルのすべての chat span を確認したりできます。
- 切り詰めの調査。 Finished を
max_tokens でフィルターすると、モデルが通常どおり完了する代わりに token 上限に達した span を検索できます。
- W&B Run との関連付け。 デフォルトで非表示の列には W&B Run ID と run ステップが含まれており、特定の span を W&B 内のトレーニングまたは評価 run に関連付けることができます。
任意の行をクリックすると、その行のトレースが選択され、同じトレース ID を持つ他のすべての スパン が強調表示されます。これにより、1 回のエージェント呼び出しで実行された一連の操作全体を確認できます。ここでのグループ化は会話単位ではなく、トレース単位で行われます。つまり、サブエージェントへの委譲が含まれる場合、1 つの会話に複数のトレースが含まれることがあります。
Spans 表の行をクリックすると、エージェント呼び出し全体のデータが表示された詳細パネルが開きます。
詳細パネルの上部にはフレームグラフが表示され、選択したトレース内のすべての span の実時間ベースでの
位置と相対的な所要時間を示します。各 span は、実際の所要時間に比例した色付きのブロックとして
表示され、トレース開始からの経過時間 (ミリ秒) における開始位置に配置されます。タイムラインでは次のことができます。
- 最も時間のかかる処理をひと目で見つける。 幅の広いブロックは、全体のレイテンシの大部分を
占めた span を示します。
- 並列性を確認する。 重なっているブロックは、span が順番にではなく
同時に実行されたことを示します。
- 任意の span をその場で確認する。 タイムライン内のブロックをクリックすると、その
span の詳細が表示され、入力メッセージと出力メッセージ、
トークン数、その他のメタデータを確認できます。
また、詳細パネルのヘッダーで Show trace tree アイコンを選択すると、子 span を階層的なトレース ツリーとして表示することもできます。
Signals タブには、エージェントの会話に対する tags と評価が表示されます。シグナルは、品質や安全性に関する問題を可視化し、問題のフラグ付け、パターンの検索、注意が必要なトレースの強調表示に役立ちます。シグナルを使用すると、エージェントの応答の品質を自動的にスコア化したり、ユーザーがいら立っていることを検知したり、NSFW コンテンツにフラグを付けたりできます。
セットアップと詳細な使用方法については、シグナルでエージェントをモニタリングするをご覧ください。