エージェントのアクティビティを確認

Agents ビューでは、エージェントが行ったすべての会話について、ターンごとの記録を token usage、ツールの呼び出し、実行スパンとあわせて確認できます。エージェントアプリケーションのデバッグが難しいのは、重要な動作がユーザーのリクエストと最終的なレスポンスの間で起こるためです。W&B Weave の Agents ビューは、その中間レイヤーを可視化します。ここには、エージェントが行ったすべての会話が、完全なメッセージ履歴、スパンレベルの実行詳細、関連する token コストとともに記録されています。エージェントがタスクを完了したか、何回ツール呼び出しを行ったか、時間や予算がどこで費やされたかをひと目で確認できます。エージェントを構築して反復的に改善するチームにとって、これは本番環境での動作を理解するための出発点です。

はじめに

project の Agents ビューを開くには、次の手順を実行します。

https://wandb.ai にアクセスし、project を選択します。
サイドバーメニューで Agents を選択すると、project に保存されているすべてのエージェントとの会話を表示できます。

Agents ビューは、上部に並ぶ Dashboard、Agents、Conversations、Spans、Signals の各タブで構成されています。Dashboard タブでは project 全体のエージェントアクティビティの概要を確認でき、他のタブでは個々のエージェント、会話、スパン、シグナルを詳しく確認できます。

Dashboard タブ

Dashboard タブは、project 全体におけるすべてのエージェントアクティビティの概要を確認できる場所です。ひと目で把握できるように設計されているため、チームでは通常、特定のエージェントや会話を詳しく確認する前に、日次のヘルスチェックの起点として使用します。

上部のサマリーカードには、選択した時間範囲における合計値として Spans、Conversations、Tokens、Cost、Error rate、Agents が表示されます。カードの下には時系列チャートがあり、スパン、会話、トークン、コストのボリュームの推移に加えて、エラー数やシグナルのアクティビティが表示されます。最下段には、使用状況別に上位のツール、エージェント、モデル、プロバイダーの内訳が表示されます。左側には最近の会話またはスパンのリストが表示され、Conversations と Spans を切り替えられます。また、時間範囲セレクターで、すべてのパネルに反映される期間を制御できます。

Agents tab

Agents タブでは、この project にトレースをログしたすべてのエージェントを一覧し、全体像を把握できます。どのエージェントがアクティブかを確認したり、エージェント間でレイテンシやエラー率を比較したりするのに使用できます。個々の会話を詳しく確認する前に、注意が必要なエージェントを特定するのにも役立ちます。

エージェントカードのグリッドを表示した Agents タブ。各カードには会話数、スパン数、コスト、平均レイテンシ、エラー率が表示されています。

次のようなシナリオで役立ちます。

複数のエージェントの監視。 カードのグリッドを使うと、個々の会話を開かなくても、すべてのエージェントのレイテンシとエラー率を一度に比較できます。1 つのカードでレイテンシの急上昇や、新たに赤く表示されたエラー率が見られる場合は、調査すべきリグレッションの兆候です。
動きのないエージェントの特定。 Last seen で並べ替えると、最近アクティビティを記録していないエージェントを見つけやすくなります。これは、deployment が稼働中であることを確認したり、予期せずトレースのログを停止した可能性があるエージェントを特定したりするのに役立ちます。
バージョンの比較。 各カードのバージョン数は、そのエージェントの異なるバージョンがいくつ deployment されたかを示します。エラー率の上昇に加えてバージョン数も多い場合は、最近の deployment で導入されたリグレッションを示している可能性があります。
エージェントの詳細確認。 任意のカードをクリックすると、そのエージェントの詳細パネルが開き、そこから会話またはスパンにアクセスできます。

エージェントカード

各エージェントは、次の情報を表示するカードとして表されます。

フィールド	説明
Agent name	エージェントのトレースとともにログされた名前。
Last seen	エージェントが最後にアクティビティを記録してからの経過時間。
Version	エージェントの各スパンで記録された、重複しない `agent_version` 値の数。
Activity histogram	最近の会話量を示す棒グラフで、利用傾向をすばやく把握できます。
Conversations	記録された会話の総数。
Spans	すべての会話で記録されたスパンの総数。
Cost	エージェントの会話全体で発生した総コスト。コストデータを利用できない場合はダッシュ (`-`) が表示されます。
Latency (avg.)	呼び出しごとのエンドツーエンドの平均所要時間。
Error rate	エラーを返した呼び出しの割合。0% を超える場合は赤色で表示されます。

エージェントを検索して並べ替える

Search and filter agents フィールドを使用して、エージェント名でエージェントを検索します。並べ替えドロップダウン (デフォルト: Last seen) を使用して、グリッドの表示順を変更します。使用可能な並べ替えオプションは次のとおりです。

Last seen: 直近でアクティブだったエージェントから順に表示されます。
Most invocations: 会話数が多い順に表示されます。
Most input tokens: 入力 tokens の消費量が多い順に表示されます。
Most errors: エラー数が多い順に表示されます。

Most errors で並べ替えると、日次の簡単なヘルスチェックに役立ちます。エラー率が 0 ではないエージェントがすぐに上位に表示され、カード上の赤いエラー率をひと目で確認するだけで、調査が必要なものをすぐに把握できます。

Conversations タブ

Agents ページの Conversations タブでは、個々のエージェントの Runs を閲覧、フィルター、詳細確認できます。これを使用すると、失敗の調査、token コストの測定、そして 1 つの run を構成する LLM calls と tool 実行の流れの把握が可能です。会話全体を通してエージェントが何を発言し、何を行ったのかを高いレベルで把握したい場合は、まず Conversations タブを確認してください。

Conversations テーブル

Conversations テーブルには、会話ごとに 1 行が表示されます。以下の列がデフォルトで表示されます。

列	説明
Conversation	会話 ID と最初のメッセージのプレビューです。
Last message	ロールを示す表示付きの最新メッセージのプレビューです。
Spans	記録されたスパンの合計数で、色分けされたストリップ (後述) とあわせて表示されます。スパン数が多いほど、分岐やツールの使用が多いことを示します。
Tags	会話に適用されたシグナルタグと評価です。
Agent	関与したエージェントの名です。
Invocations	会話中にエージェントが呼び出された回数です。
In tokens	消費された入力トークン数です。
Out tokens	生成された出力トークン数です。
Cost	会話の合計コストです。
Started	会話が開始された時刻です。
Last activity	最後のメッセージが記録されてからの経過時間です。

Spans 列には、会話内のイベントのシーケンスをプレビューできる色分けされたストリップも表示され、Events timeline と同じイベントの色が使用されます。これにより、会話を開かなくても、その会話がツールの使用中心か、LLM 中心か、あるいは sub-agent への委譲を含むかをひと目で把握できます。追加の列を表示または非表示にするには、ツールバーの Columns をクリックします。

フィルターと時間ウィンドウ

Filter バーを使用して、エージェント、モデル、エラーステータス、その他の属性で結果を絞り込みます。 SDK を使用してエージェントスパンに付与したカスタム属性も、ここでフィルターできます。会話一覧を、特定の属性の特定の値に絞り込めます。カスタム属性を個別の列として表示するには、ツールバーの Columns をクリックします。これらの属性の設定方法については、エージェントスパンに属性とイベントを設定するを参照してください。時間ウィンドウセレクター (1m、1h、6h、24h、7d、または 30d) を使用すると、その期間内にアクティブだった会話のみに一覧を絞り込めます。一覧の上にある会話数のヒストグラムは、選択したウィンドウに応じて更新されます。会話一覧の任意の列ヘッダーにカーソルを合わせると、その列を特定の値または範囲でフィルターできます。

Agent の会話の詳細

会話の行をクリックすると、Turns と Events の 2 つのサブパネルがある詳細パネルが開きます。パネルヘッダーには、エージェント名と会話 ID に加えて、Summarize (会話の要約を生成) と Add to dataset アクションが表示されます。

ターン

会話詳細のターンパネルには、各ターンが時系列順に、1 から番号付きで表示されます。各ターンには、中間応答とツール呼び出しの数、および合計の実行時間が表示されます。ターンを展開すると、メッセージスレッド全体を確認できます。

メッセージ

1 つのターン内では、メッセージはロールごとにグループ化されます。 ユーザーメッセージには、メッセージテキストと、添付されたメディアまたはコンテンツ参照が表示されます。 アシスタントメッセージには、次の内容が表示されます。

エージェント名と使用されたモデル (例: gpt-5.5-2026-04-23) 。
タイムスタンプと所要時間。
入力および出力の token 数とコスト (例: 18823 in · 96 out · $0.0717) 。
モデルで拡張思考が使用された場合は、展開可能な推論セクション。
応答テキスト。長い応答は自動的に折りたたまれます。

ツール呼び出しには、ツール名、タイムスタンプ、所要時間が表示されます。引数または結果データを利用できる場合、ツール呼び出しは展開可能になり、キーと値の表に引数と結果が表示されます。呼び出しが失敗した場合は、ERROR バッジが表示されます。

エラー状態

ツール呼び出しがエラーステータスを返すと、その横に赤い ERROR バッジがインラインで表示されます。Events タイムラインでは、そのイベントもタイプにかかわらず赤色で表示されます。

イベント

右側の Events パネルには、選択したターン内で発生したイベントの順序を示す色分けされた帯が表示されます。イベントタイムラインでは、各セグメントの色がイベントのタイプを示します。

色	イベントタイプ
紫	ユーザーメッセージ
緑	アシスタントメッセージ
青	ツールコール
シエナ	サブエージェントの呼び出し
マゼンタ	エージェントのハンドオフ
灰色	コンテキストの圧縮
赤	エラーを返したイベント

Events タイムラインを使うと、ターンがどのように構成されていたかをすばやく把握できます。たとえば、メッセージスレッド全体を読む前に、 LLM 中心だったのか、ツール中心だったのか、あるいはサブエージェントへの委任が含まれていたのかを確認できます。

スコア

project でいずれかのシグナルが有効になっている場合、会話のメトリクスを示す スコア セクションが表示されます。ここには、シグナルの Scorer 名、0〜1 の全体的な数値評価、信頼度 (%) 、およびスコアに寄与した各ルーブリック項目が表示されます。各ルーブリック項目には、それぞれの信頼度も表示されます。これにより、ターンのスコアが高かったかどうかだけでなく、どのルーブリック基準に合格したか、または不合格だったかも把握できます。

Meta summary

Meta summary セクションには、選択した会話の集計統計が表示されます。

Field	Description
Tokens	入力トークンと出力トークンの合計数。
Cost	会話の総コスト。
Tool calls	すべてのターンにわたるツール呼び出しの総数。
Messages	メッセージの総数。
Conversation time	最初のメッセージから最後のメッセージまでの実時間。
Turn page	現在表示されているターンの範囲と、ターンの総数。

Token の内訳

Token の内訳セクションには、選択した会話のキャッシュと推論の詳細が表示されます。

Field	Description
Cache read	prompt キャッシュから読み込まれたトークン。
Cache written	prompt キャッシュに書き込まれたトークン。
Cache hit rate	キャッシュから読み込まれた入力トークンの割合。割合が高いほど、コストとレイテンシが低減されます。
推論	拡張思考に費やされたトークン。
推論 ratio	拡張思考に費やされた出力トークンの割合。

Participants

Participants セクションには、会話に含まれるエージェントとモデルが一覧表示されます。マルチエージェントの会話では、ターンごとにここに表示されるモデル名が異なる場合があります。

エージェントのメッセージをデータセットに追加する

エージェントのメッセージをDatasetに追加するには、次の手順を実行します。

会話詳細パネルのヘッダーで、Add to dataset をクリックして Add example to dataset ドロワーを開きます。
Choose a dataset で、ドロップダウンを使用して、トレースを追加するデータセットを選択します。
Select context で、データセットに追加するメッセージを選択します。Next をクリックします。
選択内容を確認し、Add to dataset をクリックします。

Spans タブ

Spans タブには、project 内のすべてのエージェントアクティビティで記録された各 span が表示されます。Conversations タブではアクティビティが会話レベルの行に集約されます。Spans タブではその下にある生の処理内容、つまり各 LLM Call、tool の実行、エージェントの呼び出しがそれぞれ1行ずつ表示されます。これを使用すると、どの Call が遅かったのか、どのモデルが想定外に多くのトークンを消費したのか、どの tool の呼び出しが失敗したのかを正確に追跡できます。

Spans 表

Spans 表は Conversations 表とほとんどの列 (agent、model、tool、token 数、ステータス) を共有しています。このビューに固有の列は次のとおりです。

列	説明
Span	Span の名前と ID です。その下に trace ID が表示されます。
Kind	この操作の OpenTelemetry span kind です (`INTERNAL`、`SERVER`、`CLIENT` など) 。
Operation	操作のタイプです (`chat`、`execute_tool`、`invoke_agent` など) 。
Ratings & Tags	span に適用されたシグナルの ratings と tags です。
Finish	モデルから返される終了理由です (`stop` や `max_tokens` など) 。終了理由をモデルが報告する `chat` span でのみ表示されます。
Error type	span でエラーが発生した場合に返されるエラーのタイプです。

キャッシュ token の内訳、推論 token、LLM パラメーター、W&B Run メタデータの追加列は、Columns ボタンから利用できます。 Spans タブは、Conversations タブでは得られない操作レベルの精度が必要な場合に特に役立ちます。

高コストな Call の特定。 In または Out token で並べ替えることで、会話レベルの合計ではなく、どの個別の LLM calls がコスト増の要因になっているかを特定できます。
特定の操作タイプのデバッグ。 Operation でフィルターすると、すべての execute_tool span を絞り込んでエラー率を確認したり、特定のモデルのすべての chat span を確認したりできます。
切り詰めの調査。 Finish を max_tokens でフィルターすると、モデルが通常どおり完了する代わりに token 上限に達した span を検索できます。
W&B Run との関連付け。 デフォルトで非表示の列には W&B Run ID と run ステップが含まれており、特定の span を W&B 内のトレーニングまたは評価 run に関連付けることができます。

トレースグループ

任意の行をクリックすると、その行のトレースが選択され、同じトレース ID を持つ他のすべてのスパンが強調表示されます。これにより、1 回のエージェント呼び出しで実行された一連の操作全体を確認できます。ここでのグループ化は会話単位ではなく、トレース単位で行われます。つまり、サブエージェントへの委譲が含まれる場合、1 つの会話に複数のトレースが含まれることがあります。

エージェント呼び出しの詳細

完全なエージェント呼び出しのデータが表示された詳細パネルを開くには、Spans 表の行をクリックします。詳細パネルの上部には、選択したトレース内のすべてのスパンについて、実際の経過時間上の位置と相対的な継続時間をウォーターフォール形式で示す棒チャートが表示されます。親呼び出しは全幅にわたって表示され、各子スパンはその下に、実際の継続時間に応じた長さの色付きバーとして表示されます。各バーは、トレース開始からの経過ミリ秒に基づく開始時刻の位置に配置されます。タイムラインを使用すると、次のことができます。

最も時間のかかった処理をひと目で特定できます。 幅の広いバーは、全体のレイテンシの大部分を占めたスパンを示します。
並列実行を確認できます。 バーが重なっている場合、それらのスパンは順番ではなく同時に実行されたことを示します。
任意のスパンをその場で確認できます。 タイムライン内のバーをクリックすると、そのスパンの詳細が表示されます。これには、入力メッセージ、出力メッセージ、トークン数、その他のメタデータが含まれます。

トレースを選択した状態の Spans タブ。表内の関連するスパンのグループが強調表示され、右側の詳細パネルにウォーターフォール棒チャートが表示されています。

また、詳細パネルのヘッダーで Show trace tree アイコンを選択すると、子スパンを階層的なトレースツリーとして表示できます。

Signals タブ

Signals タブには、エージェントの会話に対するタグと評価が表示されます。Signals は品質や安全性に関する問題を浮き彫りにし、問題の特定、パターンの発見、注意が必要なトレースの把握に役立ちます。Signals を使用すると、エージェントの応答の品質を自動的にスコアリングしたり、ユーザーが苛立っていることを検知したり、NSFW コンテンツにフラグを立てたりできます。設定方法と詳しい使い方については、Monitor your agents with signalsを参照してください。

スタートガイド

ガイド

クックブック

リファレンス

詳細とサポート

エージェントのアクティビティを確認

はじめに

Dashboard タブ