Weave for Agents는 공개 프리뷰 상태입니다. 정식 출시 전에 특성, API 및 Agents 뷰 UI가 변경될 수 있습니다.
Agents 뷰에서는 에이전트가 나눈 모든 대화를 턴별로 확인할 수 있으며, 토큰 사용량, 도구 호출, 실행 span도 함께 볼 수 있습니다.
에이전트 애플리케이션은 사용자의 요청과 최종 응답 사이에서 핵심적인 동작이 일어나기 때문에 디버깅이 어렵습니다. W&B Weave의 Agents 뷰는 이 중간 계층을 눈에 보이게 해줍니다. 에이전트가 나눈 모든 대화가 전체 메시지 이력, span 수준의 실행 세부 정보, 그리고 토큰 비용과 함께 여기 기록됩니다. 에이전트가 작업을 완료했는지, 도구 Call을 몇 번 수행했는지, 시간이나 예산이 어디에 사용되었는지를 한눈에 확인할 수 있습니다. 에이전트를 구축하고 반복적으로 개선하는 팀에게 이것은 프로덕션에서 동작을 이해하기 위한 출발점입니다.
프로젝트의 Agents 뷰를 열려면 다음 단계를 따르세요.
- https://wandb.ai로 이동한 다음 프로젝트를 선택하세요.
- 사이드바 메뉴에서 Agents를 선택하면 프로젝트에 저장된 모든 에이전트 대화를 볼 수 있습니다.
Agents 뷰는 Agents 탭에서 열리며, 여기에는 프로젝트에 트레이스를 로깅한 각 에이전트가 Card로 표시됩니다. 여기에서 다음 섹션에 설명된 탭을 사용해 개별 대화, spans, 시그널을 자세히 살펴볼 수 있습니다.
Agents 탭에서는 이 프로젝트에 트레이스를 로깅한 모든 에이전트를 한눈에 볼 수 있습니다. 이 탭을 사용하면 어떤 에이전트가 활성 상태인지 파악하고 에이전트별 지연 시간과 오류율을 비교할 수 있습니다. 또한 개별 대화를 자세히 살펴보기 전에 주의가 필요한 에이전트를 식별하는 데도 도움이 됩니다.
다음과 같은 시나리오에서 유용합니다.
- 여러 에이전트 모니터링. Card 그리드를 사용하면 개별 대화를 열지 않고도 모든 에이전트의 지연 시간과 오류율을 한 번에 비교할 수 있습니다.
한 Card에서 지연 시간이 급증하거나 오류율이 새롭게 빨간색으로 표시되면 조사할 가치가 있는 회귀를 시사할 수 있습니다.
- 오래된 에이전트 식별. Last seen 기준으로 정렬하면 최근 활동이 기록되지 않은 에이전트를 쉽게 확인할 수 있습니다. 이는 배포가 정상적으로 실행 중인지 확인하거나, 예기치 않게 트레이스 로깅을 중단했을 수 있는 에이전트를 찾아내는 데 유용합니다.
- 버전 비교. 각 Card의 버전 수는 해당 에이전트의 서로 다른 버전이 몇 개 배포되었는지 보여줍니다. 버전 수가 많으면서 오류율도 함께 상승하고 있다면 최근 배포에서 도입된 회귀를 나타낼 수 있습니다.
- 에이전트 자세히 보기. 아무 Card나 클릭하면 해당 에이전트의 세부 정보 패널이 열리며, 여기에서 해당 에이전트의 대화나 span으로 이동할 수 있습니다.
각 에이전트는 다음 정보를 표시하는 Card로 나타납니다:
| 필드 | 설명 |
|---|
| Agent name | 에이전트의 트레이스와 함께 로깅된 이름입니다. |
| Last seen | 에이전트가 마지막으로 활동을 기록한 후 경과한 시간입니다. |
| Version | 에이전트의 span 전반에서 기록된 고유한 agent_version 값의 개수입니다. |
| Activity histogram | 최근 대화량을 보여주는 막대 chart로, 사용 추세를 빠르게 파악할 수 있습니다. |
| Conversations | 기록된 총 대화 수입니다. |
| Spans | 모든 대화에서 기록된 총 span 수입니다. |
| Latency (avg.) | 호출당 평균 엔드투엔드 지연 시간입니다. |
| Error rate | 오류를 반환한 호출의 비율입니다. 0%보다 크면 빨간색으로 표시됩니다. |
에이전트 이름으로 Card를 필터링하려면 Search agents 필드를 사용하세요.
정렬 드롭다운(기본값: Last seen)을 사용해 그리드 순서를 바꿀 수 있습니다.
사용 가능한 정렬 옵션은 다음과 같습니다.
- Last seen: 가장 최근에 활동한 에이전트가 먼저 표시됩니다.
- Most invocations: 대화량이 가장 많은 에이전트가 먼저 표시됩니다.
- Most input tokens: 입력 토큰 사용량이 가장 많은 에이전트가 먼저 표시됩니다.
- Most errors: 오류 수가 가장 많은 에이전트가 먼저 표시됩니다.
Most errors 기준 정렬은 빠른 일일 헬스 체크에 유용합니다. 오류율이 0이 아닌 에이전트가 바로 위로 표시되며, Card의 빨간색 오류율을 보면 어떤 항목을 조사해야 하는지 한눈에 확인할 수 있습니다.
Agents 페이지의 Conversations 탭에서는 개별 에이전트 run을 찾아보고, 필터링하고,
자세히 살펴볼 수 있습니다. 이 탭을 사용해 실패를 조사하고, token 비용을 측정하고,
run을 구성하는 LLM calls와 도구 실행의 순서를 파악하세요.
대화 전반에서 에이전트가 무엇을 말하고 무엇을 했는지에 대한 큰 흐름을 파악하려면 먼저 Conversations 탭부터 살펴보세요.
대화 테이블은 대화마다 한 행씩 표시합니다. 다음 열이 기본적으로
표시됩니다:
| 열 | 설명 |
|---|
| 대화 | 대화 ID와 첫 번째 메시지의 미리보기입니다. |
| 마지막 메시지 | 가장 최근 메시지의 미리보기와 역할 표시기입니다. |
| 에이전트 | 참여한 에이전트의 이름입니다. |
| 호출 수 | 대화 중 에이전트가 호출된 횟수입니다. |
| Spans | 기록된 span의 총 개수입니다. span 수가 많을수록 분기가 많거나 도구 사용이 더 많음을 의미합니다. |
| 입력 토큰 | 사용된 입력 토큰 수입니다. |
| 출력 토큰 | 생성된 출력 토큰 수입니다. |
| 시작 시각 | 대화가 시작된 시점입니다. |
| 마지막 활동 | 마지막 메시지가 기록된 시점으로부터 경과한 시간입니다. |
추가 열을 표시하거나 숨기려면 툴바에서 Columns를 클릭하세요.
Filter 바를 사용해 에이전트, 모델, 오류 상태 또는 기타
속성별로 결과를 좁히세요.
시간 창 선택기(1m, 1h, 6h, 24h, 7d 또는
30d)를 사용해 해당 기간 동안 활성 상태였던 대화만 목록에 표시하세요.
목록 위의 대화량 히스토그램은 선택한 시간 창에 맞춰 업데이트됩니다.
대화 목록에서 아무 열 헤더에나 마우스를 올리면 해당 열을 특정 값 또는
범위로 필터링할 수 있습니다.
대화 행을 클릭하면 턴과 이벤트 두 개의 하위 탭이 있는 세부정보 패널이 열립니다.
대화 세부 정보의 턴 패널에는 각 턴이 시간순으로 표시되며, 1부터 번호가 매겨집니다.
각 턴에는 중간 응답 수와 도구 Call 수, 그리고
총 경과 시간이 표시됩니다. 전체 메시지 스레드를 보려면 턴을 펼치세요.
메시지
하나의 턴 내에서 메시지는 역할별로 그룹화됩니다.
사용자 메시지에는 메시지 텍스트와 첨부된 미디어 또는 콘텐츠
참조가 표시됩니다.
어시스턴트 메시지에는 다음이 표시됩니다.
- 에이전트 이름과 사용된 모델(예:
gpt-5.5-2026-04-23).
- 타임스탬프 및 소요 시간.
- 입력 및 출력 token 수(예:
16086 in 295 out).
- 모델이 확장 추론을 사용한 경우 펼칠 수 있는 추론 섹션.
- 응답 텍스트(긴 응답은 자동으로 접힘).
도구 Call에는 도구 이름, 타임스탬프, 소요 시간이 표시됩니다. 인수 또는
결과 데이터를 사용할 수 있으면 도구 Call을 펼칠 수 있으며 인수와
결과가 키-값 테이블에 표시됩니다. Call이 실패하면 ERROR 배지가
표시됩니다.
오류 상태
도구 Call의 상태가 오류이면 해당 항목 옆에 빨간색 ERROR 배지가
인라인으로 표시됩니다. Events 타임라인에서는 해당 event도
유형과 관계없이 빨간색으로 표시됩니다.
오른쪽의 이벤트 패널에는 선택한 턴 내 이벤트 순서를 나타내는 색상으로 구분된 막대가 표시됩니다.
이벤트 타임라인에서 각 구간의 색상은 이벤트 유형을 나타냅니다.
| 색상 | 이벤트 유형 |
|---|
| 보라색 | 사용자 메시지 |
| 초록색 | 응답 메시지 |
| 파란색 | 도구 Call |
| 시에나색 | 하위 에이전트 호출 |
| 마젠타색 | 에이전트 핸드오프 |
| 회색 | 컨텍스트 압축 |
| 빨간색 | 오류를 반환한 모든 이벤트 |
이벤트 타임라인을 사용하면 턴이 어떻게 구성되었는지 빠르게 파악할 수 있습니다. 예를 들어, 전체 메시지 스레드를 읽기 전에 LLM 중심인지, 도구 중심인지, 또는 하위 에이전트 위임이 포함되었는지 확인할 수 있습니다.
Scores
프로젝트에 활성화된 시그널이 있으면 Scores 섹션에 대화에 대한 메트릭이 표시됩니다. 이 섹션에는 시그널 Scorer 이름, 0에서 1 사이의 전체 숫자 점수,
신뢰도 백분율, 그리고 점수에 반영된 개별 루브릭 항목이 표시됩니다. 각 루브릭 항목에는 자체 신뢰도도
표시됩니다. 이를 통해 턴의 점수가 높았는지 여부뿐만 아니라 어떤 구체적인 루브릭
기준을 통과했거나 실패했는지도 파악할 수 있습니다.
메타 요약
메타 요약 섹션에는 선택한
대화의 집계 통계가 표시됩니다.
| 필드 | 설명 |
|---|
| 토큰 | 총 입력 및 출력 토큰 수입니다. |
| 도구 Call | 모든 턴의 도구 Call 수입니다. |
| 메시지 | 총 메시지 수입니다. |
| Session 시간 | 첫 번째 메시지부터 마지막 메시지까지의 실제 경과 시간입니다. |
| Turn 페이지 | 현재 표시된 턴과 전체 턴 수입니다. |
Token 세부 내역
Token 세부 내역 섹션에는 선택한 대화의 캐시 및 추론 세부 정보가 표시됩니다.
| Field | 설명 |
|---|
| 캐시 조회 | 프롬프트 캐시에서 제공된 Token 수입니다. |
| 캐시 기록 | 프롬프트 캐시에 기록된 Token 수입니다. |
| 캐시 적중률 | 캐시에서 제공된 입력 Token의 비율입니다. 이 비율이 높을수록 비용과 지연 시간이 줄어듭니다. |
| 추론 | 확장된 사고에 사용된 Token 수입니다. |
| 추론 비율 | 확장된 사고에 사용된 출력 Token의 비율입니다. |
Participants
Participants 섹션에는 대화에 참여하는 에이전트와 모델이 나열됩니다. 멀티 에이전트 대화에서는 턴에 따라 여기 표시되는 모델 이름이 다를 수 있습니다.
Spans 탭에는 프로젝트의 모든 에이전트 활동 전반에서 기록된 개별 span이 모두 표시됩니다. Conversations 탭은 활동을 대화 수준의 행으로 집계합니다. Spans 탭에서는 그 아래에 있는 원시 오퍼레이션을 확인할 수 있습니다. 즉, 각 LLM 호출, 도구 실행, 에이전트 호출이 각각 하나의 행으로 표시됩니다. 이 탭을 사용하면 어떤 호출이 느렸는지, 어떤 모델이 예상치 못한 토큰을 소비했는지, 또는 어떤 도구 호출이 실패했는지를 정확히 트레이스할 수 있습니다.
Spans 테이블은 Conversations 테이블과 대부분의 열(에이전트, 모델,
도구, token 수, 상태)을 공유합니다. 이 뷰에서만 사용할 수 있는 열은 다음과 같습니다.
| Column | 설명 |
|---|
| Span | span 이름과 ID가 표시되며, 그 아래에 trace ID가 표시됩니다. |
| Kind | 이 오퍼레이션의 OpenTelemetry span kind입니다(INTERNAL, SERVER, CLIENT 등). |
| Operation | 오퍼레이션 유형입니다(chat, execute_tool, invoke_agent 등). |
| Finished | 모델이 반환한 종료 사유입니다(stop, max_tokens 등). 종료 사유를 보고하는 chat span에만 채워집니다. |
캐시 token 세부 정보, 추론 token, LLM
parameters, W&B run 메타데이터에 대한 추가 열은 Columns 버튼에서 사용할 수 있습니다.
Spans 탭은 Conversations 탭에서 제공하지 않는 오퍼레이션 수준의 정밀도가
필요할 때 특히 유용합니다.
- 비용이 많이 드는 Call 파악. In 또는 Out token 기준으로 정렬해,
대화 수준의 총합이 아니라 비용을 유발하는 개별 LLM calls를
찾으세요.
- 특정 오퍼레이션 유형 디버깅. Operation으로 필터링해
모든
execute_tool span만 분리하여 오류율을 확인하거나, 특정 모델의 모든 chat
span을 확인하세요.
- 잘림 조사. Finished를
max_tokens로 필터링해
모델이 정상적으로 완료된 것이 아니라 token 한도에 도달한 span을 찾으세요.
- W&B run과 연결하기. 기본적으로 숨겨진 열을 통해 W&B run ID와
run step을 확인할 수 있으므로, 특정 span을 W&B의 트레이닝 또는
Evaluation run에 연결할 수 있습니다.
아무 행이나 클릭하면 해당 트레이스가 선택되고, 동일한 트레이스 ID를 공유하는 다른 모든 span이 강조 표시됩니다. 그러면 하나의 에이전트 호출의 일부로 실행된 전체 오퍼레이션 집합을 확인할 수 있습니다. 여기서 그룹화는 대화가 아니라 트레이스를 기준으로 합니다. 즉, 하위 에이전트 위임이 포함된 경우 하나의 대화에 여러 트레이스가 있을 수 있습니다.
Spans 테이블에서 행을 클릭하면 전체 에이전트 호출의 데이터가 채워진 세부 정보 패널이 열립니다.
세부 정보 패널 상단의 플레임 그래프에는 선택한 트레이스에 있는 모든 span의 실제 시간 기준 위치와 상대적 지속 시간이 표시됩니다. 각 span은 실제 지속 시간에 비례하는 색상 블록으로 표시되며, 트레이스 시작부터 경과한 밀리초 단위의 시작 시점에 맞춰 배치됩니다. 타임라인을 사용해 다음을 수행하세요.
- 가장 오래 걸린 오퍼레이션을 한눈에 파악합니다. 너비가 넓은 블록은 전체 지연 시간의 대부분을 차지한 span을 나타냅니다.
- 병렬 실행을 확인합니다. 서로 겹치는 블록은 span이 순차적으로가 아니라 동시에 실행되었음을 나타냅니다.
- 임의의 span을 바로 검사합니다. 타임라인에서 블록을 클릭하면 해당 span의 세부 정보가 뷰에 로드되며, 입력 메시지와 출력 메시지, 토큰 수, 기타 메타데이터를 확인할 수 있습니다.
또는 세부 정보 패널 헤더에서 Show 트레이스 트리 아이콘을 선택해 하위 span을 계층형 트레이스 트리로 볼 수도 있습니다.
시그널 탭에는 에이전트 대화의 태그와 평점이 표시됩니다. 시그널은 품질 및 안전 관련 문제를 드러내어 문제를 식별하고, 패턴을 찾고, 주의가 필요한 트레이스를 강조하는 데 도움이 됩니다. 시그널을 사용하면 에이전트 응답의 품질을 자동으로 평가하고, 사용자가 답답함을 느끼는 시점을 파악하거나, NSFW 콘텐츠에 플래그를 지정할 수 있습니다.
설정 및 자세한 사용 방법은 시그널로 에이전트 모니터링하기를 참조하세요.