Passer au contenu principal
Weave for Agents est en préversion publique. Les fonctionnalités, les API et l’interface utilisateur de la vue Agents peuvent encore évoluer avant la disponibilité générale.
La vue Agents vous donne un enregistrement, tour par tour, de chaque conversation menée par votre agent, ainsi que de l’utilisation des jetons, des invocations d’outils et des spans d’exécution. Les applications d’agents sont difficiles à déboguer, car le comportement intéressant se produit entre la requête de l’utilisateur et la réponse finale. La vue Agents dans W&B Weave rend cette couche intermédiaire visible. Chaque conversation menée par votre agent est capturée ici, avec l’historique complet des messages, les détails d’exécution au niveau des spans et les coûts en jetons associés. Vous pouvez voir d’un coup d’œil si un agent a mené sa tâche à bien, combien d’appels d’outil il a effectués, et où le temps ou le budget ont été dépensés. Pour les équipes qui créent des agents et les font évoluer de manière itérative, c’est le point de départ pour comprendre le comportement en production.

Premiers pas

Pour ouvrir la vue Agents de votre projet :
  1. Accédez à https://wandb.ai et sélectionnez votre projet.
  2. Dans le menu latéral, sélectionnez Agents pour afficher toutes les conversations d’agents enregistrées dans votre projet.
La vue Agents s’ouvre sur l’onglet Agents, où chaque agent ayant enregistré des traces dans le projet apparaît sous forme de carte. À partir de là, vous pouvez examiner en détail les conversations, spans et signaux individuels à l’aide des onglets décrits dans les sections suivantes.

Onglet Agents

L’onglet Agents vous offre une vue d’ensemble de tous les agents qui ont enregistré des traces dans ce projet. Utilisez-le pour repérer les agents actifs et comparer la latence et les taux d’erreur d’un agent à l’autre. Il vous aide également à identifier ceux qui nécessitent une attention particulière avant d’examiner les conversations individuelles. L’onglet Agents affichant une grille de cartes d’agent, chacune présentant le nombre de conversations, le nombre de spans, la latence moyenne et le taux d’erreur. Il est utile dans des scénarios tels que :
  • Surveiller une flotte d’agents. La grille de cartes vous permet de comparer la latence et le taux d’erreur de tous les agents en un coup d’œil, sans ouvrir chaque conversation. Un pic de latence ou un taux d’erreur qui passe au rouge sur une carte signale une régression qui mérite d’être examinée.
  • Identifier des agents inactifs. Le tri par Dernière activité met en évidence les agents qui n’ont pas enregistré d’activité récemment. Cela est utile pour confirmer qu’un déploiement est bien en ligne ou pour repérer des agents qui ont pu cesser de journaliser des traces de façon inattendue.
  • Comparer les versions. Le nombre de versions sur chaque carte indique combien de versions distinctes de cet agent ont été déployées. Un nombre élevé de versions, associé à une hausse du taux d’erreur, peut indiquer une régression introduite dans un déploiement récent.
  • Examiner un agent. Cliquez sur n’importe quelle carte pour ouvrir le panneau de détail de cet agent, depuis lequel vous pouvez accéder à ses conversations ou à ses spans :
Une carte d’agent sélectionnée dans l’onglet Agents, avec le panneau de détail ouvert à droite affichant les métadonnées de l’agent et les options de navigation.

Cartes des agents

Chaque agent est représenté par une carte indiquant :
ChampDescription
Nom de l’agentLe nom enregistré avec les traces de l’agent.
Dernière activitéLe temps écoulé depuis la dernière activité enregistrée par l’agent.
VersionLe nombre de valeurs agent_version distinctes enregistrées dans les spans de l’agent.
Histogramme d’activitéUn graphique en barres du volume récent de conversations, qui donne un aperçu rapide des tendances d’utilisation.
ConversationsNombre total de conversations enregistrées.
SpansNombre total de spans enregistrés dans l’ensemble des conversations.
Latence (moy.)Durée de bout en bout moyenne par invocation.
Taux d’erreurPourcentage d’invocations ayant renvoyé une erreur. S’affiche en rouge lorsqu’il est supérieur à 0 %.

Trouver et trier les agents

Utilisez le champ Recherche d’agents pour filtrer les cartes par nom d’agent. Utilisez la liste déroulante de tri (par défaut : Dernière activité) pour réorganiser la grille. Les options de tri disponibles sont :
  • Dernière activité : les agents actifs le plus récemment s’affichent en premier.
  • Le plus d’invocations : le volume de conversations le plus élevé s’affiche en premier.
  • Le plus de jetons d’entrée : la consommation de jetons la plus élevée s’affiche en premier.
  • Le plus d’erreurs : le nombre d’erreurs le plus élevé s’affiche en premier.
Le tri par Le plus d’erreurs est utile pour un contrôle de santé quotidien rapide : les agents avec un taux d’erreur non nul apparaissent immédiatement, et le taux d’erreur en rouge sur la carte permet de repérer d’un coup d’œil ceux qui nécessitent un examen plus approfondi.

Onglet Conversations

L’onglet Conversations de la page Agents vous permet de parcourir, filtrer et inspecter les exécutions individuelles d’agent. Utilisez-le pour analyser les échecs, évaluer les coûts en jetons et comprendre la séquence des appels LLM et des exécutions d’outils qui constituent une exécution. Pour obtenir une vue d’ensemble de ce qu’un agent a dit et fait au fil d’une conversation, commencez par l’onglet Conversations. L’onglet Conversations affichant une liste de conversations d’agent avec des colonnes pour le nom de l’agent, les invocations, les spans, le nombre de jetons et la dernière activité.

Tableau des conversations

Le tableau des conversations affiche une ligne par conversation. Les colonnes suivantes s’affichent par défaut :
ColonneDescription
ConversationL’identifiant de la conversation et un aperçu du premier message.
Dernier messageUn aperçu du message le plus récent, avec un indicateur de rôle.
AgentLe nom du ou des agents impliqués.
InvocationsLe nombre de fois où l’agent a été invoqué pendant la conversation.
SpansNombre total de spans enregistrés. Un nombre de spans plus élevé indique davantage de branchements ou d’utilisation d’outils.
Jetons d’entréeJetons d’entrée consommés.
Jetons de sortieJetons de sortie générés.
DébutLe moment où la conversation a commencé.
Dernière activitéLe temps écoulé depuis l’enregistrement du dernier message.
Pour afficher ou masquer des colonnes supplémentaires, cliquez sur Columns dans la barre d’outils.

Filtres et fenêtre temporelle

Utilisez la barre de Filtre pour affiner les résultats par agent, modèle, statut d’erreur ou autres attributs. Utilisez le sélecteur de fenêtre temporelle (1m, 1h, 6h, 24h, 7d, ou 30d) pour limiter la liste aux conversations actives au cours de cette période. L’histogramme du volume de conversations au-dessus de la liste se met à jour en fonction de la fenêtre sélectionnée. Survolez l’en-tête de n’importe quelle colonne dans la liste des conversations pour filtrer cette colonne selon une valeur ou une plage spécifique.

Détail d’une conversation d’agent

Cliquez sur une ligne de conversation pour ouvrir un panneau de détail avec deux sous-onglets : Tours de conversation et Événements. Une conversation sélectionnée dans l’onglet Conversations, avec le panneau de détail ouvert affichant le fil des messages tour par tour, les appels d’outil, le raisonnement et la chronologie des événements à droite.

Tours de conversation

Dans le détail de la conversation, le panneau des tours de conversation affiche chaque tour dans l’ordre chronologique, numéroté à partir de 1. Chaque tour de conversation affiche le nombre de réponses intermédiaires et d’appels d’outil, ainsi que la durée totale écoulée. Développez un tour de conversation pour voir le fil de messages complet.
Messages
Au sein d’un tour de conversation, les messages sont regroupés par rôle. Les messages utilisateur affichent le texte du message ainsi que tous les médias ou références de contenu joints. Les messages de l’assistant affichent les éléments suivants :
  • Le nom de l’agent et le modèle utilisé (par exemple, gpt-5.5-2026-04-23).
  • L’horodatage et la durée.
  • Le nombre de jetons en entrée et en sortie (par exemple, 16086 in 295 out).
  • Une section Raisonnement dépliable lorsque le modèle a utilisé un raisonnement approfondi.
  • Le texte de la réponse, qui se replie automatiquement pour les réponses longues.
Les appels d’outil affichent le nom de l’outil, l’horodatage et la durée. Si des données d’arguments ou de résultat sont disponibles, l’appel d’outil est dépliable et affiche Args et Result dans un tableau de paires clé-valeur. Si l’appel a échoué, un badge ERROR apparaît.
États d’erreur
Lorsqu’un appel d’outil renvoie un statut d’erreur, un badge rouge ERROR apparaît à côté, en ligne. Dans la chronologie des événements, cet événement s’affiche également en rouge, quel que soit son type.

Events

Le panneau Événements à droite affiche une bande colorée qui représente la séquence des événements au sein du tour de conversation sélectionné. Dans la chronologie Événements, la couleur de chaque segment indique le type d’événement.
CouleurType d’événement
VioletMessage utilisateur
VertMessage de l’assistant
BleuAppel d’outil
Terre de SienneInvocation d’un sous-agent
MagentaTransfert entre agents
GrisCompactage du contexte
RougeTout événement ayant renvoyé une erreur
Utilisez la chronologie du panneau Événements pour vous faire rapidement une idée de la structure d’un tour de conversation. Par exemple, vous pouvez voir s’il reposait surtout sur le LLM, surtout sur les outils, ou s’il impliquait une délégation à un sous-agent avant de lire le fil complet des messages.
Scores
Si des signaux sont actifs pour le projet, une section Scores fournit des métriques sur la conversation. Elle affiche le nom du scorer du signal, une note numérique globale de 0 à 1, un pourcentage de confiance, ainsi que les différents points de la grille d’évaluation qui ont contribué au score. Chaque point de la grille affiche également son propre niveau de confiance. Utilisez ces informations pour comprendre non seulement si un tour de conversation a obtenu un bon score, mais aussi quels critères précis de la grille ont été validés ou non.
Synthèse des métadonnées
La section Synthèse des métadonnées affiche des statistiques agrégées sur la conversation sélectionnée.
ChampDescription
JetonsNombre total de jetons d’entrée et de sortie.
Appels d’outilsNombre d’appels d’outils sur l’ensemble des tours de conversation.
MessagesNombre total de messages.
Durée de la sessionDurée écoulée entre le premier et le dernier message.
Page des tours de conversationTours de conversation actuellement affichés et nombre total de tours de conversation.
Répartition des jetons
La section Répartition des jetons affiche les détails du cache et du raisonnement pour la conversation sélectionnée.
ChampDescription
Lecture du cacheJetons issus du cache de prompt.
Écriture dans le cacheJetons écrits dans le cache de prompt.
Taux de succès du cachePourcentage des jetons d’entrée issus du cache. Un taux plus élevé réduit le coût et la latence.
RaisonnementJetons consacrés à un raisonnement approfondi.
Ratio de raisonnementPourcentage des jetons de sortie consacrés à un raisonnement approfondi.
Participants
La section Participants répertorie les agents et les modèles impliqués dans la conversation. Dans les conversations multi-agent, des tours de conversation différents peuvent afficher différents noms de modèle ici.

Onglet Spans

L’onglet Spans affiche chaque span individuel enregistré dans l’ensemble de l’activité des agents du projet. L’onglet Conversations regroupe l’activité en lignes au niveau du dialogue. L’onglet Spans montre les opérations brutes sous-jacentes : chaque appel au LLM, chaque exécution d’outil et chaque invocation d’agent sur une ligne distincte. Utilisez-le pour identifier précisément quel appel a été lent, quel modèle a consommé un nombre inattendu de jetons ou quelle invocation d’outil a échoué. L’onglet Spans affichant les spans de la conversation de l’agent.

Tableau des spans

Le tableau des spans partage la plupart de ses colonnes avec le tableau Conversations (agent, modèle, outil, nombre de jetons, statut). Certaines colonnes propres à cette vue sont :
ColonneDescription
SpanLe nom et l’ID du span, avec son ID de trace en dessous.
KindLe type de span OpenTelemetry pour cette opération (par exemple INTERNAL, SERVER ou CLIENT).
OperationLe type d’opération (par exemple chat, execute_tool ou invoke_agent).
FinishedLa raison de fin renvoyée par le modèle (par exemple stop ou max_tokens). Cette colonne n’est renseignée que pour les spans chat lorsque le modèle indique une raison de fin.
Des colonnes supplémentaires pour le détail des jetons de cache, les jetons de raisonnement, les paramètres LLM et les métadonnées de run W&B sont disponibles via le bouton Columns. L’onglet Spans est particulièrement utile lorsque vous avez besoin d’une précision au niveau des opérations que l’onglet Conversations ne fournit pas :
  • Identifier les appels coûteux. Triez par jetons In ou Out pour trouver quels appels LLM individuels génèrent les coûts, au lieu d’afficher uniquement des totaux au niveau de la conversation.
  • Déboguer un type d’opération spécifique. Filtrez par Operation pour isoler tous les spans execute_tool et vérifier les taux d’erreur, ou tous les spans chat pour un modèle spécifique.
  • Examiner la troncature. Filtrez Finished sur max_tokens pour trouver les spans où le modèle a atteint sa limite de jetons au lieu de se terminer normalement.
  • Établir une corrélation avec un run W&B. Des colonnes masquées par défaut exposent les ID de run W&B et les étapes du run, ce qui vous permet de relier un span spécifique à un run d’entraînement ou d’évaluation dans W&B.

Groupes de traces

Cliquez sur n’importe quelle ligne pour sélectionner la trace correspondante et mettre en surbrillance tous les autres spans qui partagent le même ID de trace. Cela vous montre l’ensemble des opérations exécutées dans le cadre d’une invocation d’un agent. Le regroupement s’effectue ici par trace, et non par conversation. Cela signifie qu’une même conversation peut contenir plusieurs traces si elle implique une délégation à un sous-agent.

Détail de l’invocation d’agent

Cliquez sur une ligne du tableau Spans pour ouvrir un panneau de détail contenant les données de l’invocation complète de l’agent. En haut du panneau de détail, un diagramme en flammes montre la position sur la chronologie et la durée relative de chaque span dans la trace sélectionnée. Chaque span apparaît sous la forme d’un bloc coloré mis à l’échelle selon sa durée réelle, positionné à son instant de début en millisecondes depuis le début de la trace. Utilisez la chronologie pour :
  • Repérer l’opération la plus longue en un coup d’œil. Les blocs larges indiquent les spans qui ont le plus contribué à la latence totale.
  • Voir le parallélisme. Les blocs qui se chevauchent indiquent des spans qui se sont exécutés simultanément plutôt que séquentiellement.
  • Inspecter n’importe quel span directement. Cliquez sur un bloc dans la chronologie pour afficher les détails de ce span, y compris ses messages d’entrée et de sortie, le nombre de jetons et d’autres métadonnées.
L’onglet Spans avec une trace sélectionnée, mettant en évidence un groupe de spans associés dans le tableau et affichant le diagramme en flammes dans le panneau de détail à droite. Vous pouvez aussi afficher les spans enfants sous la forme d’une arborescence de trace hiérarchique en sélectionnant l’icône Show trace tree dans l’en-tête du panneau de détail.

Onglet Signals

L’onglet Signals affiche des tags et des évaluations pour les conversations de votre agent. Les signaux mettent en évidence les problèmes de qualité et de sécurité pour signaler des problèmes, repérer des tendances et attirer votre attention sur les traces qui en ont besoin. Utilisez les signaux pour évaluer automatiquement la qualité des réponses de votre agent, détecter lorsqu’un utilisateur est frustré ou signaler du contenu NSFW. Pour la configuration et l’utilisation détaillée, voir Surveillez vos agents avec des signaux.