Passer au contenu principal
Weave for Agents est en préversion publique. Les fonctionnalités, les API et l’interface utilisateur de la vue Agents peuvent encore évoluer avant la disponibilité générale.
Dans Agents view de W&B Weave, l’onglet Signals affiche des tags et des scores pour les conversations de votre agent. Les signaux mettent en évidence les problèmes de qualité et de sécurité afin de repérer les anomalies, d’identifier des tendances et de mettre en avant les traces qui nécessitent votre attention. Utilisez les signaux pour évaluer automatiquement la qualité des réponses de votre agent, détecter quand un utilisateur est frustré ou signaler du contenu NSFW.

Premiers pas

Pour afficher les signaux de votre projet :
  1. Accédez à https://wandb.ai et sélectionnez votre projet.
  2. Dans le menu latéral, sélectionnez Agents pour afficher toutes les conversations d’agent enregistrées dans votre projet.
  3. Dans la barre d’onglets, sélectionnez Signals.
L’onglet Signals affichant une liste des tours de conversation évalués pour l’agent.

Termes clés

  • Tour de conversation : Un échange aller-retour entre l’utilisateur et l’agent.
  • Score : Un score numérique entre 0,0 et 1,0 attribué à un span correspondant.
  • Tags : Des tags attribués aux spans correspondants, comme “user-frustration” ou “nsfw”.

Tableau des signaux

L’onglet Signals affiche un tableau des tours de conversation évalués de votre agent. Chaque ligne représente le résultat de l’un de vos moniteurs de signaux. Les colonnes suivantes s’affichent par défaut.
ColonneDescription
TypeLa partie de la conversation qui est évaluée. Seul turn est pris en charge.
ScorerLe nom du signal qui a produit ce score.
Dernier messageUn aperçu du dernier message du tour de conversation évalué, avec le rôle affiché en dessous.
AgentL’agent associé au tour de conversation évalué.
ScoresLe score numérique de 0,0 à 1,0, ou un tag s’il y a correspondance. Nous vous recommandons d’utiliser une échelle cohérente où 1 indique un bon résultat et 0 un mauvais, mais vos évaluateurs peuvent utiliser n’importe quelle échelle que vous définissez.
TendanceAffiche un graphique intégré montrant l’évolution de ce signal au fil du temps. Affiche soit la valeur moyenne (pour les scores), soit le nombre d’occurrences (pour les tags).
QuandLe moment où le signal a été évalué.
Utilisez le sélecteur de fenêtre temporelle et la barre Filtre pour affiner les résultats par évaluateur, agent, plage de score ou période. La chronologie Volume de scores affiche le nombre de signaux que Weave a évalués avec un score ou tagués. Elle reflète les lignes affichées dans le tableau et prend en charge le filtrage par glisser-déposer sur la chronologie.

Créer un nouveau signal

Pour commencer à évaluer les tours de conversation de votre agent, créez un signal. Sélectionnez + New signal pour créer un scorer pour votre agent, puis configurez les options suivantes.

Type de scorer

Choisissez de créer un scorer score ou un scorer Tags.
  • score : attribue un score entre 0 et 1 à chaque span correspondant.
  • Tags : attribue jusqu’à 10 tags à chaque span correspondant. L’interface utilisateur Signals affiche uniquement des lignes pour les spans correspondant à au moins un tag. Votre scorer de tags peut donc s’exécuter correctement même si vous ne voyez aucun résultat.

Attribuez un score uniquement aux tours de conversation correspondants

Utilisez ce sélecteur pour limiter les tours de conversation évalués par le signal, par exemple à un Agent name, un Operation name, un Tool name ou un Request model spécifique. Weave combine plusieurs filtres avec une logique AND. Pour attribuer un score à chaque tour de conversation, sélectionnez le x à la fin de la ligne de filtre pour le supprimer.

Modèle de prompt

Choisissez un modèle de départ dans les tableaux suivants, puis ajustez le prompt affiché directement sous Scorer prompt. Weave résout les variables du modèle, telles que {input_messages}, {output_messages} et {system_instructions}, lors de l’évaluation.

Modèles de notation

ModèleCe qu’il évalue
Satisfaction de l’utilisateurSi l’utilisateur est satisfait (feedback positif, poursuite de l’échange, tâche accomplie) ou insatisfait (plaintes, reformulations répétées, abandon).
Bonne intention de l’utilisateurSi l’intention de l’utilisateur est bénigne et légitime, par opposition aux tentatives de jailbreak, aux requêtes malveillantes ou à l’injection de prompt.
Safe-for-WorkSi la conversation est appropriée dans un contexte professionnel, par opposition à un contenu explicite, violent ou autrement inapproprié sur le lieu de travail.
Qualité de la réponseSi la réponse de l’agent est exacte, complète et répond directement à la requête de l’utilisateur.

Modèles de tags

ModèleCe qu’il détecte
Frustration de l’utilisateurL’utilisateur montre des signes de frustration, de colère, de confusion ou d’insatisfaction.
Intention malveillante (Jailbreaking)L’utilisateur tente de contourner les protections du système, d’extraire du contenu restreint, d’effectuer une injection de prompt, d’utiliser des techniques de jeu de rôle abusives, ou de manipuler l’agent d’une autre manière pour qu’il ignore ses garde-fous.
NSFWL’entrée de l’utilisateur ou la sortie de l’agent contient du contenu sexuel explicite, de la violence explicite ou d’autres éléments inappropriés dans un cadre professionnel.
Réponse de faible qualitéSortie de l’agent factuellement incorrecte, hors sujet, évasive, répétitive, manquant de justification lorsqu’elle refuse, ou ne répondant pas correctement à la requête de l’utilisateur.

Nom du scorer

Choisissez le nom d’affichage de ce signal.

Paramètres avancés

Dans Advanced, configurez les options suivantes.
  • Modèle d’inférence : le LLM à utiliser pour l’évaluation. Serverless Inference est l’option par défaut recommandée lorsqu’elle est disponible.
  • Taux d’échantillonnage : pour les agents à fort trafic, définissez un taux d’échantillonnage afin d’évaluer seulement une partie des tours de conversation, plutôt que chaque tour de conversation, et de réduire les coûts.

Gérer et modifier les signaux

Sélectionnez Manage signals pour ouvrir un volet latéral qui répertorie tous les signaux actifs du projet. Vous pouvez ensuite activer ou désactiver les signaux, les supprimer ou modifier n’importe quel signal. L’éditeur affiche les mêmes champs que + New signal.

Résoudre les problèmes liés aux signaux

L’activité des signaux s’affiche sous Traces dans la barre latérale du projet. Si vous ne voyez pas les correspondances attendues pour les signaux, utilisez le tableau Traces pour le diagnostic. Par exemple, vérifiez le nom du scorer ainsi que la colonne Status afin de repérer d’éventuelles erreurs. En cas d’erreur d’exécution du scorer, Status affiche un indicateur rouge et inclut les détails de l’erreur.