Signaux et moniteurs personnalisés
| Signaux | Moniteurs personnalisés | |
|---|---|---|
| Configuration | Activation en un clic, sans rédaction de prompt | Contrôle complet sur le prompt d’évaluation, le modèle et les paramètres |
| Portée | Classificateurs prédéfinis de qualité et d’erreurs | Tous les critères d’évaluation que vous définissez |
| Sélection des traces | Automatique (traces racine réussies pour la qualité, traces en échec pour les erreurs) | Opérations, filtres et taux d’échantillonnage configurables |
| Modèle | Serverless Inference (prédéfini) | Tout modèle commercial ou modèle Serverless Inference |
| Cas d’utilisation | Surveillance rapide en production avec des classificateurs éprouvés | Critères d’évaluation personnalisés propres à votre application |
Créer un moniteur dans Weave
- Ouvrez l’interface W&B, puis ouvrez votre projet Weave.
- Dans la barre latérale de Weave, sélectionnez Monitors, puis le bouton + New Monitor. La boîte de dialogue modale Create new monitor s’ouvre.
-
Dans le menu Create new monitor, configurez les champs suivants :
- Name : doit commencer par une lettre ou un chiffre. Peut contenir des lettres, des chiffres, des tirets et des caractères de soulignement.
- Description (facultatif) : expliquez à quoi sert le moniteur.
- Bouton Active monitor : activez ou désactivez le moniteur.
- Calls to monitor :
- Operations : choisissez un ou plusieurs
@weave.opà surveiller. Vous devez journaliser au moins une trace utilisant l’op pour qu’il apparaisse dans la liste des ops disponibles. - Filter (facultatif) : limitez les appels éligibles (par exemple avec
max_tokensoutop_p). - Sampling rate : le pourcentage d’appels à évaluer (de 0 % à 100 %).
- Operations : choisissez un ou plusieurs
- LLM-as-a-judge configuration :
- Scorer name : doit commencer par une lettre ou un chiffre. Peut contenir des lettres, des chiffres, des tirets et des caractères de soulignement.
- Score Audio : filtre les modèles LLM disponibles pour n’afficher que les modèles compatibles avec l’audio, et ouvre le champ Media Scoring JSON Paths.
- Score Images : filtre les modèles LLM disponibles pour n’afficher que les modèles compatibles avec les images, et ouvre le champ Media Scoring JSON Paths.
- Judge model : sélectionnez le modèle à utiliser pour évaluer vos ops. Le menu contient les modèles LLM commerciaux que vous avez configurés dans votre compte W&B, ainsi que des modèles Serverless Inference. Les modèles compatibles avec l’audio portent le libellé Audio Input à côté de leur nom. Pour le modèle sélectionné, configurez les paramètres suivants :
- Configuration name : un nom pour cette configuration de modèle.
- System prompt : définit le rôle et la persona du modèle juge, par exemple « You are an impartial AI judge. »
- Response format : le format que le juge utilise pour produire sa réponse, par exemple un
json_objectou dutextbrut. - Scoring prompt : la tâche d’évaluation utilisée pour évaluer vos ops. Vous pouvez faire référence à des variables de prompt issues de vos ops dans vos prompts d’évaluation. Par exemple, « Evaluate whether
{output}is accurate based on{ground_truth}. »
- Media Scoring JSON Paths : spécifiez des expressions JSONPath (RFC 9535) pour extraire les médias de vos données de trace. Si vous ne spécifiez aucun chemin, le moniteur inclut tous les médias évaluables provenant des messages utilisateur. Ce champ apparaît lorsque vous activez Score Audio ou Score Images.
- Après avoir configuré les champs du moniteur, sélectionnez Create monitor. Cela ajoute le moniteur à votre projet Weave. Lorsque votre code commence à générer des traces, vous pouvez consulter les scores dans l’onglet Traces en sélectionnant le nom du moniteur, puis en examinant les données dans le panneau correspondant.
feedback de l’objet Call.
Exemple : créer un moniteur de véracité
- Définissez une fonction qui génère des énoncés. Certains sont vrais, d’autres non :
- Python
- TypeScript
- Exécutez la fonction au moins une fois pour enregistrer une trace dans votre projet. Cela rend l’op disponible pour le monitoring dans l’interface W&B.
- Ouvrez votre projet Weave dans l’interface W&B et sélectionnez Monitors dans la barre latérale. Sélectionnez ensuite New Monitor.
-
Dans le menu Create new monitor, configurez les champs avec les valeurs suivantes :
- Name:
truthfulness-monitor - Description:
Evaluates the truthfulness of generated statements. - Active monitor: basculez sur on.
- Operations: sélectionnez
generate_statement. - Sampling rate: définissez
100%pour évaluer chaque appel. - Scorer name:
truthfulness-scorer - Judge model:
o3-mini-2025-01-31 - System prompt:
You are an impartial AI judge. Your task is to evaluate the truthfulness of statements. - Response format:
json_object - Scoring prompt:
- Name:
- Sélectionnez Create monitor. Cela ajoute le moniteur à votre projet Weave.
- Dans votre script, appelez votre fonction avec des énoncés présentant différents degrés de véracité afin de tester la fonction d’évaluation :
- Python
- TypeScript
- Après avoir exécuté le script avec plusieurs énoncés différents, ouvrez l’interface W&B et accédez à l’onglet Traces. Sélectionnez n’importe quelle trace LLMAsAJudgeScorer.score pour voir les résultats.

generate_statement et stocke les résultats aux côtés de la trace d’origine, prêts à être analysés et comparés dans l’interface Weave.