Il s’agit d’un notebook interactif. Vous pouvez l’exécuter localement ou utiliser les liens ci-dessous :
Les évaluateurs comme garde-fous
score qui évalue les performances d’un appel. Ils peuvent aller de règles de base à des LLM faisant office de juges.
Ce notebook s’adresse aux utilisateurs de Weave qui souhaitent appliquer des évaluateurs à l’exécution pour bloquer ou filtrer les sorties de modèle indésirables. En le suivant, vous créerez un garde-fou de sécurité du contenu qui intercepte une réponse de LLM, l’évalue à l’aide d’un Scorer et renvoie un message de remplacement lorsque le Scorer signale que la réponse n’est pas sûre. Cette utilisation des évaluateurs vous permet de réutiliser la même logique d’évaluation que celle employée pour les expériences hors ligne afin d’appliquer des politiques de sécurité en production.
À la fin de ce notebook, vous disposerez d’un ContentSafetyScorer opérationnel qui encapsule un appel LLM et renvoie soit la réponse d’origine, soit une réponse de remplacement sûre, selon le verdict du Scorer.