weave.scorers.default_models
L’objet renvoyé par ces évaluateurs contient un attribut booléen passed indiquant si le texte d’entrée est sûr ou de haute qualité, ainsi qu’un attribut metadata fournissant plus de détails, comme le score brut du modèle.
Vous pouvez exécuter des évaluateurs locaux sur CPU, mais W&B recommande d’utiliser des GPU pour obtenir les meilleures performances.
Les évaluateurs locaux sont uniquement disponibles pour le SDK Python de Weave. Ils ne sont pas encore disponibles pour le SDK TypeScript de Weave.Pour utiliser les évaluateurs Weave en TypeScript, voir les évaluateurs basés sur des fonctions.
Prérequis
Sélectionner un évaluateur
| Scorer | Scénario |
|---|---|
| WeaveToxicityScorerV1 | Identifier le contenu toxique ou dangereux dans les entrées et les sorties de votre système d’IA, y compris les discours haineux ou les menaces. |
| WeaveBiasScorerV1 | Détecter le contenu biaisé ou stéréotypé dans les entrées et les sorties de votre système d’IA. Utile pour réduire les biais nocifs dans le texte généré. |
| WeaveHallucinationScorerV1 | Identifier si votre système RAG génère des hallucinations dans sa sortie à partir de l’entrée et du contexte fournis. |
| WeaveContextRelevanceScorerV1 | Mesurer si la sortie du système d’IA est pertinente au regard de l’entrée et du contexte fournis. |
| WeaveCoherenceScorerV1 | Évaluer la cohérence et la structure logique de la sortie du système d’IA. |
| WeaveFluencyScorerV1 | Mesurer si la sortie du système d’IA est fluide. |
| WeaveTrustScorerV1 | Combiner les évaluateurs de toxicité, d’hallucination, de pertinence du contexte, de fluidité et de cohérence en un signal de confiance unique. |
| PresidioScorer | Détecter des informations personnelles identifiables (PII) dans les entrées et les sorties de votre système d’IA à l’aide de la bibliothèque Presidio de Microsoft. |
WeaveBiasScorerV1
- Race et origine : racisme et biais envers un pays ou une région d’origine, le statut migratoire ou l’origine ethnique.
- Genre et sexualité : sexisme, misogynie, homophobie, transphobie ou harcèlement sexuel.
WeaveBiasScorerV1 utilise un modèle deberta-small-long-nli affiné. Pour plus de détails sur le modèle, le jeu de données et le processus d’étalonnage, voir le rapport W&B WeaveBiasScorerV1.
Notes d’utilisation
- La méthode
scoreattend une chaîne de caractères dans le paramètreoutput.- Un score plus élevé indique une prédiction plus forte de biais dans le texte.
- Le paramètre
thresholdest défini, mais peut aussi être remplacé lors de l’initialisation.
Exemple d’utilisation
WeaveToxicityScorerV1
- Race et origine : racisme et biais à l’encontre d’un pays ou d’une région d’origine, du statut migratoire ou de l’origine ethnique.
- Genre et sexualité : sexisme, misogynie, homophobie, transphobie ou harcèlement sexuel.
- Religion : biais ou stéréotypes liés à la religion d’une personne.
- Capacité : biais liés aux capacités ou au handicap physique, mental ou intellectuel d’une personne.
- Violence et abus : descriptions excessivement explicites de violence, menaces de violence ou incitation à la violence.
WeaveToxicityScorerV1 utilise le modèle open source Celadon de PleIAs. Pour plus d’informations, voir le W&B rapport WeaveToxicityScorerV1.
Notes d’utilisation
- La méthode
scoreattend qu’une chaîne de caractères soit passée au paramètreoutput.- Le modèle renvoie des scores de
0à3dans cinq catégories différentes :- Si la somme de ces scores dépasse
total_threshold(valeur par défaut :5), l’entrée est signalée comme toxique. - Si une catégorie obtient à elle seule un score supérieur à
category_threshold(par défaut :2), l’entrée est signalée comme toxique.
- Si la somme de ces scores dépasse
- Pour rendre le filtrage plus agressif, remplacez
category_thresholdoutotal_thresholdlors de l’initialisation.
- Le modèle renvoie des scores de
Exemple d’utilisation
WeaveHallucinationScorerV1
WeaveHallucinationScorerV1 utilise le modèle HHEM 2.1 open source de Vectara. Pour plus d’informations, voir le rapport W&B WeaveHallucinationScorerV1.
Notes d’utilisation
- La méthode
scoreattend des valeurs pour les paramètresqueryetoutput.- Le contexte doit être passé au paramètre
output(sous forme de chaîne ou de liste de chaînes). - Un score de sortie plus élevé indique une probabilité plus forte d’hallucination dans la sortie.
- Le paramètre
thresholdest défini, mais peut être redéfini lors de l’initialisation.
- Le contexte doit être passé au paramètre
Exemple d’utilisation
WeaveContextRelevanceScorerV1
WeaveContextRelevanceScorerV1 utilise un modèle deberta-small-long-nli affiné sur tasksource. Pour plus de détails, voir le W&B rapport WeaveContextRelevanceScorerV1.
Notes d’utilisation
- La méthode
scoreattend des valeurs pourqueryetoutput.- Le contexte doit être transmis dans le paramètre
output(chaîne ou liste de chaînes). - Un score plus élevé indique plus fortement que le contexte est pertinent pour la requête.
- Vous pouvez passer
verbose=Trueà la méthodescorepour obtenir des scores pour chaque segment.
- Le contexte doit être transmis dans le paramètre
Exemple d’utilisation
WeaveCoherenceScorerV1
WeaveCoherenceScorerV1 utilise un modèle deberta-small-long-nli affiné de tasksource. Pour plus d’informations, voir le W&B rapport de WeaveCoherenceScorerV1.
Notes d’utilisation
- La méthode
scoreattend du texte dans les paramètresqueryetoutput.- Plus le score de sortie est élevé, plus la prédiction de cohérence est forte.
Exemple d’utilisation
WeaveFluencyScorerV1
WeaveFluencyScorerV1 utilise un modèle ModernBERT-base affiné par AnswerDotAI. Pour plus d’informations, voir le rapport W&B WeaveFluencyScorerV1.
Notes d’utilisation
- La méthode
scoreattend qu’un texte soit transmis au paramètreoutput.- Un score plus élevé en sortie indique une meilleure fluidité.
Exemple d’utilisation
WeaveTrustScorerV1
WeaveTrustScorerV1 est un scorer composite pour les systèmes RAG. Il évalue la fiabilité des résultats du modèle en regroupant d’autres évaluateurs en deux catégories : Critical et Advisory. En fonction du score composite, il renvoie un niveau de confiance :
high: Aucun problème détecté.medium: Seuls des problèmes Advisory sont détectés.low: Des problèmes Critical sont détectés ou l’entrée est vide.
low. Si un évaluateur Advisory n’est pas satisfait, le niveau de confiance est medium.
- Critical:
-
WeaveToxicityScorerV1 -
WeaveHallucinationScorerV1 -
WeaveContextRelevanceScorerV1 -
Advisory:
WeaveFluencyScorerV1WeaveCoherenceScorerV1
-
Notes d’utilisation
- Utilisez ce scorer pour évaluer les pipelines RAG.
- Il nécessite les clés
query,contextetoutputpour calculer correctement le score.
- Il nécessite les clés
Exemple d’utilisation
PresidioScorer
inputs et les sorties de votre système d’IA.
Notes d’utilisation
- Pour détecter certains types d’entités, comme les adresses e-mail ou les numéros de téléphone, passez une liste d’entités Presidio au paramètre
selected_entities. Sinon, Presidio détecte tous les types d’entités de sa liste par défaut.- Vous pouvez passer des recognizers personnalisés via le paramètre
custom_recognizers, sous la forme d’une liste d’instancespresidio.EntityRecognizer. - Pour traiter du texte non anglais, utilisez le paramètre
languagepour préciser la langue.
- Vous pouvez passer des recognizers personnalisés via le paramètre