Les évaluateurs locaux sont disponibles uniquement pour le SDK Python de Weave. Ils ne sont pas encore disponibles pour le SDK TypeScript de Weave.Pour utiliser les évaluateurs Weave en TypeScript, voir les évaluateurs basés sur des fonctions.
Installation
model_id. Voir les modèles pris en charge.
HallucinationFreeScorer
- Personnalisez les champs
system_promptetuser_promptdu scorer pour définir ce que signifie « hallucination » dans votre cas.
- La méthode
scoreattend une colonne d’entrée nomméecontext. Si votre dataset utilise un autre nom, utilisez l’attributcolumn_mappour associercontextà la colonne du dataset.
HallucinationFreeScorer dans le cadre d’une évaluation :
SummarizationScorer
- Densité d’entités : vérifie le ratio entre les entités uniques (telles que des noms, des lieux ou des objets) mentionnées dans la synthèse et le nombre total de mots qu’elle contient afin d’estimer sa “densité d’information”. Il utilise un LLM pour extraire les entités. Cette approche est similaire à la manière dont la densité d’entités est utilisée dans l’article Chain of Density.
- Évaluation de la qualité : un évaluateur LLM classe la synthèse comme
poor,okouexcellent. Ces évaluations sont ensuite converties en scores (0.0 pour poor, 0.5 pour ok et 1.0 pour excellent) pour l’évaluation agrégée des performances.
- Ajustez
summarization_evaluation_system_promptetsummarization_evaluation_promptpour personnaliser le processus d’évaluation.
- Le scorer utilise litellm en interne.
- La méthode
scoresuppose que le texte original (le texte à synthétiser) est présent dans la colonneinput. Utilisez l’attributcolumn_mapsi votre dataset utilise un autre nom.
SummarizationScorer dans le cadre d’une évaluation :
OpenAIModerationScorer
OpenAIModerationScorer utilise l’API Moderation d’OpenAI pour vérifier si la sortie du système d’IA contient du contenu non autorisé, comme des discours haineux ou du contenu explicite.
- Envoie la sortie de l’IA au point de terminaison OpenAI Moderation et renvoie une réponse structurée indiquant si le contenu a été signalé.
OpenAIModerationScorer dans le cadre d’une évaluation :
EmbeddingSimilarityScorer
EmbeddingSimilarityScorer calcule la similarité cosinus entre les embeddings de la sortie du système d’IA et un texte cible de votre jeu de données. Utilisez-le pour mesurer le degré de similarité entre la sortie de l’IA et un texte de référence.
threshold(float) : Le score minimal de similarité cosinus (entre -1 et 1) requis pour considérer que les deux textes sont similaires (valeur par défaut :0.5).
EmbeddingSimilarityScorer dans le cadre d’une évaluation :
ValidJSONScorer
ValidJSONScorer vérifie si la sortie du système d’IA est un JSON valide. Ce scorer est utile lorsque vous attendez une sortie au format JSON et devez en vérifier la validité.
ValidJSONScorer dans le cadre d’une évaluation :
ValidXMLScorer
ValidXMLScorer vérifie si la sortie du système d’IA est un document XML valide. Utilisez-le lorsque vous attendez des sorties au format XML.
ValidXMLScorer dans le cadre d’une évaluation :
PydanticScorer
PydanticScorer valide la sortie du système d’IA par rapport à un modèle Pydantic afin de garantir qu’elle respecte un schéma ou une structure de données donnés.
RAGAS - ContextEntityRecallScorer
ContextEntityRecallScorer estime le rappel du contexte en extrayant les entités à la fois de la sortie du système d’IA et du contexte fourni, puis en calculant le score de rappel. Il s’appuie sur la bibliothèque d’évaluation Retrieval Augmented Generation Assessment (RAGAS).
- Utilise un LLM pour extraire les entités uniques de la sortie et du contexte, puis calcule le rappel.
- Le rappel indique la proportion d’entités importantes du contexte présentes dans la sortie.
- Renvoie un dictionnaire contenant le score de rappel.
- Nécessite une colonne
contextdans votre dataset. Utilisez l’attributcolumn_mapsi le nom de la colonne est différent.
RAGAS - ContextRelevancyScorer
ContextRelevancyScorer évalue la pertinence du contexte fourni par rapport à la sortie du système d’IA. Il est basé sur la bibliothèque d’évaluation RAGAS.
- Utilise un LLM pour évaluer la pertinence du contexte par rapport à la sortie sur une échelle de 0 à 1.
- Renvoie un dictionnaire contenant le
relevancy_score.
- Nécessite une colonne
contextdans votre dataset. Utilisez l’attributcolumn_mapsi le nom de la colonne est différent. - Personnalisez
relevancy_promptpour définir la manière dont la pertinence est évaluée.
ContextEntityRecallScorer et ContextRelevancyScorer ensemble dans le cadre d’une évaluation :
openai/gpt-4o et openai/text-embedding-3-small. Pour utiliser un autre fournisseur, mettez à jour le champ model_id. Par exemple, pour utiliser un modèle Anthropic :