Il s’agit d’un notebook interactif. Vous pouvez l’exécuter en local ou utiliser les liens ci-dessous :
Démarrage rapide du Leaderboard
- Générer un jeu de données factice de codes postaux.
- Créer quelques fonctions de score et évaluer un modèle de référence.
- Utiliser ces techniques pour évaluer une matrice de modèles et d’évaluations.
- Consulter le leaderboard dans l’interface Weave.
Étape 1 : Générer un jeu de données fictif de codes postaux
generate_dataset_rows qui génère une liste de données fictives de codes postaux. Ce jeu de données synthétique fournit au leaderboard un ensemble cohérent d’entrées et de valeurs attendues pour attribuer un score à chaque modèle.
check_concrete_fields: vérifie si la sortie du modèle correspond à la ville et à l’État attendus.check_value_fields: vérifie si la sortie du modèle se situe dans une marge de 10 % par rapport à la population et au revenu médian attendus.check_subjective_fields: utilise un LLM pour vérifier si la sortie du modèle correspond au champ “known for” attendu.
Étape 3 : Créer une évaluation
Evaluation associe le jeu de données aux évaluateurs, afin que vous puissiez exécuter n’importe quel modèle sur le même benchmark.