Requête sur les résultats d’évaluation - Weights & Biases Documentation

curl --request POST \ --url https://api.example.com/v2/{entity}/{project}/eval_results/query \ --header 'Authorization: Basic <encoded-value>' \ --header 'Content-Type: application/json' \ --data ' { "evaluation_call_ids": [ "<string>" ], "evaluation_run_ids": [ "<string>" ], "filters": [ { "query": { "$expr": { "$and": [ { "$literal": "<string>" } ] } }, "evaluation_call_id": "<string>" } ], "include_predict_and_score_children": true, "include_raw_data_rows": false, "include_rows": true, "include_summary": false, "limit": 123, "offset": 0, "require_intersection": false, "resolve_row_refs": false, "sort_by": [ { "field": "<string>", "evaluation_call_id": "<string>", "mode": "value" } ], "summary_require_intersection": true } '

{ "rows": [ { "row_digest": "<string>", "evaluations": [ { "evaluation_call_id": "<string>", "trials": [ { "predict_and_score_call_id": "<string>", "model_latency_seconds": 123, "model_output": null, "predict_call_id": "<string>", "scorer_call_ids": {}, "scores": {}, "total_tokens": 123 } ] } ], "raw_data_row": null } ], "total_rows": 123, "summary": { "evaluations": [ { "evaluation_call_id": "<string>", "display_name": "<string>", "evaluation_ref": "<string>", "model_ref": "<string>", "scorer_stats": [ { "scorer_key": "<string>", "numeric_count": 0, "numeric_mean": 123, "pass_known_count": 0, "pass_rate": 123, "pass_signal_coverage": 123, "pass_true_count": 0, "path": "<string>", "trial_count": 0 } ], "started_at": "<string>", "trace_id": "<string>", "trial_count": 0 } ], "row_count": 0 }, "warnings": [ "<string>" ] }

Autorisations

Authorization

string

header

requis

Basic authentication header of the form Basic <encoded-value>, where <encoded-value> is the base64-encoded string username:password.

Paramètres de chemin

entity

string

requis

project

string

requis

Corps

application/json

evaluation_call_ids

string[] | null

ID des appels racine d'évaluation à inclure.

evaluation_run_ids

string[] | null

Alias des ID d'appel d'évaluation provenant de l'API Evaluation Runs.

filters

EvalResultsFilter · object[] | null

Filtres appliqués aux lignes groupées. Plusieurs filtres sont combinés avec AND.

Show child attributes

include_predict_and_score_children

boolean

défaut:true

Lorsque true (par défaut), récupère les appels enfants (predict/score) de chaque appel predict_and_score pour renseigner predict_call_id, scorer_call_ids et des données de latence/jeton plus précises. Lorsque false, ces champs sont dérivés de l’appel predict_and_score lui-même (predict_call_id et scorer_call_ids seront null/vides).

include_raw_data_rows

boolean

défaut:false

Lorsque cette valeur est true, renseignez raw_data_row sur chaque ligne de résultat. Les lignes inline sont renvoyées sous la forme de leur valeur dict ; les lignes référencées par un jeu de données sont renvoyées sous forme de chaîne de référence, sauf si resolve_row_refs est également true.

include_rows

boolean

défaut:true

Lorsque cette valeur est true, incluez les données groupées de ligne/essai dans rows et calculez total_rows pour la vue demandée au niveau ligne.

include_summary

boolean

défaut:false

Lorsque cette valeur est true, incluez dans summary les données de synthèse agrégées du scorer et de l'évaluation.

limit

integer | null

Taille de page facultative au niveau ligne, appliquée après le regroupement et l'intersection.

offset

integer

défaut:0

Décalage de page facultatif au niveau ligne, appliqué après le regroupement et l'intersection.

require_intersection

boolean

défaut:false

Lorsque cette valeur est true, incluez uniquement les lignes présentes dans toutes les évaluations demandées.

resolve_row_refs

boolean

défaut:false

Lorsque cette valeur est true (nécessite include_raw_data_rows=True), résolvez les chaînes de référence des lignes du jeu de données en données de ligne réelles via une recherche dans un tableau. Lorsque cette valeur est false, les références de ligne du jeu de données sont renvoyées telles quelles.

sort_by

EvalResultsSortBy · object[] | null

Spécification de tri des lignes de résultat. Préfixes de champ pris en charge : scores., inputs., outputs.. Lorsqu’elle est null, les lignes sont triées par row_digest ASC.

Show child attributes

summary_require_intersection

boolean | null

Comportement d'intersection facultatif pour la section de synthèse. Lorsqu'elle vaut null, la valeur de require_intersection est utilisée.

Réponse

Réponse réussie

rows

EvalResultsRow · object[]

requis

Show child attributes

total_rows

integer

requis

summary

EvalResultsSummaryRes · object

Show child attributes

warnings

string[]

Avertissements non fatals (par ex. échec de la résolution des références de ligne du jeu de données).