Fonctionnalités principales
- Visibilité sur les sessions d’agent et les conversations à plusieurs tours, ou sur les appels de fonction individuels et leurs sorties dans le code de l’application.
- Évaluation systématique pour mesurer les performances par rapport à des cas de test sélectionnés.
- Suivi des versions des prompts, modèles et données afin de comprendre ce qui a changé.
- Expérimentation pour comparer différents prompts et modèles.
- Collecte de retours pour recueillir des jugements humains et des annotations.
- Surveillance en production à l’aide de garde-fous et d’évaluateurs pour assurer la sécurité et la qualité des LLM.
Traçage agentique
Traçage des applications
- Suivez de bout en bout le flux des données dans votre application LLM.
- Consultez les documents source utilisés pour produire le feedback du LLM.
- Analysez en détail des prompts spécifiques et la manière dont les réponses sont produites.
Évaluations
- Suivez facilement quelles versions du modèle/prompt ont produit quelles performances.
- Définissez des métriques pour évaluer les réponses à l’aide d’une ou plusieurs fonctions de scoring.
- Comparez deux évaluations ou plus sur plusieurs métriques. Examinez des échantillons précis pour comparer leurs performances.
Versionnez tout
Expérimentez avec des prompts et des modèles
Recueillir des retours
Surveiller la production
Premiers pas avec Weave
- Créez un compte W&B sur https://wandb.ai/site et obtenez votre clé API sur https://wandb.ai/authorize.
- Installez Weave :
- Dans votre script, importez Weave et initialisez un projet. Remplacez
<your-team>par le nom de votre équipe W&B et<your-project>par le nom de votre projet W&B.