Passer au contenu principal
W&B Weave est une plateforme d’observabilité et d’évaluation conçue pour créer des applications LLM fiables. Weave vous aide à comprendre ce que fait votre application d’IA, à mesurer ses performances et à l’améliorer de manière systématique au fil du temps. Le développement d’applications LLM est fondamentalement différent du développement logiciel traditionnel. Les résultats des LLM sont non déterministes, ce qui complique le débogage. La qualité est subjective et dépend du contexte. De petites modifications des prompts peuvent entraîner des comportements inattendus. Les approches de test traditionnelles montrent vite leurs limites.

Fonctionnalités principales

Weave offre les fonctionnalités clés suivantes :
  • Visibilité sur les sessions d’agent et les conversations à plusieurs tours, ou sur les appels de fonction individuels et leurs sorties dans le code de l’application.
  • Évaluation systématique pour mesurer les performances par rapport à des cas de test sélectionnés.
  • Suivi des versions des prompts, modèles et données afin de comprendre ce qui a changé.
  • Expérimentation pour comparer différents prompts et modèles.
  • Collecte de retours pour recueillir des jugements humains et des annotations.
  • Surveillance en production à l’aide de garde-fous et d’évaluateurs pour assurer la sécurité et la qualité des LLM.

Traçage agentique

Weave fournit une observabilité agentique sur l’ensemble du cycle de vie des conversations des agents, y compris les sessions, les appels LLM et les exécutions d’outils. Si vous créez un agent, suivez le Démarrage rapide du traçage d’agent ou découvrez comment utiliser le SDK Weave pour tracer vos agents. Si vous utilisez un framework tiers pour agents pris en charge, comme Claude Code ou OpenAI Agent SDK, Weave l’instrumente automatiquement, sans code supplémentaire. Voir Intégrations pour la liste complète des frameworks pris en charge.

Traçage des applications

Pour tracer des appels de fonction individuels, le code de l’application ou une logique personnalisée, utilisez Weave opérations and Calls. Ajoutez une ligne à n’importe quelle fonction pour suivre les entrées, les sorties, le coût, le nombre de jetons et la latence.
  • Suivez de bout en bout le flux des données dans votre application LLM.
  • Consultez les documents source utilisés pour produire le feedback du LLM.
  • Analysez en détail des prompts spécifiques et la manière dont les réponses sont produites.
Pour tracer des fonctions individuelles, suivez le démarrage rapide du traçage des opérations de Weave ou apprenez à utiliser les opérations and Calls de Weave. Si vous utilisez un framework d’agent tiers pris en charge, tel que Claude Code, Weave l’instrumente automatiquement sans code supplémentaire. Voir Intégrations pour la liste complète des frameworks pris en charge.

Évaluations

Évaluez et surveillez les performances de votre application LLM à l’aide d’évaluations afin d’améliorer de manière itérative la qualité et la fiabilité.
  • Suivez facilement quelles versions du modèle/prompt ont produit quelles performances.
  • Définissez des métriques pour évaluer les réponses à l’aide d’une ou plusieurs fonctions de scoring.
  • Comparez deux évaluations ou plus sur plusieurs métriques. Examinez des échantillons précis pour comparer leurs performances.
Créer un pipeline d’évaluation

Versionnez tout

Weave assure le suivi des versions de vos prompts, jeux de données et configurations de modèle. Si quelque chose casse, vous pouvez voir exactement ce qui a changé. Si quelque chose fonctionne, vous pouvez le reproduire. En savoir plus sur la gestion des versions

Expérimentez avec des prompts et des modèles

Munissez-vous de vos clés API pour tester des prompts et comparer les réponses de différents modèles commerciaux dans le playground. Expérimenter dans le playground Weave

Recueillir des retours

Recueillez les retours, annotations et corrections humaines liés à l’utilisation en production. Utilisez ces données pour créer de meilleurs cas de test et améliorer votre application. Recueillir des retours

Surveiller la production

Attribuez un score au trafic de Production avec les mêmes évaluateurs que ceux que vous utilisez pour l’Évaluation. Configurez des garde-fous pour détecter les problèmes avant qu’ils n’atteignent les utilisateurs. Configurer les garde-fous et les moniteurs

Premiers pas avec Weave

Weave fournit des SDK pour Python et TypeScript. Les deux SDK prennent en charge le traçage, l’évaluation, les jeux de données et les fonctionnalités principales de Weave. Certaines fonctionnalités avancées, comme les Models fondés sur des classes et les évaluateurs, ne sont pas disponibles dans le SDK TypeScript de Weave. Pour commencer avec Weave :
  1. Créez un compte W&B sur https://wandb.ai/site et obtenez votre clé API sur https://wandb.ai/authorize.
  2. Installez Weave :
pip install weave
  1. Dans votre script, importez Weave et initialisez un projet. Remplacez <your-team> par le nom de votre équipe W&B et <your-project> par le nom de votre projet W&B.
import weave
client = weave.init('<your-team>/<your-project>')
Vous êtes maintenant prêt à utiliser Weave.