中核機能
- エージェントセッションやマルチターン会話、またはアプリケーションコード内の個々の関数呼び出しと出力を可視化。
- 厳選されたテストケースに対してパフォーマンスを測定するための体系的な評価。
- 何が変更されたのかを把握できるようにする、プロンプト、モデル、データのバージョン追跡。
- さまざまなプロンプトやモデルを比較するための実験。
- 人による判断やアノテーションを収集するためのフィードバック収集。
- LLMの安全性と品質を確保するために、ガードレールとScorerを使って本番環境で行うモニタリング。
エージェント向けトレース
アプリケーションのトレース
- データが LLM アプリケーション内をどのようにエンドツーエンドで流れるかをトラッキングします。
- LLM のフィードバックの生成に使用されたソースドキュメントを確認できます。
- 特定のプロンプトや、回答がどのように生成されるかを詳しく確認できます。
評価
- どのモデルやプロンプトのバージョンが、どのようなパフォーマンスにつながったかをトラッキングします。
- 1 つ以上のスコアリング関数を使って応答を評価するためのメトリクスを定義できます。
- 複数のメトリクスにわたって、2 つ以上の異なる評価を比較できます。特定のサンプルのパフォーマンスを見比べることもできます。
あらゆるものをバージョン管理
プロンプトとモデルを試す
フィードバックを収集する
本番環境を監視する
Weave を使い始める
- https://wandb.ai/site で W&B アカウントを作成し、https://wandb.ai/authorize で APIキーを取得します。
- Weave をインストールします:
- スクリプトで Weave を import し、プロジェクトを初期化します。
<your-team>を W&B チーム名に、<your-project>を W&B のプロジェクト名に置き換えます。