Weaveの主要な機能
- アプリケーション内のあらゆるLLM call、入力、出力を可視化。
- 厳選されたテストケースに対してパフォーマンスを測定するための体系的な評価。
- 何が変更されたのかを把握できるようにする、プロンプト、Models、データのバージョン追跡。
- さまざまなプロンプトやモデルを比較するための実験。
- 人による判断やアノテーションを収集するためのフィードバック収集。
- LLMの安全性と品質を確保するために、ガードレールとスコアラーを使って本番環境で行うモニタリング。
トレース
- アプリケーションの各利用における入力と出力を確認できます。
- LLMのフィードバックの生成に使用されたソースドキュメントを確認できます。
- LLM callsのコスト、token数、レイテンシを確認できます。
- 特定のプロンプトや、回答がどのように生成されるかを詳しく確認できます。
- ユーザーからの応答に対するフィードバックを収集できます。
- コードでは、関数が何をしているかをトラッキングするために、Weaveのops and callsを使用できます。
評価
- どのバージョンのモデルやプロンプトが、どのようなパフォーマンスにつながったかを簡単にトラッキングできます。
- 1 つ以上のスコアリング関数を使って応答を評価するためのメトリクスを定義できます。
- 複数のメトリクスにわたって、2 つ以上の異なる評価を比較できます。特定のサンプルのパフォーマンスを見比べることもできます。
あらゆるものをバージョン管理
プロンプトとモデルを試す
フィードバックを収集する
本番環境を監視する
Weave を使い始める
- https://wandb.ai/site で Weights & Biases アカウントを作成し、https://wandb.ai/authorize で APIキーを取得します
- Weave をインストールします:
- スクリプトで Weave を import し、プロジェクトを初期化します:
- サポートされているインテグレーションを利用する以外にも、関数に 1 行追加するだけで、カスタム関数のトレースを Weave にログすることもできます。
@weave.op() でデコレートし、TypeScript では weave.op() でラップすると、Weave はそのコード、入力、出力、実行メタデータを自動的に取得します。