Evaluations で動的な Leaderboards を作成する

このガイドでは、動的な Leaderboards を使用して、Weave Evaluations から直接 Leaderboard ビューを可視化、カスタマイズ、保存、更新する方法を説明します。動的な Leaderboards を使うと、新しい experiment が蓄積されるにつれてモデル性能をトラッキングして比較できるため、毎回作成し直さなくても、継続的に最新のビューを維持できます。このページは、すでに Weave Evaluations を実行していて、結果を共有可能かつ再利用可能なビューに整理したいユーザー向けです。 Weave Evaluations では、experiment の結果を Leaderboards として可視化し、カスタマイズできます。保存済みの Leaderboard ビューは動的です。新しい評価 run を追加し、その結果が保存済みのフィルターに一致すると、手動で再設定しなくても、Leaderboard は自動的に更新されてそれらが含まれます。これにより、experiment とともに進化する永続的な Leaderboards としてビューを使用できます。

Leaderboard で評価結果を可視化する

プロジェクトに Weave の評価データが含まれている場合は、評価表を使って、フィルターした結果のサブセットに基づく Weave Leaderboard ビューをすばやく作成できます。 Weave Leaderboard を作成するには:

wandb.ai にアクセスします。
Weave のサイドバーメニューで Evaluations をクリックします。
評価表にフィルターを適用して、比較したいモデル、データセット、または Runs にデータを絞り込みます。
evaluation table toolbar で Visualize をクリックします。 Weave により、表で現在フィルターされているデータのみを使用した Leaderboard パネルが自動的に作成されます。
Leaderboard パネルのヘッダーで Configure をクリックして、Edit Leaderboard パネルを開きます。 Edit Leaderboard パネルでは、モデル、データセット、Scorer、メトリクスの表示方法を細かく制御できます。

以下は、フィルターした評価表が Leaderboard として可視化される様子と、生成された Leaderboard を設定する場所を示したものです。

フィルターが適用された評価表、表のツールバー内の Visualize ボタン、右側に表示された Leaderboard パネル、およびそのパネルヘッダー内の Configure ボタンを示す Evaluations ページ。

表示/非表示とカスタム名で Leaderboard の要素を設定する

Edit Leaderboard パネルでは、Leaderboard に表示する要素とそのラベル付け方法を制御できます。以下は、4 つの設定タブ (Models、データセット、Scorers、Metrics) を含む Edit Leaderboard パネルです。

右側で Edit Leaderboard パネルが開いており、Models、データセット、Scorers、Metrics の各タブを使って Leaderboard を設定している Evaluations ページ。

Edit Leaderboard パネルでは、次の操作ができます。

表示/非表示を切り替える チェックまたはチェックを外して、Leaderboard に表示するモデル、データセット、Scorer、メトリクスを選択します。
モデル、データセット、Scorer の名前を変更する 表示用のわかりやすい名前を割り当てます (たとえば、モデルの run 名を GPT-4 に変更したり、データセット名を JokesV1 に変更したりできます) 。名前を変更した項目は次のようになります。
- Leaderboard にすぐ反映される。
- 引き続きクリック可能で、サイドパネルで元の参照先を開ける。
- Leaderboard ビューが使われているすべての場所に自動的に反映される。

これにより、基になるオブジェクトを変更せずに、意味が明確で人が読みやすい名前を使って experiment を比較しやすくなります。

Leaderboardのメトリクスの動作と色分けを設定する

「よい」パフォーマンスの意味は、メトリクスによって異なります。Edit Leaderboard パネルでは、各メトリクスの方向を設定できるため、視覚的な強調表示を意図どおりにできます。 Edit Leaderboard パネルでは、各メトリクスについて次のいずれかの方向を指定できます。

値が高いほどよい
値が低いほどよい

この設定は、Leaderboard の色分けに直接影響します。

緑は よりよい 値を強調表示します。
赤は より悪い 値を強調表示します。
「高いほどよい」と「低いほどよい」を切り替えると、色分けは自動的に反転します。

これにより、異なるタイプのメトリクス (たとえば、精度、レイテンシ、エラー率) でも、視覚的な判断基準を正確に保てます。

Leaderboard ビューを保存して再利用する

Leaderboard をカスタマイズしたら、名前付きビューとして保存できます。これにより、自分やチームで後から同じ設定に戻れるようになります。Edit Leaderboard パネルで Save をクリックすると、カスタマイズした Leaderboard を再利用可能なビューとして保存できます。保存された Leaderboard ビューには、次の内容が保存されます。

選択したモデル、データセット、Scorer、メトリクス。
変更した表示ラベル。
メトリクスの方向設定 (高いほどよいか、低いほどよいか) 。
適用したフィルター。

保存済みビューを切り替える

保存済みビューを開くには、評価ページのタイトル横にある**メニュー ()**をクリックします。次の操作ができます。

デフォルトビューに戻って、データセット全体を表示する。
保存済みビューを再度開いて、すべてのカスタマイズを復元する。

保存済みビューを再度開くと、名前の変更とメトリクス設定はすべて保持されます。

スタートガイド

ガイド

クックブック

リファレンス

詳細とサポート

Evaluations で動的な Leaderboards を作成する

Leaderboard で評価結果を可視化する

表示/非表示とカスタム名で Leaderboard の要素を設定する

Leaderboardのメトリクスの動作と色分けを設定する

Leaderboard ビューを保存して再利用する

保存済みビューを切り替える

​Leaderboard で評価結果を可視化する

​表示/非表示とカスタム名で Leaderboard の要素を設定する

​Leaderboardのメトリクスの動作と色分けを設定する

​Leaderboard ビューを保存して再利用する

​保存済みビューを切り替える

Leaderboard で評価結果を可視化する

表示/非表示とカスタム名で Leaderboard の要素を設定する

Leaderboardのメトリクスの動作と色分けを設定する

Leaderboard ビューを保存して再利用する

保存済みビューを切り替える