これはインタラクティブなノートブックです。ローカルで実行することも、以下のリンクから利用することもできます。
Leaderboard クイックスタート
- 架空の郵便番号データのデータセットを生成します。
- スコアリング関数をいくつか作成し、ベースラインモデルを評価します。
- これらの手法を使って、複数のモデルと評価の組み合わせを評価します。
- Weave UI で leaderboard を確認します。
Step 1: ダミーの郵便番号データのデータセットを生成する
generate_dataset_rows を作成します。この合成データセットにより、leaderboard で各モデルをスコアリングする際に使用する、一貫した入力セットと期待値が得られます。
check_concrete_fields: モデルの出力が、想定される都市名と州に一致するかどうかを確認します。check_value_fields: モデルの出力が、想定される人口と世帯収入中央値の 10% 以内に収まっているかどうかを確認します。check_subjective_fields: LLM を使用して、モデルの出力が想定される “known for” フィールドに一致するかどうかを確認します。
Step 3: 評価を作成する
Evaluation オブジェクトはデータセットと scorers を組み合わせるため、同じベンチマークに対して任意のモデルを実行できます。