メインコンテンツへスキップ
LLM 評価ジョブは、W&B Multi-tenant Cloudプレビュー版として提供されています。プレビュー期間中は、コンピュートを無料で利用できます。詳細については、LLM 評価ジョブの pricingを参照してください。
このページでは、CoreWeave が管理するインフラストラクチャーを使用して、公開アクセス可能な URL でホストされている API モデルに対して一連の評価ベンチマークを実行するための LLM 評価ジョブ の使い方を説明します。これらのベンチマークを実行すると、モデル性能を比較し、モデルの品質を検証し、独自の評価インフラストラクチャーを管理することなく、結果を共有リーダーボードに公開できます。W&B Models の artifact として保存されたモデル チェックポイントを評価する場合は、代わりに モデル チェックポイントを評価する を参照してください。

事前準備

評価ジョブを作成する前に、次の作業を完了してください。
  1. LLM 評価ジョブの要件と制限事項を確認します。
  2. 特定のベンチマークを実行するには、チーム管理者が必要な APIキー をチームスコープのシークレットとして追加しておく必要があります。評価ジョブの設定時には、どのチームメンバーでもそのシークレットを指定できます。
    • OpenAI APIキー: スコアリングに OpenAI モデルを使用するベンチマークで使われます。ベンチマークを選択した後に Scorer APIキー フィールドが表示される場合は必須です。シークレット名は OPENAI_API_KEY である必要があります。
    • Hugging Face ユーザーアクセストークン: 1 つ以上の制限付き Hugging Face データセットへのアクセスが必要な lingolylingoly2 など、一部のベンチマークで必須です。ベンチマークを選択した後に Hugging Face Token フィールドが表示される場合は必須です。APIキーには、該当するデータセットへのアクセス権が必要です。ユーザーアクセストークンおよび制限付きデータセットへのアクセスについては、Hugging Face のドキュメントを参照してください。
    • Serverless Inference が提供するモデルを評価するには、組織またはチーム管理者が WANDB_API_KEY を任意の値で作成する必要があります。このシークレットは認証には使用されません。
  3. 評価対象のモデルは、公開アクセス可能な URL で利用できる必要があります。組織またはチーム管理者は、認証用の APIキー を含むチームスコープのシークレットを作成する必要があります。
  4. 評価結果用に新しいW&B プロジェクトを作成します。プロジェクトのサイドバーで Create new project をクリックします。
  5. 各ベンチマークの仕組みを理解し、個別の要件を確認するために、そのベンチマークのドキュメントを確認します。利用可能な評価ベンチマークのリファレンスには関連リンクが含まれています。

モデルを評価する

評価ジョブを設定して起動するには、次の step に従います。完了すると、ベンチマーク run は CoreWeave 管理のインフラストラクチャー上のキューに追加され、結果は指定した保存先の W&B のプロジェクトに表示されます。
  1. W&B にログインし、プロジェクトのサイドバーで Launch をクリックします。LLM 評価ジョブ ページが表示されます。
  2. Evaluate ホスト型 API モデル をクリックして、評価を設定します。
  3. 評価結果の保存先となる project を選択します。
  4. Model セクションで、評価するベース URL とモデル名を指定し、認証に使用する APIキー を選択します。モデル名は、AI Security Institute で定義されている OpenAI 互換形式で指定してください。たとえば、OpenAI モデルは [MODEL-NAME] をモデル名として、次の構文で指定します: openai/[MODEL-NAME]。hosted モデルの providers とモデルの一覧については、AI Security Institute’s model provider reference を参照してください。
    • Serverless Inference が提供するモデルを評価するには、ベース URL を https://api.inference.wandb.ai/v1 に設定し、[MODEL-ID] をモデル ID として、次の構文でモデル名を指定します: openai-api/wandb/[MODEL-ID]。詳細は Inference model catalog を参照してください。
    • OpenRouter provider を使用するには、[MODEL-NAME] をモデル名として、次の構文でモデル名の先頭に openrouter を付けます: openrouter/[MODEL-NAME]
    • custom な OpenAPI 準拠モデルを評価するには、[MODEL-NAME] をモデル名として、次の構文でモデル名を指定します: openai-api/wandb/[MODEL-NAME]
  5. Select evaluations をクリックし、実行するベンチマークを最大 4 つ選択します。
  6. スコアリングに OpenAI モデルを使用するベンチマークを選択すると、Scorer APIキー フィールドが表示されます。これをクリックして、OPENAI_API_KEY シークレットを選択します。チーム管理者は、Create secret をクリックしてこの drawer から シークレット を作成できます。
  7. Hugging Face の gated dataset への access が必要なベンチマークを選択すると、Hugging Face token フィールドが表示されます。該当するデータセットへの access をリクエスト してから、Hugging Face ユーザーのアクセストークンを含む シークレット を選択します。
  8. 任意: Sample limit に正の整数を設定すると、評価するベンチマークサンプルの最大数を制限できます。設定しない場合は、タスク内のすべてのサンプルが対象になります。
  9. リーダーボードを自動的に作成するには、Publish results to leaderboard をクリックします。リーダーボードには、すべての評価が Workspace パネルにまとめて表示され、report で共有することもできます。
  10. Launch をクリックして、評価ジョブを起動します。
  11. ページ上部の円形矢印アイコンをクリックして、最近の run のモーダルを開きます。評価ジョブは、ほかの最近の Runs と一緒に表示されます。完了した run の名をクリックすると単一 run ビューで開き、Leaderboard リンクをクリックするとリーダーボードを直接開けます。詳細は、結果を表示する を参照してください。
このサンプルジョブでは、OpenAI モデル o4-mini に対して simpleqa ベンチマークを実行します:
hosted モデル評価ジョブの例
結果をリーダーボードに公開した場合は、評価を並べて比較できます。このサンプルのリーダーボードでは、複数の OpenAI モデルのパフォーマンスをまとめて可視化しています:
複数の hosted モデルのパフォーマンスを可視化したリーダーボードの例

評価結果を確認する

宛先プロジェクトのワークスペースにある W&B Models で、評価ジョブの結果を確認します。
  1. ページ上部の円形矢印アイコンをクリックして、最近の run を表示するモーダルを開きます。ここでは、評価ジョブがプロジェクト内の他の run と一緒に表示されます。評価ジョブにリーダーボードがある場合は、Leaderboard をクリックして全画面で開くか、run 名をクリックしてプロジェクト内の単一 run ビューで開きます。
  2. 評価ジョブのトレースは、ワークスペースの Evaluations セクション、または Weave サイドバーパネルの Traces タブで確認できます。
  3. Overview タブをクリックすると、設定やサマリー メトリクスを含む評価ジョブの詳細情報を確認できます。
  4. Logs タブをクリックすると、評価ジョブのデバッグログを表示、検索、またはダウンロードできます。
  5. Files タブをクリックすると、コード、ログ、設定、その他の出力ファイルを含む評価ジョブのファイルを参照、表示、またはダウンロードできます。

リーダーボードをカスタマイズする

リーダーボードには、指定したプロジェクトに送信されたすべての評価ジョブの結果が表示されます。各評価ジョブの各ベンチマークが 1 行で表示され、列には トレース、入力値、出力値などの詳細が表示されます。リーダーボードの詳細については、Weave の Leaderboardsを参照してください。
リーダーボード上の結果にフィードバックするには、Feedback 列の絵文字アイコンまたはチャットアイコンをクリックします。
  • デフォルトでは、すべての評価ジョブが表示されます。左側の run selector を使用して、評価ジョブをフィルターまたは検索できます。
  • デフォルトでは、評価ジョブはグループ化されていません。1 つ以上の列でグループ化するには、Group アイコンをクリックします。グループの表示/非表示を切り替えたり、グループを展開してその Runs を表示したりできます。
  • デフォルトでは、すべてのオペレーションが表示されます。1 つのオペレーションだけを表示するには、All ops をクリックしてオペレーションを選択します。
  • 列で並べ替えるには、列見出しをクリックします。列の表示をカスタマイズするには、Columns をクリックします。
    • デフォルトでは、ヘッダーは 1 階層で構成されています。ヘッダーの深さを増やすと、関連するヘッダーをまとめて整理できます。
    • 個々の列を選択または選択解除して表示/非表示を切り替えるか、クリック 1 回ですべての列を表示または非表示にできます。
    • 列を固定すると、固定していない列より前に表示できます。

リーダーボードをエクスポートする

リーダーボードをエクスポートするには、次の手順を実行します。
  1. Columns ボタンの近くにあるダウンロードアイコンをクリックします。
  2. エクスポートサイズを抑えるため、デフォルトでは W&B によりトレースルートのみがエクスポートされます。完全なトレースをエクスポートするには、Trace roots only をオフにします。
  3. エクスポートサイズを抑えるため、デフォルトでは W&B はフィードバックとコストをエクスポートしません。これらをエクスポートに含めるには、Feedback または Costs をオンにします。
  4. デフォルトのエクスポート形式は JSONL です。形式を変更するには、Export to file をクリックして形式を選択します。
  5. ブラウザーでリーダーボードをエクスポートするには、Export をクリックします。
  6. リーダーボードをプログラムからエクスポートするには、Python または cURL を選択し、Copy をクリックしてからスクリプトまたは command を実行します。

評価ジョブを再実行する

評価ジョブの完了後、同じ設定または調整した設定でもう一度実行したり、その設定を新しいジョブの出発点として再利用したりしたい場合があります。 状況に応じて、評価ジョブを再実行したり、その設定を表示したりする方法が複数あります。
  • 直前の評価ジョブを再実行するには、モデルを評価する の手順に従います。保存先のプロジェクトを選択すると、前回選択したモデル artifact の詳細とベンチマークが自動的に入力されます。必要に応じて調整してから、評価ジョブを起動します。
  • プロジェクトの Runs タブまたは run selector から評価ジョブを再実行するには、run 名にカーソルを合わせて 再生 アイコンをクリックします。設定が事前入力された状態でジョブ設定ドロワーが表示されます。必要に応じて設定を調整し、Launch をクリックします。
  • 別のプロジェクトから評価ジョブを再実行するには、その設定をインポートします:
    1. モデルを評価する の手順に従います。保存先のプロジェクトを選択したら、Import configuration をクリックします。
    2. インポートする評価ジョブが含まれるプロジェクトを選択し、次にその評価ジョブの run を選択します。設定が事前入力された状態でジョブ設定ドロワーが表示されます。
    3. 任意: 設定を調整します。
    4. Launch をクリックします。

評価ジョブの設定をエクスポートする

再利用または参照のために評価ジョブの config.yaml のローカル コピーを保存するには、run の Files タブから設定をエクスポートします。
  1. 単一 run ビューで run を開きます。
  2. run 内で Files を選択します。
  3. config.yaml の横にあるダウンロード ボタンを選択します。