メインコンテンツへスキップ
Evaluation Playground では、既存のモデルにアクセスし、評価用データセットや LLM の判定を使って、それらのパフォーマンスを比較できます。これにより、コードを用意しなくても、モデルの実験や比較をすぐに始められます。また、playground で作成したモデル、Scorer、データセットは、後で開発やデプロイに使えるよう保存できます。 たとえば、Evaluation Playground を開いて以前に保存した 2 つのモデルを追加し、新規または以前に保存した質問応答形式の評価用データセットに基づいて、それらのパフォーマンスを評価できます。続いて、インターフェースで新しいモデルを追加し、それに system prompt を加えたうえで、3 つすべてのモデルに対して新しい評価を実行し、互いのパフォーマンスを比較できます。
Evaluation Playground インターフェース

playground で評価を設定する

以下のセクションでは、Evaluation Playground を開き、評価の開始方法を選択し、データセット、Models、Scorer を設定する方法について説明します。 Evaluation Playground で評価を設定するには、次の手順に従います。
  1. Weave UI を開き、評価を実行するプロジェクトを開きます。Traces ページが開きます。
  2. Traces ページで左側メニューの Playground アイコンをクリックし、Playground ページで Evaluate タブを選択します。Evaluate ページでは、次のいずれかを実行できます。
    • Load a demo example: 期待される出力に対して MoonshotAI Kimi K2 モデルを評価し、その正確性の判定に LLM judge を使用する、事前定義済みの設定を読み込みます。この設定を使って、インターフェースを試すことができます。
    • Start from scratch: 構築のベースとなる空の設定を読み込みます。
  3. Start from scratch を選択した場合は、Title フィールドと Description フィールドに、評価のわかりやすいタイトルと説明を入力します。
次のセクションの手順に従って、Datasets、Models、Scorer を設定します。

データセットを追加する

Datasets は、ユーザー入力のサンプルと、モデルから期待される応答をまとめたコレクションです。評価時には、playground が各テスト入力をモデルに渡して出力を収集し、その後、正確性など、選択したメトリクスに基づいて出力をスコアリングします。UI でデータセットを作成することも、プロジェクトにすでに保存されている既存のデータセットを追加することも、新しいデータセットをアップロードすることもできます。 データセットは次の形式でアップロードできます。
  • .csv
  • .tsv
  • .json
  • .jsonl
データセットの形式や、Weave に保存する方法の詳細については、Datasets のドキュメントを参照してください。 Dataset セクションでデータセットを追加するには:
  1. ドロップダウンメニューをクリックし、次のいずれかを選択します。
    • UI で新しいデータセットを作成する場合は Start from scratch
    • ローカルマシンからデータセットをアップロードする場合は Upload a file
    • プロジェクトにすでに保存されている既存のデータセット。
  2. 任意: 後で使用できるようにデータセットをプロジェクトに保存するには、Save をクリックします。
いずれかのオプションを選択すると、データセットが UI の右ペインに表示され、各フィールドをクリックして必要に応じて編集できます。Add row をクリックして、データセットに新しい行を追加することもできます。
UI で編集できるのは、新しいデータセットのみです。また、Scorer がデータにアクセスできるように、データセット内の列名を user_inputexpected_output に設定することも重要です。

モデルを追加する

Weave における models とは、AI モデル (GPT など) と、そのモデルが評価中にどのように動作するかを定義する環境 (この場合は system prompt) を組み合わせたものです。プロジェクト内の既存のモデルを選んで評価することも、新しいモデルを作成して評価することもできます。また、複数のモデルを一度に追加し、同じデータセットと scorer を使って同時に評価することも可能です。使用できるのは、playground 機能で作成したモデルのみです。 Evaluation Playground の Models セクションでモデルを追加するには、次の手順を実行します。
  1. Add Model をクリックし、New Model を選択するか、ドロップダウンメニューから既存のモデルを選択します。
  2. New Model を選択した場合は、次のフィールドを設定します。
    • Name: 新しいモデルにわかりやすい名前を付けます。
    • LLM Model: OpenAI の GPT-4 など、新しいモデルのベースとなる 基盤モデル を選択します。すでにアクセスを設定している 基盤モデル の一覧から選択することも、Add AI provider を選択してモデルを選び、基盤モデル へのアクセスを追加することもできます。provider を追加すると、その provider のアクセス認証情報の入力が求められます。APIキー、エンドポイント、および Weave からモデルにアクセスするために必要な追加の設定情報の確認方法については、provider のドキュメントを参照してください。
    • System Prompt: たとえば You are a helpful assistant specializing in Python programming. のように、モデルの振る舞いに関する指示を指定します。データセット内の user_input は後続のメッセージで送信されるため、system prompt に含める必要はありません。
    既存のモデルを選択すると、モデル名の横に新しいフィールドが表示され、既存モデルのバージョンを選択できるようになります。そのほかに設定が必要なフィールドはありません。評価の前後で既存モデルに変更を加えるには、Prompt Playground を使用してください。
  3. 任意: Save をクリックして、後で使用できるようにモデルをプロジェクトに保存します。
  4. 任意: 複数のモデルを同時に評価するには、Add Model を再度クリックし、必要に応じてほかのモデルを追加します。

Scorer を追加する

Scorers は、LLM judge を使用して AI モデルの出力品質を測定・評価します。プロジェクト内の既存の Scorer を選択することも、モデルの評価に使用する新しい Scorer を作成することもできます。 Evaluation Playground でScorer を追加するには:
  1. Add Scorer をクリックし、次のフィールドを設定します。
    • Name: Scorer にわかりやすい名前を付けます。
    • Type: スコアの出力形式として、boolean または数値を選択します。Boolean Scorer は、モデルの出力が設定した判定基準を満たしているかどうかに応じて、True または False の二値を返します。数値 Scorer は 0 から 1 の間のスコアを出力し、モデルの出力が判定基準をどの程度満たしているかを総合的に評価します。
    • LLM-as-a-judge-model: Scorer の judge として使用する基盤モデルを選択します。Models セクションの LLM Model フィールドと同様に、すでにアクセスを設定済みの基盤モデルから選択することも、新たに基盤モデルへのアクセスを設定することもできます。
    • Scoring Prompt: 出力を評価するための LLM judge パラメーターを指定します。たとえば、ハルシネーションを確認するには、次のようなスコアリングプロンプトを入力します。
      次のコンテキストと回答を踏まえて、回答にコンテキストで裏付けられていない情報が含まれているかどうかを判断してください。
      
      ユーザー入力: {user_input}
      期待される出力: {expected_output}
      モデル出力: {output}
      
      モデル出力は正しいですか?
      
      スコアリングプロンプトでは、{user_input}{expected_output}{output} など、データセットや応答のフィールドを変数として使用できます。使用可能な変数の一覧を確認するには、UI で Insert variable をクリックします。
  2. 任意: Save をクリックして、後で使用できるように Scorer をプロジェクトに保存します。

評価を実行する

データセット、モデル、Scorer の設定が完了したら、評価を実行して結果を生成する準備は整っています。
  • Evaluation Playground で評価を実行するには、Run eval をクリックします。
Weave は、追加した各モデルに対して個別に評価を実行し、データセットを使って行われた各リクエストのメトリクスを収集します。これらの評価はそれぞれ、後で確認できるよう Evals セクションに保存されます。

評価結果を確認する

評価が完了したら、結果を確認して、各モデルがデータセットおよび Scorer に対してどのようなパフォーマンスを示したかを比較できます。 評価が完了すると、playground でレポートが開き、モデルに送信した各リクエストについて収集されたメトリクスが表示されます。
Evals hero
Dataset results タブには、入力、期待される出力、モデルの実際の出力、レイテンシ、トークン使用量、スコアリング結果が表示されます。Row 列の ID をクリックすると、特定のリクエストセットに関するメトリクスの詳細ビューを開けます。また、タブのすぐ下にある表示形式ボタンを使用して、レポート内のセルの表示形式を変更することもできます。 Summary タブには、各モデルのパフォーマンスの概要がデータの視覚的な表現とともに表示されます。 評価を開いて比較する方法の詳細については、Evaluations を参照してください。