ローカルスコアラーを利用できるのは、Weave Python SDK のみです。Weave TypeScript SDK では、まだ利用できません。TypeScript で Weave スコアラーを使用する場合は、関数ベースのスコアラー を参照してください。
インストール
model_idを設定するだけで済みます。
サポートされるモデルはこちらを参照してください。
HallucinationFreeScorer
- scorer の
system_promptフィールドとuser_promptフィールドをカスタマイズして、自分にとって “hallucination” とは何かを定義します。
scoremethod は、contextという名前の入力列を想定しています。データセットで別の名前を使用している場合は、column_map属性を使用する ことで、contextをデータセット内の列にマッピングできます。
SummarizationScorer
- エンティティ密度: summary 内で言及されている一意のエンティティ (名前、場所、物など) の数を、summary の総語数に対する比率で確認し、summary の「情報密度」を推定します。エンティティの抽出には LLM を使用します。これは、Chain of Density paper における entity density の考え方に類似しています。
- 品質評価: LLM evaluator が summary を
poor、ok、excellentのいずれかに判定します。これらの判定は、その後、集計的なパフォーマンス評価のためのスコア (poor は 0.0、ok は 0.5、excellent は 1.0) に対応付けられます。
summarization_evaluation_system_promptとsummarization_evaluation_promptを調整して、評価プロセスをカスタマイズします。
- この scorer は内部で litellm を使用します。
scoremethod は、元のテキスト (要約対象のテキスト) がinputcolumn に含まれていることを前提としています。データセットで別の名を使用している場合は、column_mapを使用してください。
OpenAIModerationScorer
OpenAIModerationScorer は OpenAI の Moderation API を使用して、AI システムの出力にヘイトスピーチや露骨な表現などの許可されていないコンテンツが含まれているかどうかを確認します。
- AI の出力を OpenAI Moderation エンドポイントに送信し、コンテンツがフラグ対象かどうかを示す構造化されたレスポンスを返します。
EmbeddingSimilarityScorer
EmbeddingSimilarityScorer は、AI システムの出力埋め込みと、データセット内の対象テキストの埋め込みとのコサイン類似度を計算します。AI の出力が参照テキストにどの程度近いかを測る際に役立ちます。
threshold(float): 2 つのテキストが類似していると見なすために必要な、最小のコサイン類似度スコア (-1 から 1 の範囲。デフォルトは0.5) 。
EmbeddingSimilarityScorer を使用します。
ValidJSONScorer
ValidJSONScorer は、AI システムの出力が有効な JSON かどうかを確認します。出力が JSON 形式であることを想定しており、その妥当性を検証する必要がある場合に便利なスコアラーです。
ValidXMLScorer
ValidXMLScorer は、AI システムの出力が有効な XML かどうかをチェックします。XML 形式の出力を想定している場合に役立ちます。
PydanticScorer
PydanticScorer は、AI システムの出力を Pydantic モデルに照らして検証し、指定されたスキーマまたはデータ構造に準拠していることを確認します。
RAGAS - ContextEntityRecallScorer
ContextEntityRecallScorer は、AI システムの出力と与えられたコンテキストの両方からエンティティを抽出し、リコールスコアを計算することで、コンテキスト再現率を推定します。RAGAS 評価ライブラリに基づいています。
- LLM を使用して、出力とコンテキストから一意のエンティティを抽出し、再現率を計算します。
- 再現率 は、コンテキスト内の重要なエンティティのうち、出力で捉えられている割合を示します。
- 再現率スコアを含む辞書を返します。
- データセットに
context列があることを前提としています。列名が異なる場合は、column_map属性を使用します。
RAGAS - ContextRelevancyScorer
ContextRelevancyScorer は、与えられたコンテキストが AI システムの出力にどの程度関連しているかを評価します。RAGAS 評価ライブラリに基づいています。
- LLM を使用して、出力に対するコンテキストの関連性を 0〜1 の尺度で評価します。
relevancy_scoreを含む辞書を返します。
- データセットに
context列があることを想定しています。列名が異なる場合は、column_map属性を使用してください。 - 関連性をどのように評価するかは、
relevancy_promptをカスタマイズして定義します。
openai/gpt-4o や openai/text-embedding-3-small などのOpenAIモデルを用いて調整されています。別のプロバイダを試したい場合は、model_id フィールドを更新して、別のモデルを使用できます。たとえば、Anthropicのモデルを使用するには: