Weave のコストまたはトークンの推定値がプロバイダと異なるのはなぜですか？

Weave は、LLM Call から取得したデータに基づいてコストとトークン使用量の推定値を表示します。Weave の数値とプロバイダの請求内容に差異が生じる原因としては、次のようなものが考えられます。 トークン数は Weave ではなくプロバイダのレスポンスに基づきます サポートされるインテグレーション (OpenAI、Anthropic、Google など) では、Weave は API レスポンスのオブジェクトからトークン使用量を直接読み取ります。これは、コードが受け取る usage フィールドと同じものです。プロバイダの請求ページで異なる数値が表示される場合、その差異はプロバイダ側にあります (たとえば、Call ごとのレポートではなく、ストリーミング chunk 全体でのトークン集計方法が異なる可能性があります) 。 Weave のコスト推定値は静的な pricing 表を使用します Weave は、各モデルの既知のトークン単価にトークン数を掛けて推定コストを計算します。この表は定期的に更新されますが、プロバイダの pricing の変更反映が遅れることがあります。プロバイダが最近モデルの pricing を変更した場合、表が更新される次回の SDK リリースまでは、Weave の推定値は古いままになります。 Weave が使用しているモデルの pricing を確認するには、Weave source の pricing referenceを参照してください。 custom モデルまたはファインチューニングしたモデルには pricing エントリがない場合があります ファインチューニングしたモデル、または Weave の pricing 表に含まれていないモデル ID を使用している場合、コスト列には — または $0.00 が表示されます。トークン数は確認できますが、Weave は不明なモデルのコストを推定できません。 サンプリングにより取得されるトークン総数は減少します op に tracing_sample_rate を設定すると、トレースされるのは Call の一部だけになります。Weave のトークン合計には、実際の総使用量ではなく、サンプリングされた Call のみが反映されます。

@weave.op(tracing_sample_rate=0.1)
def my_llm_call(prompt):
    ...

この場合、Weave が取得するのは Call のおよそ 10% のみであるため、UI に表示されるトークン数とコストの合計はその分だけを表しています。 プロンプトキャッシュとバッチ API Call 一部のプロバイダ (たとえば、プロンプトキャッシュを有効にした OpenAI) では、キャッシュされた入力トークンに割引が適用されます。Weave は、プロバイダから返される usage オブジェクトをそのまま取得するため、プロバイダがレスポンス内で報告していれば、キャッシュされたトークンの料金も反映されるはずです。ただし、Weave の静的な料金表には、各トークンカテゴリの標準価格 (キャッシュなし) が反映されます。プロンプトキャッシュを多用している場合、Weave の見積もりと実際の請求額との差が大きくなる可能性があります。バッチ API リクエストでは、リアルタイムリクエストとは異なる形でトークン使用量が報告されることがあります。Weave に取得されることを想定している場合は、バッチ応答に標準の usage フィールドが含まれていることを確認してください。

データ取得トレースデータ

Weights & Biases

Powered by CoreWeave

Platform Details

Resources

Weave のコストまたはトークンの推定値がプロバイダと異なるのはなぜですか？