Serverless Inference でサーバーエラー（500、503）を解消するにはどうすればよいですか？

サーバーエラーは、Serverless Inference サービスで一時的な問題が発生していることを示しています。このページでは、これらのエラーを特定し、クライアントコードで適切に処理し、どの時点でサポートに問い合わせるべきかを判断する方法を説明します。

エラーのタイプ

以下のセクションでは、リクエストの問題ではなく、サーバー側の一時的な問題を示すエラーコードについて説明します。

500 内部サーバーエラー

これはサーバー側で一時的に発生している内部エラーです。レスポンスメッセージは次のとおりです: “サーバーでリクエストの処理中にエラーが発生しました。“

503 サービスの過負荷

サービスへのトラフィックが増加しています。レスポンスメッセージは次のとおりです: “推論エンジンは現在過負荷状態です。時間をおいて再度お試しください。“

サーバーエラーへの対処

これらのエラーは通常一時的なものであるため、再試行する前にサービスが回復する時間を確保できるよう、次の方法を使用してください。

再試行する前に待機します。次の待機時間を使用してください。
- 500 エラー: 30〜60 秒待機する
- 503 エラー: 60〜120 秒待機する

エクスポネンシャルバックオフを使用する

import time
import openai

def call_with_retry(client, messages, model, max_retries=5):
    for attempt in range(max_retries):
        try:
            return client.chat.completions.create(
                model=model,
                messages=messages
            )
        except Exception as e:
            if "500" in str(e) or "503" in str(e):
                if attempt < max_retries - 1:
                    wait_time = min(60, (2 ** attempt))
                    time.sleep(wait_time)
                else:
                    raise
            else:
                raise

適切なタイムアウトを設定します。次の調整を適用してください。
- HTTP クライアントのタイムアウト値を長めに設定する
- より適切に処理するため、非同期操作も検討する

サポートに連絡する

再試行とバックオフで問題が解決しない場合は、チームがさらに調査できるよう、サポートに連絡してください。次のいずれかに該当する場合はサポートに連絡してください。

エラーが10分以上続く
特定の時間帯に失敗が発生する傾向が見られる
エラーメッセージに追加の詳細情報が含まれている

サポートに連絡する際は、次の情報を提供してください。

エラーメッセージとコード
エラーが発生した時刻
コードスニペット (APIキーは削除してください)
W&B の entity 名とプロジェクト名

Inference

Weights & Biases

Powered by CoreWeave

Platform Details

Resources

Serverless Inference でサーバーエラー（500、503）を解消するにはどうすればよいですか？

エラーのタイプ

500 内部サーバーエラー

503 サービスの過負荷

サーバーエラーへの対処

サポートに連絡する

​エラーのタイプ

​500 内部サーバーエラー

​503 サービスの過負荷

​サーバー エラーへの対処

​サポートに連絡する

エラーのタイプ

500 内部サーバーエラー

503 サービスの過負荷

サーバーエラーへの対処

サポートに連絡する