Skip to main content
サーバー エラーは、Serverless Inference サービスで一時的な問題が発生していることを示しています。このページでは、これらのエラーを特定し、クライアント コードで適切に処理し、どの時点でサポートに問い合わせるべきかを判断する方法を説明します。

エラーのタイプ

以下のセクションでは、リクエストの問題ではなく、サーバー側の一時的な問題を示すエラーコードについて説明します。

500 内部サーバーエラー

これはサーバー側で一時的に発生している内部エラーです。レスポンスメッセージは次のとおりです: “サーバーでリクエストの処理中にエラーが発生しました。“

503 サービスの過負荷

サービスへのトラフィックが増加しています。レスポンスメッセージは次のとおりです: “推論エンジンは現在過負荷状態です。時間をおいて再度お試しください。“

サーバー エラーへの対処

これらのエラーは通常一時的なものであるため、再試行する前にサービスが回復する時間を確保できるよう、次の方法を使用してください。
  1. 再試行する前に待機します。次の待機時間を使用してください。
    • 500 エラー: 30〜60 秒待機する
    • 503 エラー: 60〜120 秒待機する
  2. エクスポネンシャルバックオフを使用する
    import time
    import openai
    
    def call_with_retry(client, messages, model, max_retries=5):
        for attempt in range(max_retries):
            try:
                return client.chat.completions.create(
                    model=model,
                    messages=messages
                )
            except Exception as e:
                if "500" in str(e) or "503" in str(e):
                    if attempt < max_retries - 1:
                        wait_time = min(60, (2 ** attempt))
                        time.sleep(wait_time)
                    else:
                        raise
                else:
                    raise
    
  3. 適切なタイムアウトを設定します。次の調整を適用してください。
    • HTTP クライアントのタイムアウト値を長めに設定する
    • より適切に処理するため、非同期操作も検討する

サポートに連絡する

再試行とバックオフで問題が解決しない場合は、チームがさらに調査できるよう、サポートに連絡してください。 次のいずれかに該当する場合はサポートに連絡してください。
  • エラーが10分以上続く
  • 特定の時間帯に失敗が発生する傾向が見られる
  • エラーメッセージに追加の詳細情報が含まれている
サポートに連絡する際は、次の情報を提供してください。
  • エラーメッセージとコード
  • エラーが発生した時刻
  • コードスニペット (APIキーは削除してください)
  • W&B の entity 名とプロジェクト名

Inference