Activer les réponses en streaming

Définir l’option stream sur true renvoie la réponse du modèle de façon incrémentielle sous la forme d’un flux de fragments, afin que vous puissiez afficher les résultats à mesure qu’ils arrivent au lieu d’attendre la réponse complète. Cela est utile lorsque les modèles mettent du temps à générer une sortie. Tous les modèles hébergés prennent en charge la sortie en streaming. Nous recommandons le streaming pour les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle met longtemps à commencer à produire une sortie. Les exemples suivants activent le streaming pour une requête de complétion de chat :

Python
Bash

import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # Créez une clé API sur https://wandb.ai/settings
)

stream = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Tell me a rambling joke"}
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices:
        print(chunk.choices[0].delta.content or "", end="", flush=True)
    else:
        print(chunk) # Afficher l'objet CompletionUsage

curl https://api.inference.wandb.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer [YOUR-API-KEY]" \
  -d '{
    "model": "openai/gpt-oss-120b",
    "messages": [
      { "role": "user", "content": "Tell me a rambling joke" }
    ],
    "stream": true
  }'

Afficher les informations de raisonnement

Mise en cache des préfixes

Paramètres de réponse

Tutoriels

Référence de l’API