Passer au contenu principal
Définir l’option stream sur true renvoie la réponse du modèle de façon incrémentielle sous la forme d’un flux de fragments, afin que vous puissiez afficher les résultats à mesure qu’ils arrivent au lieu d’attendre la réponse complète. Cela est utile lorsque les modèles mettent du temps à générer une sortie. Tous les modèles hébergés prennent en charge la sortie en streaming. Nous recommandons le streaming pour les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle met longtemps à commencer à produire une sortie. Les exemples suivants activent le streaming pour une requête de complétion de chat :
import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # Créez une clé API sur https://wandb.ai/settings
)

stream = client.chat.completions.create(
    model="openai/gpt-oss-120b",
    messages=[
        {"role": "user", "content": "Tell me a rambling joke"}
    ],
    stream=True,
)

for chunk in stream:
    if chunk.choices:
        print(chunk.choices[0].delta.content or "", end="", flush=True)
    else:
        print(chunk) # Afficher l'objet CompletionUsage