stream sur true renvoie la réponse du modèle de façon incrémentielle sous la forme d’un flux
de fragments, afin que vous puissiez afficher les résultats à mesure qu’ils arrivent au lieu d’attendre la réponse complète. Cela est utile lorsque les modèles mettent du temps à générer une sortie.
Tous les modèles hébergés prennent en charge la sortie en streaming. Nous recommandons le streaming pour les modèles de raisonnement, car les requêtes sans streaming peuvent expirer si le modèle met longtemps à commencer à produire une sortie.
Les exemples suivants activent le streaming pour une requête de complétion de chat :
- Python
- Bash