Passer au contenu principal
Les modèles de raisonnement, comme Gemma 4 de Google, renvoient des informations sur leurs étapes de raisonnement en plus de la réponse finale. Cette page explique comment identifier les modèles compatibles avec le raisonnement sur Serverless Inference, où trouver le raisonnement dans une réponse et comment l’activer ou le désactiver pour les modèles qui prennent en charge cette option. Utilisez ce guide pour examiner le raisonnement intermédiaire d’un modèle ou pour contrôler si le raisonnement apparaît dans une réponse. Pour déterminer si un modèle prend en charge le raisonnement, consultez le tableau suivant des modèles pris en charge ou la section Supported Features de sa page de catalogue dans l’interface utilisateur. Les informations de raisonnement apparaissent dans le champ reasoning des réponses. La valeur de ce champ est null dans les réponses des modèles qui ne prennent pas en charge le raisonnement.

Modèles pris en charge avec raisonnement

Le tableau suivant répertorie les modèles de Serverless Inference qui renvoient un raisonnement en sortie. Chaque modèle pris en charge inclut soit toujours le raisonnement, soit a le raisonnement activé ou désactivé par défaut :
ID du modèle (pour l’utilisation de l’API)Prise en charge du raisonnement
deepseek-ai/DeepSeek-V4-FlashDésactivé par défaut
deepseek-ai/DeepSeek-V4-ProDésactivé par défaut
google/gemma-4-31B-itDésactivé par défaut
MiniMaxAI/MiniMax-M2.5Always on
moonshotai/Kimi-K2.6Always on
moonshotai/Kimi-K2.5Always on
nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8Activé par défaut
nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55BActivé par défaut
openai/gpt-oss-120bAlways on
openai/gpt-oss-20bAlways on
Qwen/Qwen3.6-35B-A3BActivé par défaut
Qwen/Qwen3.6-27BActivé par défaut
Qwen/Qwen3.5-35B-A3BActivé par défaut
Qwen/Qwen3.5-27BActivé par défaut
Qwen/Qwen3-235B-A22B-Thinking-2507Always on
zai-org/GLM-5.1Activé par défaut

Modèles avec le raisonnement Always on

Si un modèle figure comme Always on dans le tableau des modèles pris en charge ci-dessus, il inclut toujours le raisonnement et vous ne pouvez pas le désactiver.

Désactiver le raisonnement

Si un modèle est indiqué comme Activé par défaut dans le tableau précédent Modèles pris en charge, vous pouvez désactiver le raisonnement pour réduire la consommation de jetons ou simplifier la réponse. Pour désactiver le raisonnement pour une requête, dans chat_template_kwargs, définissez l’indicateur enable_thinking sur False (Python) ou false (Bash). Une fois la requête terminée, la réponse omet le contenu de raisonnement :
import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # Créez une clé API à l’adresse https://wandb.ai/settings
)

response = client.chat.completions.create(
    model="google/gemma-4-31B-it",
    messages=[
        {"role": "user", "content": "3.11 and 3.8, which is greater?"}
    ],
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": False
        }
    },
)

Activer le raisonnement

Si un modèle est répertorié comme Désactivé par défaut dans le tableau modèles pris en charge ci-dessus, vous pouvez activer le raisonnement en définissant l’indicateur enable_thinking sur True (Python) ou true (Bash) dans l’extrait de code ci-dessus.