Afficher les informations de raisonnement

Les modèles de raisonnement, comme Gemma 4 de Google, renvoient des informations sur leurs étapes de raisonnement en plus de la réponse finale. Cette page explique comment identifier les modèles compatibles avec le raisonnement sur Serverless Inference, où trouver le raisonnement dans une réponse et comment l’activer ou le désactiver pour les modèles qui prennent en charge cette option. Utilisez ce guide pour examiner le raisonnement intermédiaire d’un modèle ou pour contrôler si le raisonnement apparaît dans une réponse. Pour déterminer si un modèle prend en charge le raisonnement, consultez le tableau suivant des modèles pris en charge ou la section Supported Features de sa page de catalogue dans l’interface utilisateur. Les informations de raisonnement apparaissent dans le champ reasoning des réponses. La valeur de ce champ est null dans les réponses des modèles qui ne prennent pas en charge le raisonnement.

Modèles pris en charge avec raisonnement

Le tableau suivant répertorie les modèles de Serverless Inference qui peuvent renvoyer un raisonnement en sortie, ainsi que le comportement de chacun :

Always on : Le modèle renvoie toujours un raisonnement en sortie. Vous ne pouvez pas le désactiver.
Activé par défaut / Désactivé par défaut : Vous pouvez activer ou désactiver le raisonnement en sortie. Le tableau indique la valeur par défaut lorsque vous ne spécifiez aucun paramètre.
Adaptatif ; le modèle choisit par défaut : Le modèle décide, pour chaque requête, s’il renvoie ou non un raisonnement en sortie. Vous pouvez redéfinir ce comportement.

ID du modèle (pour l’utilisation de l’API)	Prise en charge du raisonnement
`deepseek-ai/DeepSeek-V4-Flash`	Désactivé par défaut
`deepseek-ai/DeepSeek-V4-Pro`	Désactivé par défaut
`google/gemma-4-31B-it`	Désactivé par défaut
`MiniMaxAI/MiniMax-M3`	Adaptatif ; le modèle choisit par défaut
`MiniMaxAI/MiniMax-M2.5`	Always on
`moonshotai/Kimi-K2.7-Code`	Always on
`moonshotai/Kimi-K2.6`	Always on
`moonshotai/Kimi-K2.5`	Always on
`nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8`	Activé par défaut
`nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B`	Activé par défaut
`openai/gpt-oss-120b`	Always on
`openai/gpt-oss-20b`	Always on
`Qwen/Qwen3.6-35B-A3B`	Activé par défaut
`Qwen/Qwen3.6-27B`	Activé par défaut
`Qwen/Qwen3.5-35B-A3B`	Activé par défaut
`Qwen/Qwen3.5-27B`	Activé par défaut
`Qwen/Qwen3-235B-A22B-Thinking-2507`	Always on
`zai-org/GLM-5.2`	Activé par défaut
`zai-org/GLM-5.1`	Activé par défaut

Modèles avec le raisonnement `Always on`

Si un modèle figure comme Always on dans le tableau des modèles pris en charge ci-dessus, il inclut toujours le raisonnement et vous ne pouvez pas le désactiver.

Désactiver le raisonnement

Si un modèle est indiqué comme Activé par défaut dans le tableau précédent Modèles pris en charge, vous pouvez désactiver le raisonnement pour réduire la consommation de jetons ou simplifier la réponse. Pour désactiver le raisonnement pour une requête, dans chat_template_kwargs, définissez l’indicateur enable_thinking sur False (Python) ou false (Bash). Une fois la requête terminée, la réponse omet le contenu de raisonnement :

Python
Bash

import openai

client = openai.OpenAI(
    base_url='https://api.inference.wandb.ai/v1',
    api_key="[YOUR-API-KEY]",  # Créez une clé API à l’adresse https://wandb.ai/settings
)

response = client.chat.completions.create(
    model="google/gemma-4-31B-it",
    messages=[
        {"role": "user", "content": "3.11 and 3.8, which is greater?"}
    ],
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": False
        }
    },
)

curl https://api.inference.wandb.ai/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer [YOUR-API-KEY]" \
  -d '{
    "model": "google/gemma-4-31B-it",
    "messages": [
      { "role": "user", "content": "3.11 and 3.8, which is greater?" }
    ],
    "chat_template_kwargs": {"enable_thinking": false}
  }'

Activer le raisonnement

Si un modèle est répertorié comme Désactivé par défaut dans le tableau modèles pris en charge ci-dessus, vous pouvez activer le raisonnement en définissant l’indicateur enable_thinking sur True (Python) ou true (Bash) dans l’extrait de code ci-dessus.

Paramètres de réponse

Tutoriels

Référence de l’API

Modèles pris en charge avec raisonnement

Modèles avec le raisonnement `Always on`

Désactiver le raisonnement

Activer le raisonnement

​Modèles pris en charge avec raisonnement

​Modèles avec le raisonnement Always on

​Désactiver le raisonnement

​Activer le raisonnement

Modèles pris en charge avec raisonnement

Modèles avec le raisonnement `Always on`

Désactiver le raisonnement

Activer le raisonnement