> ## Documentation Index
> Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# 추론 정보 보기

> Serverless Inference 응답에서 추론을 반환하고 확인하는 방법

[Google's Gemma 4](https://huggingface.co/google/gemma-4-31B-it)와 같은 추론 모델은 최종 답변과 함께 추론 단계에 대한 정보도 반환합니다. 이 페이지에서는 Serverless Inference에서 추론 가능한 모델을 파악하는 방법, 응답에서 추론 출력이 어디에 표시되는지, 그리고 이 기능을 전환할 수 있는 모델에서 추론을 켜거나 끄는 방법을 설명합니다. 이 가이드를 사용하여 모델의 중간 추론을 살펴보거나 응답에 추론이 표시될지 여부를 제어하세요.

모델이 추론을 지원하는지 확인하려면 다음 지원되는 모델 표 또는 UI의 해당 카탈로그 페이지에 있는 **Supported Features** 섹션을 확인하세요.

추론 정보는 응답의 `reasoning` 필드에 포함됩니다. 추론 모델이 아닌 경우 응답에서 이 필드의 값은 `null`입니다.

<div id="supported-models-with-reasoning">
  ## 추론이 지원되는 모델
</div>

다음 표에는 추론 출력이 반환되는 Serverless Inference 모델이 나와 있습니다. 지원되는 각 모델은 추론을 항상 포함하거나, 기본적으로 추론이 비활성화되거나 활성화됩니다:

| 모델 ID(API 사용 시)                                | 추론 지원       |
| ---------------------------------------------- | ----------- |
| `deepseek-ai/DeepSeek-V4-Flash`                | 기본적으로 비활성화됨 |
| `deepseek-ai/DeepSeek-V4-Pro`                  | 기본적으로 비활성화됨 |
| `google/gemma-4-31B-it`                        | 기본적으로 비활성화됨 |
| `MiniMaxAI/MiniMax-M2.5`                       | 항상 켜짐       |
| `moonshotai/Kimi-K2.7-Code`                    | 항상 켜짐       |
| `moonshotai/Kimi-K2.6`                         | 항상 켜짐       |
| `moonshotai/Kimi-K2.5`                         | 항상 켜짐       |
| `nvidia/NVIDIA-Nemotron-3-Super-120B-A12B-FP8` | 기본적으로 활성화됨  |
| `nvidia/NVIDIA-Nemotron-3-Ultra-550B-A55B`     | 기본적으로 활성화됨  |
| `openai/gpt-oss-120b`                          | 항상 켜짐       |
| `openai/gpt-oss-20b`                           | 항상 켜짐       |
| `Qwen/Qwen3.6-35B-A3B`                         | 기본적으로 활성화됨  |
| `Qwen/Qwen3.6-27B`                             | 기본적으로 활성화됨  |
| `Qwen/Qwen3.5-35B-A3B`                         | 기본적으로 활성화됨  |
| `Qwen/Qwen3.5-27B`                             | 기본적으로 활성화됨  |
| `Qwen/Qwen3-235B-A22B-Thinking-2507`           | 항상 켜짐       |
| `zai-org/GLM-5.2`                              | 기본적으로 활성화됨  |
| `zai-org/GLM-5.1`                              | 기본적으로 활성화됨  |

<div id="models-with-always-on-reasoning">
  ### `항상 켜짐` 추론이 포함된 모델
</div>

모델이 앞의 [지원되는 모델](#supported-models) 표에서 `항상 켜짐`으로 표시되어 있으면, 추론이 항상 포함되며 이를 비활성화할 수 없습니다.

<div id="disable-reasoning">
  ### 추론 비활성화
</div>

모델이 앞선 [지원되는 모델](#supported-models) 표에서 `기본적으로 활성화됨`로 표시되어 있다면, 토큰 사용량을 줄이거나 응답을 더 단순하게 만들기 위해 추론을 비활성화할 수 있습니다. 요청에서 추론을 사용하지 않으려면 `chat_template_kwargs`에서 `enable_thinking` 플래그를 `False`(Python) 또는 `false`(Bash)로 설정하세요. 요청이 완료되면 응답에서 추론 내용이 생략됩니다.

<Tabs>
  <Tab title="Python">
    ```python lines highlight={13-17} theme={null}
    import openai

    client = openai.OpenAI(
        base_url='https://api.inference.wandb.ai/v1',
        api_key="[YOUR-API-KEY]",  # https://wandb.ai/settings 에서 API 키를 생성하세요
    )

    response = client.chat.completions.create(
        model="google/gemma-4-31B-it",
        messages=[
            {"role": "user", "content": "3.11 and 3.8, which is greater?"}
        ],
        extra_body={
            "chat_template_kwargs": {
                "enable_thinking": False
            }
        },
    )
    ```
  </Tab>

  <Tab title="Bash">
    ```bash lines highlight={9} theme={null}
    curl https://api.inference.wandb.ai/v1/chat/completions \
      -H "Content-Type: application/json" \
      -H "Authorization: Bearer [YOUR-API-KEY]" \
      -d '{
        "model": "google/gemma-4-31B-it",
        "messages": [
          { "role": "user", "content": "3.11 and 3.8, which is greater?" }
        ],
        "chat_template_kwargs": {"enable_thinking": false}
      }'
    ```
  </Tab>
</Tabs>

<div id="enable-reasoning">
  ### 추론 활성화
</div>

앞선 [지원되는 모델](#supported-models) 표에서 모델이 `기본적으로 비활성화됨`로 표시된 경우, 앞선 코드 스니펫에서 `enable_thinking` 플래그를 `True`(Python) 또는 `true`(Bash)로 설정해 추론을 활성화할 수 있습니다.
