> ## Documentation Index
> Fetch the complete documentation index at: https://docs.wandb.ai/llms.txt
> Use this file to discover all available pages before exploring further.

# PyTorch

> PyTorch を W&B と統合し、実験管理、データセットのバージョン管理、メトリクス、勾配、モデルをログします。

export const ColabLink = ({url}) => <a href={url} target="_blank" rel="noopener noreferrer" className="colab-link">
    <svg width="20" height="20" viewBox="0 0 24 24" fill="currentColor" xmlns="http://www.w3.org/2000/svg">
      <path d="M14.25.18l.9.2.73.26.59.3.45.32.34.34.25.34.16.33.1.3.04.26.02.2-.01.13V8.5l-.05.63-.13.55-.21.46-.26.38-.3.31-.33.25-.35.19-.35.14-.33.1-.3.07-.26.04-.21.02H8.77l-.69.05-.59.14-.5.22-.41.27-.33.32-.27.35-.2.36-.15.37-.1.35-.07.32-.04.27-.02.21v3.06H3.17l-.21-.03-.28-.07-.32-.12-.35-.18-.36-.26-.36-.36-.35-.46-.32-.59-.28-.73-.21-.88-.14-1.05-.05-1.23.06-1.22.16-1.04.24-.87.32-.71.36-.57.4-.44.42-.33.42-.24.4-.16.36-.1.32-.05.24-.01h.16l.06.01h8.16v-.83H6.18l-.01-2.75-.02-.37.05-.34.11-.31.17-.28.25-.26.31-.23.38-.2.44-.18.51-.15.58-.12.64-.1.71-.06.77-.04.84-.02 1.27.05zm-6.3 1.98l-.23.33-.08.41.08.41.23.34.33.22.41.09.41-.09.33-.22.23-.34.08-.41-.08-.41-.23-.33-.33-.22-.41-.09-.41.09zm13.09 3.95l.28.06.32.12.35.18.36.27.36.35.35.47.32.59.28.73.21.88.14 1.04.05 1.23-.06 1.23-.16 1.04-.24.86-.32.71-.36.57-.4.45-.42.33-.42.24-.4.16-.36.09-.32.05-.24.02-.16-.01h-8.22v.82h5.84l.01 2.76.02.36-.05.34-.11.31-.17.29-.25.25-.31.24-.38.2-.44.17-.51.15-.58.13-.64.09-.71.07-.77.04-.84.01-1.27-.04-1.07-.14-.9-.2-.73-.25-.59-.3-.45-.33-.34-.34-.25-.34-.16-.33-.1-.3-.04-.25-.02-.2.01-.13v-5.34l.05-.64.13-.54.21-.46.26-.38.3-.32.33-.24.35-.2.35-.14.33-.1.3-.06.26-.04.21-.02.13-.01h5.84l.69-.05.59-.14.5-.21.41-.28.33-.32.27-.35.2-.36.15-.36.1-.35.07-.32.04-.28.02-.21V6.07h2.09l.14.01.21.03zm-6.47 14.25l-.23.33-.08.41.08.41.23.33.33.23.41.08.41-.08.33-.23.23-.33.08-.41-.08-.41-.23-.33-.33-.23-.41-.08-.41.08z" />
    </svg>
    Colabで試す
  </a>;

<ColabLink url="https://colab.research.google.com/github/wandb/examples/blob/master/colabs/pytorch/Simple_PyTorch_Integration.ipynb" />

[W\&B](https://wandb.ai) を使って、機械学習の実験管理、データセットのバージョン管理、プロジェクトでの共同作業を行います。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541/_OEDykSS2PIumrEw/images/tutorials/huggingface-why.png?fit=max&auto=format&n=_OEDykSS2PIumrEw&q=85&s=06138cad556d6b611c67d197c0406e85" alt="W&Bを使用する利点" width="4672" height="816" data-path="images/tutorials/huggingface-why.png" />
</Frame>

<div id="what-this-notebook-covers">
  ## このノートブックで学ぶこと
</div>

PyTorchコードにW\&Bを統合し、パイプラインに実験管理を追加する方法を紹介します。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541/wYBIlf7cqDpGjWr9/images/tutorials/pytorch.png?fit=max&auto=format&n=wYBIlf7cqDpGjWr9&q=85&s=973ad6711e319f519e0a5eef17e1299d" alt="PyTorchとW&Bのインテグレーション図" width="1887" height="1145" data-path="images/tutorials/pytorch.png" />
</Frame>

```python theme={null}
# ライブラリをインポートする
import wandb

# config にハイパーパラメーターの辞書を設定する
config = {
    "learning_rate": 0.001,
    "epochs": 100,
    "batch_size": 128
}

# 新しい実験を開始する
with wandb.init(project="new-sota-model", config=config) as run:

    # モデルとデータを準備する
    model, dataloader = get_model(), get_data()

    # 任意: 勾配をトラッキングする
    run.watch(model)

    for batch in dataloader:
    metrics = model.training_step()
    # トレーニングループ内でメトリクスをログして、モデル性能を可視化する
    run.log(metrics)

    # 任意: 最後にモデルを保存する
    model.to_onnx()
    run.save("model.onnx")
```

[動画チュートリアル](https://wandb.me/pytorch-video)を見ながら進めてください。

**注**: *Step* で始まるセクションだけで、既存のパイプラインに W\&B を統合できます。それ以外の部分では、データの読み込みとモデルの定義を行います。

<div id="install-import-and-log-in">
  ## インストール、インポート、ログイン
</div>

```python theme={null}
import os
import random

import numpy as np
import torch
import torch.nn as nn
import torchvision
import torchvision.transforms as transforms
from tqdm.auto import tqdm

# 決定論的な動作を保証する
torch.backends.cudnn.deterministic = True
random.seed(hash("setting random seeds") % 2**32 - 1)
np.random.seed(hash("improves reproducibility") % 2**32 - 1)
torch.manual_seed(hash("by removing stochasticity") % 2**32 - 1)
torch.cuda.manual_seed_all(hash("so runs are repeatable") % 2**32 - 1)

# デバイスの設定
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

# MNISTミラーリストから低速なミラーを削除する
torchvision.datasets.MNIST.mirrors = [mirror for mirror in torchvision.datasets.MNIST.mirrors
                                      if not mirror.startswith("http://yann.lecun.com")]
```

<div id="step-0-install-wb">
  ### Step 0: W\&B をインストール
</div>

まずはライブラリをインストールしましょう。
`wandb` は `pip` を使って簡単にインストールできます。

```python theme={null}
!pip install wandb onnx -Uq
```

<div id="step-1-import-wb-and-login">
  ### Step 1: W\&B をインポートしてログイン
</div>

W\&B の Web サービスにデータをログするには、
ログインする必要があります。

W\&B を初めて使用する場合は、
表示されるリンクから無料アカウントにサインアップする必要があります。

```
import wandb

wandb.login()
```

<div id="define-the-experiment-and-pipeline">
  ## 実験とパイプラインを定義する
</div>

<div id="track-metadata-and-hyperparameters-with-wandbinit">
  ### `wandb.init()` でメタデータとハイパーパラメーターをトラッキングする
</div>

プログラム上では、まず実験を定義します。
ハイパーパラメーターは何か、この run にはどのようなメタデータが関連付けられているのかを決めます。

この情報は `config` 辞書
(または同様のオブジェクト)
に保存し、
必要に応じて参照するのが一般的なワークフローです。

この例では、変化させるハイパーパラメーターはごく一部だけで、
残りはコードに直接書いています。
ただし、モデルのどの部分でも `config` に含めることができます。

また、いくつかのメタデータも含めています。使用しているのは MNIST データセットと畳み込み
アーキテクチャです。後で、たとえば
同じプロジェクト内で CIFAR 上の全結合アーキテクチャを扱うことになった場合でも、
これによって run を区別しやすくなります。

```python theme={null}
config = dict(
    epochs=5,
    classes=10,
    kernels=[16, 32],
    batch_size=128,
    learning_rate=0.005,
    dataset="MNIST",
    architecture="CNN")
```

それでは、全体のパイプラインを定義しましょう。
これはモデルのトレーニングでよく使われる一般的な流れです。

1. まず、モデルとそれに対応するデータ、オプティマイザを `make` し、
2. 次にモデルを `train` して、
3. 最後に `test` し、トレーニングの結果を確認します。

これらの関数は以下で実装します。

```python theme={null}
def model_pipeline(hyperparameters):

    # wandb を開始する
    with wandb.init(project="pytorch-demo", config=hyperparameters) as run:
        # run.config を通じてすべてのハイパーパラメーターにアクセスし、ログと実行を一致させる
        config = run.config

        # モデル、データ、最適化問題を作成する
        model, train_loader, test_loader, criterion, optimizer = make(config)
        print(model)

        # それらを使ってモデルをトレーニングする
        train(model, train_loader, criterion, optimizer, config)

        # 最終的なパフォーマンスをテストする
        test(model, test_loader)

    return model
```

ここで標準的なパイプラインと異なる唯一の点は、
すべてが `wandb.init()` のコンテキスト内で行われることです。
この関数を呼び出すと、
コードと W\&B のサーバーの間の通信が確立されます。

`config` 辞書を `wandb.init()` に渡すと、
その情報はすぐにすべてログされるため、
実験で使用するよう設定した
ハイパーパラメーターの値をいつでも把握できます。

選択してログした値が常に実際にモデルで使われる値になるよう、
オブジェクトの `run.config` コピーを使用することをおすすめします。
いくつか例を示すので、以下の `make` の定義を確認してください。

> *補足*: W\&B ではコードを別プロセスで実行するようにしているため、
> こちら側で問題が発生しても
> (たとえば巨大な海の怪物がデータセンターを襲ったとしても)
> あなたのコードがクラッシュすることはありません。
> 問題が解決したら、たとえばクラーケンが深海に戻ったあとで、
> `wandb sync` を使ってデータをログできます。

```python theme={null}
def make(config):
    # データを作成する
    train, test = get_data(train=True), get_data(train=False)
    train_loader = make_loader(train, batch_size=config.batch_size)
    test_loader = make_loader(test, batch_size=config.batch_size)

    # モデルを作成する
    model = ConvNet(config.kernels, config.classes).to(device)

    # 損失関数とオプティマイザを作成する
    criterion = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(
        model.parameters(), lr=config.learning_rate)

    return model, train_loader, test_loader, criterion, optimizer
```

<div id="define-the-data-loading-and-model">
  ### データの読み込みとモデルを定義する
</div>

次に、データの読み込み方法と、モデルをどのように構成するかを指定します。

この部分は非常に重要ですが、`wandb` を
使わない場合と変わらないため、
ここでは詳しくは扱いません。

```python theme={null}
def get_data(slice=5, train=True):
    full_dataset = torchvision.datasets.MNIST(root=".",
                                              train=train,
                                              transform=transforms.ToTensor(),
                                              download=True)
    #  [::slice] でのスライスと同等
    sub_dataset = torch.utils.data.Subset(
      full_dataset, indices=range(0, len(full_dataset), slice))

    return sub_dataset


def make_loader(dataset, batch_size):
    loader = torch.utils.data.DataLoader(dataset=dataset,
                                         batch_size=batch_size,
                                         shuffle=True,
                                         pin_memory=True, num_workers=2)
    return loader
```

モデルを定義するのは、たいてい楽しい部分です。

ただし、`wandb` を使ってもここは特に変わらないので、
標準的な ConvNet アーキテクチャをそのまま使います。

いろいろ試したり、実験してみたりすることをためらわないでください --
結果はすべて [wandb.ai](https://wandb.ai) にログされます。

```python theme={null}
# 標準的な畳み込みニューラルネットワーク

class ConvNet(nn.Module):
    def __init__(self, kernels, classes=10):
        super(ConvNet, self).__init__()

        self.layer1 = nn.Sequential(
            nn.Conv2d(1, kernels[0], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.layer2 = nn.Sequential(
            nn.Conv2d(16, kernels[1], kernel_size=5, stride=1, padding=2),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2))
        self.fc = nn.Linear(7 * 7 * kernels[-1], classes)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.fc(out)
        return out
```

<div id="define-training-logic">
  ### トレーニングロジックを定義する
</div>

`model_pipeline` を進めていき、次は `train` をどのように行うかを指定します。

ここでは、`wandb` の 2 つの関数 `watch` と `log` を使います。

<div id="track-gradients-with-runwatch-and-everything-else-with-runlog">
  ## 勾配は `run.watch()` でトラッキングし、それ以外はすべて `run.log()` でログする
</div>

`run.watch()` は、トレーニング中 `log_freq` step ごとに、
モデルの勾配とパラメーターをログします。

トレーニングを始める前に `run.watch()` を呼び出してください。ログモード、複数のモデル、パフォーマンスのヒントについては、[wandb.watch で勾配とモデルの重みをログするにはどうすればよいですか？](/ja/support/models/articles/how-do-i-log-gradients-and-model-weights-with-wandb-watch) を参照してください。

それ以外のトレーニングコードはそのままです。
エポックとバッチを繰り返し処理し、
フォワードパスとバックワードパスを実行して
`optimizer` を適用します。

```python theme={null}
def train(model, loader, criterion, optimizer, config):
    # wandb にモデルの動作（勾配、重みなど）を監視させる。
    run = wandb.init(project="pytorch-demo", config=config)
    run.watch(model, criterion, log="all", log_freq=10)

    # トレーニングを実行し、wandb でトラッキングする
    total_batches = len(loader) * config.epochs
    example_ct = 0  # これまでに見たサンプル数
    batch_ct = 0
    for epoch in tqdm(range(config.epochs)):
        for _, (images, labels) in enumerate(loader):

            loss = train_batch(images, labels, model, optimizer, criterion)
            example_ct +=  len(images)
            batch_ct += 1

            # 25 バッチごとにメトリクスを報告する
            if ((batch_ct + 1) % 25) == 0:
                train_log(loss, example_ct, epoch)


def train_batch(images, labels, model, optimizer, criterion):
    images, labels = images.to(device), labels.to(device)
    
    # フォワードパス ➡
    outputs = model(images)
    loss = criterion(outputs, labels)
    
    # バックワードパス ⬅
    optimizer.zero_grad()
    loss.backward()

    # オプティマイザーで step を実行する
    optimizer.step()

    return loss
```

唯一の違いは、ログ用のコードです。
以前はメトリクスをターミナルに出力して報告していたかもしれませんが、
今は同じ情報を `run.log()` に渡します。

`run.log()` には、キーが文字列の辞書を渡します。
これらの文字列は、ログするオブジェクトを識別する名前で、対応する値がその内容になります。
さらに、トレーニングのどの `step` にいるかを任意でログすることもできます。

> *補足*: 私は、モデルがこれまでに見たサンプル数を使うのが好きです。
> そのほうが、バッチサイズが違っても比較しやすいからです。
> もちろん、単純な step 数やバッチ数を使用してもかまいません。トレーニング run が長い場合は、`epoch` ごとにログするのも合理的です。

```python theme={null}
def train_log(loss, example_ct, epoch):
    with wandb.init(project="pytorch-demo") as run:
        # 損失とエポック番号をログします
        # ここでメトリクスを W&B にログします
        run.log({"epoch": epoch, "loss": loss}, step=example_ct)
        print(f"Loss after {str(example_ct).zfill(5)} examples: {loss:.3f}")
```

<div id="define-testing-logic">
  ### テスト方法を定義する
</div>

モデルのトレーニングが完了したら、テストを行います。
たとえば、本番環境の新しいデータで実行したり、
あるいは手作業で厳選したサンプルに適用したりします。

<div id="optional-call-runsave">
  ## &#x20;(任意) `run.save()` を呼び出す
</div>

ここで、モデルのアーキテクチャと
最終的なパラメーターをディスクに保存しておくのもよいでしょう。
互換性を最大限に確保するため、モデルは
[Open Neural Network eXchange (ONNX) 形式](https://onnx.ai/)で `export` します。

そのファイル名を `run.save()` に渡すことで、モデルのパラメーターが
W\&B のサーバーにも保存されます。これで、どの `.h5` や `.pb` が
どのトレーニング run に対応しているのか分からなくなることはありません。

モデルの保存、バージョン管理、配布に関する、より高度な `wandb` の機能については、
[Artifacts tools](https://www.wandb.com/artifacts) を参照してください。

```python theme={null}
def test(model, test_loader):
    model.eval()

    with wandb.init(project="pytorch-demo") as run:
        # テスト用のサンプルでモデルを実行する
        with torch.no_grad():
            correct, total = 0, 0
            for images, labels in test_loader:
                images, labels = images.to(device), labels.to(device)
                outputs = model(images)
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum().item()

            print(f"Accuracy of the model on the {total} " +
                f"test images: {correct / total:%}")

            run.log({"test_accuracy": correct / total})

        # 交換可能な ONNX 形式でモデルを保存する
        torch.onnx.export(model, images, "model.onnx")
        run.save("model.onnx")
```

<div id="run-training-and-watch-your-metrics-live-on-wandbai">
  ### トレーニングを実行し、wandb.ai でメトリクスをライブで確認する
</div>

これでパイプライン全体を定義し、
数行の W\&B コードを差し込んだので、
完全にトラッキングされた実験を実行する準備が整いました。

いくつかのリンクが表示されます:
ドキュメント、
プロジェクト内のすべての run を整理するプロジェクトページ、そして
この run の結果が保存される Run ページです。

Run ページにアクセスして、次のタブを確認してください:

1. **Charts**。ここでは、トレーニング全体を通してモデルの勾配、パラメーターの値、損失がログされます
2. **System**。ここには、ディスク I/O 使用率、CPU と GPU のメトリクス (温度が急上昇する様子にも注目です) など、さまざまなシステムメトリクスが含まれます
3. **Logs**。ここには、トレーニング中に標準出力に出力された内容のコピーがあります
4. **Files**。ここでは、トレーニング完了後に `model.onnx` をクリックすると、[Netron model viewer](https://github.com/lutzroeder/netron) でネットワークを表示できます。

run が完了し、`with wandb.init()` ブロックを抜けると、
セルの出力にも結果の概要が表示されます。

```python theme={null}
# パイプラインでモデルをビルド、トレーニング、分析する
model = model_pipeline(config)
```

<div id="test-hyperparameters-with-sweeps">
  ### Sweeps でハイパーパラメーターを試す
</div>

この例では、1組のハイパーパラメーターだけを扱ってきました。
しかし、ほとんどの ML ワークフローでは、
複数のハイパーパラメーターを繰り返し試すことが重要です。

W\&B Sweeps を使用すると、ハイパーパラメーターのテストを自動化し、考えられるモデルや最適化戦略の探索ができます。

[W\&B Sweeps を使用したハイパーパラメーター最適化を実演する Colab ノートブック](https://wandb.me/sweeps-colab)をご覧ください。

W\&B でハイパーパラメーター sweep を実行するのは非常に簡単です。必要なのは、次の 3 つの簡単な step だけです。

1. **sweep を定義する:** 検索対象のパラメーター、検索戦略、最適化メトリクスなどを指定する辞書または [YAML ファイル](/ja/models/sweeps/define-sweep-configuration/) を作成します。

2. **sweep を初期化する:**
   `sweep_id = wandb.sweep(sweep_config)`

3. **sweep agent を実行する:**
   `wandb.agent(sweep_id, function=train)`

ハイパーパラメーター sweep の実行に必要なのはこれだけです。

<Frame>
  <img src="https://mintcdn.com/wb-21fd5541/wYBIlf7cqDpGjWr9/images/tutorials/pytorch-2.png?fit=max&auto=format&n=wYBIlf7cqDpGjWr9&q=85&s=43f22fd680e4d32eeee7fa3e6300f33e" alt="PyTorch トレーニングダッシュボード" width="1920" height="1080" data-path="images/tutorials/pytorch-2.png" />
</Frame>

<div id="example-gallery">
  ## サンプルギャラリー
</div>

W\&B でトラッキングされ、可視化されたプロジェクトの実例は、[Gallery →](https://app.wandb.ai/gallery)でご覧いただけます。

<div id="advanced-setup">
  ## 高度な設定
</div>

1. [環境変数](/ja/platform/hosting/env-vars/): 環境変数にAPIキーを設定して、マネージドクラスターでトレーニングを実行できます。
2. [オフラインモード](/ja/support/models/articles/how-do-i-run-wandb-offline): `dryrun` モードを使用してオフラインでトレーニングし、後で結果をSyncします。
3. [オンプレミス](/ja/platform/hosting/hosting-options/self-managed): 自社のインフラストラクチャー内のプライベートクラウドやエアギャップ環境のサーバーにW\&Bをインストールします。研究用途からエンタープライズチームまで、幅広いユーザー向けにローカル導入オプションを提供しています。
4. [Sweeps](/ja/models/sweeps/): 軽量なチューニングツールを使って、ハイパーパラメーター探索をすばやく設定できます。
