PyLearn

　PyTorch 学習ノート †

　「機械学習]と「PyTorch」の学習過程で見つけた
　新山祐介氏のサイト『真面目なプログラマのためのディープラーニング入門』の学習メモ。

▲　目　次

　PyTorch 学習ノート
　GPU の仕組みと PyTorch 入門
参考資料

※ 最終更新:2025/03/06　

↑

　GPU の仕組みと PyTorch 入門 †

　『真面目なプログラマのためのディープラーニング入門』第6回 GPU の仕組みと PyTorch 入門より

↑

1. GPU (Graphical Processing Unit) †

ニューラルネットワーク (特に、畳み込みニューラルネットワーク) は多くの計算を必要とする。そのため、ある程度の大きさの画像を対象とした実用的なモデルを学習しようとすると、既存のパソコンの性能では不十分な場合が出てくる。そこで現在のディープラーニングでは、 GPU を利用することが多い。
GPU はもともと 3Dグラフィックスのための計算をおこなう装置だったが、その基本は並列処理であり、現在ではグラフィックス以外の用途にも利用されている。現在のところ、GPU を一般的な用途に利用する枠組みとしては NVIDIA の CUDA がほぼデファクト・スタンダードである。
GPU は CPU に比べて単純な処理しかできないが、CPU に比べてはるかに多くの処理を並列実行できるため、ある種のアルゴリズムに対しては CPU に比べて数倍〜数十倍の速度が出せる。ニューラルネットワークで行われる演算はほとんどが足し算と掛け算なので、とくに GPU で処理するのに向いているといえる。
GPU が動作する手順

　1. プログラムが CPU の主記憶 → GPU のメモリに転送される。
　2. プログラム中で使用するデータが CPU → GPU に転送される。
　3. GPU 上で実行が行われる。
　4. 実行結果が GPU → CPU に転送される。
GPU は通常の CPU が使う主記憶とは独立したメモリを持っている。
GPU を使ううえで注意すべきことは、たとえ計算処理が高速であっても データ転送にはそれなりに時間がかかるということである。
CPU と GPU の関係は、一般道路と高速道路に似ている。高速道路上では速く移動できるが、移動以外にできることは限られている。乗り降りには時間がかかるため、一度高速道路に乗ったら、なるべくそこから降りずに目的地の近くまで到達したい。
GPU におけるプログラミングも同様で「いかにCPU-GPU間の転送を少なくするか」が効率のよいアルゴリズム設計の肝である。

↑

2. PyTorch 入門 †

　PyTorch は「機械学習フレームワーク」と呼ばれるソフトウェアの一種であり、効率のよいニューラルネットワークを簡単に実装するために開発された。
　PyTorch を使う利点は:

GPU を使って高速に計算できる
勾配を自動的に計算する機能 (autograd) がある。そのため、各レイヤーで backward() メソッドを書く必要がない
よく使われるレイヤー、活性化関数などがあらかじめ定義されている

プログラマにとって特に大きなメリットは 2. である
PyTorch によるプログラムの基本は 各レイヤーがどのように入力を処理するか (forward() メソッド) を実装していくが、勾配が自動的に計算されるので、プログラマはそれ以外の部分を考える必要がない
そして 3. の利点により、実際には多くの場合既製のレイヤーを使うことで、forward() すら書く必要がない。
したがって、PyTorch を使ったプログラムは計算手順というよりもむしろ「各レイヤーをどのように結合するか」という記述に近い

↑

2-2 Tensor (テンソル) とは何か? †

数学では「テンソル」は抽象的な意味をもつが、 機械学習における「テンソル」は「多次元配列」とほぼ同義である
したがって Tensor型の基本機能も NumPy における ndarra y型とほとんど同じであり、使い方もわざと ndarray 型に似せてある
以下のような機能が追加されている:

Tensor上のデータは、CPU上の主記憶か、あるいは GPU上のメモリのどちらに格納するか選ぶことができる
Tensor上の各数値は、それが計算されたときの勾配 (grad) を保持することができる

Tensorを作成する方法

>>> torch.tensor([1,2,3,4])           # 4要素のPythonリストからTensorを作成
>>> torch.tensor([[1,2,3], [4,5,6]])  # 2×3要素のPythonリストからTensorを作成
>>> torch.zeros(4)                    # 4要素すべてゼロ
>>> torch.zeros((2, 3))               # 2列3行すべてゼロ
>>> torch.rand(4)                     # 4要素の乱数 (0〜1の範囲)
>>> torch.rand((2, 3))                # 2列3行の乱数 (0〜1の範囲)

高次元の配列 (テンソル) を想像するには
畳み込みネットワークでは、各レイヤーへの画像の入力は 3次元の配列 (チャンネル数C × 高さH × 幅W) である

　PyTorch では、ひとつのミニバッチの入力をまるごとひとつの Tensor で表すことが多い
　このような場合、テンソルは 4次元の配列 (データ数N × チャンネル数C × 高さH × 幅W) を表す
　
　高次元の配列を頭の中で想像する方法として、計算機科学でよく出てくる「木構造」として考えるやりかたがある
　N×C×H×Wの 4次元テンソルは、以下のような木構造のいずれかとして解釈できる

Tensor型の演算・参照・変更
・Tensorの演算
ndarray型と同じく、 分配 (broadcast) と 要素ごとの演算 (element-wise) をサポート

>>> 5 + torch.tensor([1,2,3])  # 左→右に分配 (broadcast)
tensor([6, 7, 8])
>>> torch.tensor([1,2,3]) * 5  # 左←右に分配 (broadcast)
tensor([ 5, 10, 15])
>>> 5 + torch.tensor([[1,2,3], [4,5,6]])  # 行と列に分配
tensor([[ 6,  7,  8],
        [ 9, 10, 11]])
>>> torch.tensor([1,2,3]) + torch.tensor([4,5,6])  # 要素ごと (element-wise)
tensor([5, 7, 9])
>>> torch.tensor([[-1],[1]]) * torch.tensor([[1,2,3], [4,5,6]])
tensor([[-1, -2, -3],
        [ 4,  5,  6]])

・Tensorの参照・変更
ndarray とまったく同じ x[i][j] とともに x[i,j] という表記も許されている

>>> x = torch.tensor([[1,2,3], [4,5,6]])
>>> x[0]        # 0行目を取得
tensor([1, 2, 3])
>>> x[1][2]     # 1行2列目の値を取得
6
>>> x[1][1:3]   # 1行1〜2列目の値を取得
tensor([5, 6])
>>> x[1,2]      # 上と同じ
6
>>> x[0,1] = 0  # 0行1列目の値を変更
>>> x
tensor([[1, 0, 3],
        [4, 5, 6]])

・配列の大きさ確認や形状変換なども同じ

>>> x = torch.tensor([[1,2,3], [4,5,6]])
>>> len(x)   # リストとして見たときの要素数 (行数)
2
>>> x.shape  # 配列の「形状」
(2, 3)
>>> x.reshape(3,2)  # 3行×2列の配列に変換
tensor([[1, 2],
        [3, 4],
        [5, 6]])
>>> x.reshape(6)    # フラットな1次元配列に変換
tensor([1, 2, 3, 4, 5, 6])

・Tensorと ndarray配列は相互に変換することが可能

>>> np.array(torch.tensor([1,2,3]))  # Tensorをndarrayに変換
array([1, 2, 3])
>>> torch.tensor(np.array([1,2,3]))  # ndarrayをTensorに変換
tensor([1, 2, 3])

Tensor の次元の並び換え (permute)
・高次元のテンソルを扱うと、しばしば「次元」の順序が重要となってくる。PyTorch では画像をテンソルとして扱う場合 (チャンネル数C × 高さH × 幅W) と表現するのが普通だが、通常の RGB画像フォーマットではこれは (高さH × 幅W × チャンネル数C) と表現されることが多い

・PyTorch で Pillow などのライブラリを使って画像ファイルを処理するとき要素の並び方がネットワークの想定と違う場合がある
・PyTorch の Tensor では、次元の「並び換え (permute)」という操作が可能
・permute()メソッドの使い方は、もとの次元の番号 (0, 1, 2, ...) を並び換えたい順序で指定すると
　テンソルの各要素を指定された順序で並び換えた新しい Tensor が返される
```
# (2×2×3) のテンソルを作成。
>>> x = torch.tensor([ [[1,2,3], [1,2,3]], [[4,5,6],[4,5,6]] ])
# (0,1,2)番目の次元を、それぞれ(1,0,2)番目に並び換える
>>> x.permute(1,0,2)
tensor([[[1, 2, 3],
         [4, 5, 6]],

        [[1, 2, 3],
         [4, 5, 6]]])
```

↑

2-3 Tensor を使って勾配を自動的に計算する †

Tensorには、勾配を自動的に計算する機能がある
・勾配を計算したい Tensor を作成するときに requires_grad=True オプションを渡しておく
・このテンソルを使って計算をおこなった後、結果のテンソルに対して backward() メソッドを呼ぶと、計算に使ったテンソルすべての勾配が計算される
各テンソルが使われた計算過程 (計算グラフ) をすべて記録している
　例: 関数 y = x3 + 2x + 1 の x = 1 における微分 dy/dx (x.grad) を求める:
```
>>> x = torch.tensor(1.0, requires_grad=True)
>>> y = x**3 + 2*x + 1  # y = x3 + 2x + 1 を計算
>>> y
tensor(4., grad_fn=<AddBackward0>)
>>> y.backward()        # dy/dx を計算
>>> x.grad              # dy/dx を表示
tensor(5.)
>>> y = x**3 + 2*x + 1  # もう一度計算
>>> y.backward()
>>> x.grad
tensor(10.)             # 値が増えている
>>> x.grad = None       # 勾配をクリアする
```
・各 Tensor に付随する勾配 (.gradの値) は backward() を実行するたびに毎回上書きされるのではなく、以前の値に足されるようになっている
これはニューラルネットワークの誤差逆伝播法においては、複数のノードからくる勾配を足し合わせるためである

・勾配をゼロにクリアするときは x.grad = None のようにする
(注意: .grad はつねに Tensor型でなければならないため、 x.grad = 0 とはできない

・PyTorch を通常使っている限りでは、勾配を直接利用することはほとんどないが、 つねに勾配が失われないように注意する必要がある
・以下の例で、平方根を計算するのに Python 組み込みの math.sqrt() 関数を使うと、Tensorが通常の float型に変換されてしまい、その計算過程は失われ勾配が計算できなくなる
・勾配を保持するには、つねに PyTorch の組み込み関数 (torch.sqrt() など) を使って演算する必要がある
　このため PyTorch はほぼすべての演算に対して自前のバージョンを用意している
```
>>> x = torch.tensor(2.0, requires_grad=True)
>>> y = math.sqrt(x)   # math.sqrt() は Tensor を通常の値に変換してしまう
>>> y
1.4142135623730951
>>> y = torch.sqrt(x)  # torch.sqrt() は Tensor のままで計算する
>>> y
tensor(1.4142, grad_fn=<SqrtBackward>)
```

NumPy と Tensor との相違点
・NumPy では、ndarray では配列の各要素は「通常の (int型などの) 数値」でるが、PyTorch では Tensor の各要素も Tensorである
すべての値が勾配を保持できるようにするため
・ひとつの数値をあらわすテンソルは「0次元のTensor」として表されるが、これを意図的に「ただの数値」に変換するには、 .item() メソッドを使う
　こうすると勾配は失われてしまうので注意
```
>>> a = np.array([1,2,3])
>>> a[1]         # ndarrayの要素を取得
2
>>> x = torch.tensor([1,2,3])
>>> x[1]         # Tensorの要素を取得
tensor(2)
>>> x[1].item()  # Tensorの要素を通常の数値に変換 (勾配は失われる)
2
```

↑

2-4 GPU を使って計算する †

PyTorch で CUDA が使用可能な場合、Tensor を GPU 上に転送し、そこで計算させることができる
・Tensorに対して .to('cuda')メソッドを実行するとそのテンソルは GPU 上に転送され、.to('cpu')メソッドを実行すると GPU上のテンソルが CPU に転送される:
```
>>> torch.cuda.is_available()
True                            # CUDAが利用可能
>>> x1 = torch.tensor([1,2,3])  # x1はCPU上に作成される
>>> x1
tensor([1, 2, 3])
>>> x2 = x1.to('cuda')          # x1をGPUに転送し、x2とする
>>> x2
tensor([1, 2, 3], device='cuda:0')
>>> x3 = x2.to('cpu')           # x2をCPUに転送し、x3とする
>>> x3
tensor([1, 4, 9])
```
・GPU 上にある Tensorどうしを計算しようとすると、自動的に GPU 内で計算が行われ、結果も GPU 上のテンソルとして返される
・CPU と GPU 内にある Tensorは互いに計算できない:
```
>>> x2*x2      # GPU上で計算をおこなう
tensor([1, 4, 9], device='cuda:0')
>>> x1*x2      # CPU上とGPU上にあるデータは互いに計算できない
RuntimeError: Expected all tensors to be on the same device,
 but found at least two devices, cuda:0 and cpu!
```
・基本的には、PyTorch で GPU を使う際にはほとんど何もする必要がない
・計算を行う直前に Tensor を .to('cuda') で GPUに転送しておき、計算が終わったらその結果を .to('cpu') で受け取ればよい
・GPU内での演算は内部で CUDA用のコードが自動的に生成・実行されるが、ユーザはそのことを気にする必要がない

↑

2-5 PyTorch における学習の流れ †

PyTorch では「レイヤー」 (PyTorchではModuleと呼ばれる) を細かく分ける
たとえば、完全接続されたノードの入力に重みをつけて足す部分と、(シグモイドやReLUなどの) 活性化関数、max pooling処理などはそれぞれ別々の「レイヤー」として定義されている
これは個々のレイヤーを組み合わせることで柔軟にニューラルネットワークを構築できるため
PyTorch では、ニューラルネットワークへの入力・出力は 1個1個の訓練データではなく、ミニバッチ全体である
これは先に述べた CPU-GPU 間の通信を最小限にするため
PyTorch では、ネットワークの重み・バイアスを更新するときに直接変更せず、最適化器 (optimizer) という特別なオブジェクトを経由しておこなう
これは、重み・バイアスの更新に単純な確率的勾配降下法 (SGD) 以外のより優れた方式を使えるようにするため (詳細は Adam最適化器を使うを参照)
```
# ニューラルネットワークを定義する
model = ...
# ニューラルネットワークを訓練モードにする
model.train()
# ミニバッチごとの訓練データを用意する
minibatches = [ ... ]
# 最適化器と学習率を定義する
optimizer = optim.SGD(model.parameters(), lr=0.01)
# 各ミニバッチを処理する
for (inputs, targets) in minibatches:
    # すべての勾配(.grad)をクリアしておく
    optimizer.zero_grad()
    # 与えられたミニバッチをニューラルネットワークに処理させる
    output = model(inputs)
    # 損失を計算する。
    loss = F.mse_loss(output, targets)
    # 勾配を計算する
    loss.backward()
    # 重み・バイアスを更新する
    optimizer.step()
```
・PyTorch のコードは大抵どれもこのパターンに従っている
・違うのは最適化器と学習率および損失関数
・上の例ではそれぞれ最適化器として optim.SGD (普通の確率的勾配降下法)、学習率 0.01、そして損失関数として F.mse_loss を使っている
　(PyTorchでは、ニューラルネットワーク用の関数はすべて F. という名前空間で定義される慣例になっている)

↑

3. PyTorch を使った MNIST の実装 †

MNIST(Mixed National Institute of Standards and Technology database)
・手書き数字画像60,000枚と、テスト画像10,000枚を集めた、画像データセット
・手書きの数字「0〜9」に正解ラベルが与えられるデータセット

ニューラルネットワークを定義する
　mnist_dl.py
```
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# MNISTを処理するニューラルネットワーク
class MNISTNet(nn.Module):

    # 各レイヤーの初期化。
    def __init__(self):
        nn.Module.__init__(self)
        # 畳み込み: 入力1チャンネル、出力10チャンネル、カーネル3×3
        self.conv1 = nn.Conv2d(1, 10, 3)
        # Max Pooling: 1/2に縮める。
        self.pool1 = nn.MaxPool2d(2)
        # 畳み込み: 入力10チャンネル、出力20チャンネル、カーネル3×3
        self.conv2 = nn.Conv2d(10, 20, 3)
        # Max Pooling: 1/2に縮める。
        self.pool2 = nn.MaxPool2d(2)
        # 全接続 (fully connected): 入力500ノード、出力10ノード
        self.fc1 = nn.Linear(20*5*5, 10)
        return

    # 与えらえたミニバッチ x を処理する
    def forward(self, x):
        # x: (N × 1 × 28 × 28)
        x = self.conv1(x)
        x = F.relu(x)
        # x: (N × 10 × 26 × 26)
        x = self.pool1(x)
        # x: (N × 10 × 13 × 13)
        x = self.conv2(x)
        x = F.relu(x)
        # x: (N × 20 × 11 × 11)
        x = self.pool2(x)
        # x: (N × 20 × 5 × 5)
        x = x.reshape(len(x), 20*5*5)
        # x: (N × 500)
        x = self.fc1(x)
        # x: (N × 10)
        return x

# 実際のインスタンスを作成。
model = MNISTNet()
```
・PyTorch におけるニューラルネットワークは、すべて nn.Module の派生クラスとして定義する
・この中で各レイヤーの初期化をおこなう __init__() メソッドと、入力から出力までの処理をおこなう forward() メソッドを実装する

・__init__() メソッドでは、nn.Conv2d, nn.MaxPool2d などのインスタンスを作成している
　PyTorch では、これらは最初からニューラルネットワークの構成レイヤーとして利用可能
```
nn.Linear(入力ノード数, 出力ノード数) … 全接続レイヤーを作成する
nn.Conv2d(入力チャンネル数, 出力チャンネル数, カーネル幅) … 畳み込みレイヤーを作成する
nn.MaxPool2d(カーネル幅) … Max poolingレイヤーを作成する。カーネル幅は縮小率を表す
```
・nn.Linear および nn.Conv2d インスタンスはどちらも内部に重み・バイアスを保持しており、これらはインスタンス作成時にランダムに初期化されている

・forward() メソッドは、前に NumPy などで実装した forward() メソッドとほぼ同じである
　入力値として Tensorの x が与えられ、それを各レイヤーに通して最終的な出力テンソルを返す
　PyTorch では、各レイヤーは「関数呼び出しのように」利用する流儀になっている:
```
x = self.conv1(x)          # 正しい
x = self.conv1.forward(x)  # 間違い
```
・ F.relu() は ReLU 関数である
　最後のレイヤー fc1 のあとでは活性化関数を適用していないが、 PyTorch では慣例により、最終レイヤーの活性化関数は forward() の外側で適用することになっている

・PyTorch では、nn.Module の派生クラス (nn.Linear や nn.Conv2d も含む) はすべて forward() メソッドを持っているが、これらを直接呼び出すことはなく、つねに関数呼び出しのように利用する (これは Python における __call__ メソッドを使っている)
　MNISTNet インスタンス自身も nn.Module の派生クラスなので、forward() メソッドを直接呼び出すことはなく、関数呼び出しのように利用する:
```
# ニューラルネットワークを定義する
model = MNISTNet()
# ニューラルネットワークを使用する(x: 入力テンソル)
x = model(x)
```
・PyTorch におけるニューラルネットワークは、入れ子になった nn.Moduleクラス (の派生クラス) と考えることができる

MNISTNet インスタンスを表示すると、内部の構造を実際に見ることができる:

>>> print(model)
MNISTNet(
  (conv1): Conv2d(1, 10, kernel_size=(3, 3), stride=(1, 1))
  (pool1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (conv2): Conv2d(10, 20, kernel_size=(3, 3), stride=(1, 1))
  (pool2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  (fc1): Linear(in_features=500, out_features=10, bias=True)
)

実際にこのモデルを使って学習をおこなってみる
　mnist_dl.py (続き)

# ミニバッチごとの訓練データを用意する。
train_images = splitarray3d(32, load_mnist('train-images-idx3-ubyte.gz'))
train_labels = splitarray1d(32, load_mnist('train-labels-idx1-ubyte.gz'))
# ニューラルネットワークを訓練モードにする。
model.train()
# 最適化器と学習率を定義する
optimizer = optim.SGD(model.parameters(), lr=0.01)
n = 0
# 各ミニバッチを処理する
for (images,labels) in zip(train_images, train_labels):
    images = images.reshape(len(images), 1, 28, 28)
    # 入力をfloat型のテンソルに変換
    inputs = torch.tensor(images).float()
    # 正解をlong型のテンソルに変換
    targets = torch.tensor(labels).long()
    # すべての勾配(.grad)をクリアしておく
    optimizer.zero_grad()
    # 与えられたミニバッチをニューラルネットワークに処理させる
    output = model(inputs)
    # 損失を計算する
    loss = F.cross_entropy(output, labels)
    # 勾配を計算する
    loss.backward()
    # 重み・バイアスを更新する
    optimizer.step()
    n += len(images)
    print(n, loss.item())

・F.cross_entropy() という関数は交差エントロピー誤差を計算するもので、実際には

loss = F.nll_loss(F.log_softmax(output, dim=1), labels)

　と等価である (F.log_softmax() の最後に dim=1 という部分があるが、これは入力が (N×10) の2次元配列なので、2番目の次元に対して LogSoftmax 関数を適用せよという意味)

・訓練データをミニバッチごとに区切るため splitarray3d() と splitarray1d() という関数を使っている:
　mnist_dl.py (続き)

# splitarray1d: 与えられて1次元配列をn要素ごとに区切る
def splitarray1d(n, a):
    for i in range(0, len(a), n):
        yield np.array(a[i:i+n])
    return

# splitarray3d: 与えられて3次元配列をn要素ごとに区切る
def splitarray3d(n, a):
    for i in range(0, len(a), n):
        yield np.array(a[i:i+n,:,:])
    return

・訓練したニューラルネットワークを評価するには、以下のようにする。ここでもミニバッチごとに評価している以外は、以前のコードとほどんど変わっていない
　mnist_dl.py (続き)

# ミニバッチごとのテストデータを用意する。
test_images = splitarray3d(32, load_mnist('t10k-images-idx3-ubyte.gz'))
test_labels = splitarray1d(32, load_mnist('t10k-labels-idx1-ubyte.gz'))
# ニューラルネットワークを評価モードにする。
model.eval()
correct = 0
for (images,labels) in zip(test_images, test_labels):
    images = images.reshape(len(images), 1, 28, 28)
    # 入力をfloat型のテンソルに変換。
    inputs = torch.tensor(images).float()
    # 与えられたミニバッチをニューラルネットワークに処理させる。
    outputs = model(inputs)
    # 正解かどうかを判定する。
    for (y,label) in zip(outputs, labels):
        i = torch.argmax(y)
        if i == label:
            correct += 1
print(correct)

・「ニューラルネットワークを訓練モードに」model.train()「評価モードに」model.eval() という部分があるが、これは PyTorch における一部のレイヤー (後で説明する BatchNorm など) の挙動が訓練時と推論時で変わるためである
　とりあえず、これは PyTorch を使ううえでの慣例

mnist_dl.py を実際に動かし実行時間を計測 (演習6-6)
・PyTorch を使うと、(たとえ GPU を使わずとも) NumPy よりもずっと高速に処理できることがわかる
　これはフレームワーク全体がニューラルネットワークの処理のみに特化されているためである

↑

3-1 学習したネットワークを保存・読み込む †

モデルを保存する:

model = MNISTNet()
# ニューラルネットワークを訓練する。
model.train()
...
# 訓練した重み・バイアスをファイルに保存する。
torch.save(model.state_dict(), 'model.pt')

保存したモデルを読み込む:
```
model = MNISTNet()
# 保存しておいた重み・バイアスを読み込む。
model.load_state_dict(torch.load('model.pt'))
# ニューラルネットワークを使用する。
model.eval()
...
```
・model.state_dict() メソッドは、MNISTNet クラス内部で定義されている各レイヤー (nn.Conv2d、nn.Linear) の重み・バイアスを再帰的に列挙し、ひとつの巨大な Python 辞書として返すものである
・nn.Moduleクラス (ここでは MNISTNet クラス) および model.load_state_dict() メソッドはその逆で、Python 辞書として与えられた重み・バイアスを Moduleクラス中の各レイヤーに設定する
・これらのメソッドは Pythonのリフレクション機能を利用しているため、トップレベルの Moduleクラスのみに適用すれば再帰的に内部の Moduleクラスも処理されるようになっている

・2-5 節で使われていた model.parameters() も類似の仕組みで作られており、これは Moduleクラス内で使われている重み・バイアスを列挙し、一括して optimizerインスタンスに渡せるようになっている

↑

3-2 GPUを使って計算させる †

　PyTorch では、計算に使うテンソルが GPU 上にあれば GPU 上で計算が行われる

ニューラルネットワークの重み・バイアスを GPU に転送する
```
# model = MNISTNet()
model = MNISTNet().to('cuda')
```
入力する各ミニバッチ (inputs) を GPU に転送する
```
inputs = inputs.to('cuda')
```
GPU 内で演算を実行する
```
outputs = model(inputs)
```

GPU 内で演算を実行する

出力結果 (outputs) を CPU に転送する

MNIST を GPU上で動かす (演習6-7)
　mnist_dl.py が GPU 上で動くように変更する

↑

Datasetクラスと DataLoaderクラスを使う †

PyTorch でよく使われる Dataset クラスと DataLoader クラスについて
・ミニバッチを使った学習では、訓練データがミニバッチ中になるべくランダムな順序で現れるようにする必要があるが、これら 2つのクラスを使うと、訓練データを簡単にミニバッチに区切ったり、シャッフルしたりすることができる

・Datasetクラスを継承して MNISTDataset を定義する
　ここでは __len__() と __getitem__() という 2つのメソッドのみを定義しておく
　Python ではこれらのメソッドを上書きすることで、そのインスタンスを配列のように扱うことができる:

from torch.utils.data import Dataset, DataLoader

##  MNISTDataset
##  指定されたファイルから入力と正解を読み込む
##
class MNISTDataset(Dataset):

    def __init__(self, images_path, labels_path):
        # データセットを初期化する
        Dataset.__init__(self)
        self.images = load_mnist(images_path)
        self.labels = load_mnist(labels_path)
        return

    def __len__(self):
        # データの個数を返す
        return len(self.images)

    def __getitem__(self, i):
        # i番目の (入力, 正解) タプルを返す
        return (self.images[i], self.labels[i])

# 実際のインスタンスを作成
dataset = MNISTDataset('t10k-images-idx3-ubyte.gz', 't10k-labels-idx1-ubyte.gz')
print(len(dataset))  # データの個数を返す
print(dataset[0])    # 0番目の (入力, 正解) タプルを返す

上のようなクラスを定義しておくと、これに対して DataLoaderクラスを使うことができる
DataLoader クラスは Dataset が提供する各データをシャッフルし、ミニバッチごとに返す。あとはこれを使って訓練すればよい
```
# バッチサイズ32 でデータを利用する
loader = DataLoader(dataset, batch_size=32)
for (images, labels) in loader:
    # images: 32個の入力画像
    # labels: 32個の正解ラベル
    ...
```

↑

3-4 Adam最適化器を使う †

PyTorch でもうひとつの便利な機能として、Adam最適化器が利用可能なことがあげられる
・Adam は従来の単純な勾配降下法 (SGD) を改良した方法で、SGD に比べてより早く収束する (重み・バイアスが学習できる) ことが知られている
・Adam の簡単な原理は次のとおりである。従来の SGD では、勾配の各成分に決まった学習率 (alpha) を掛けて重み・バイアスを調整していた
```
# 単純なSGD
w1 -= alpha * dw1
w2 -= alpha * dw2
w3 -= alpha * dw3
...
```

Adam では、これに以下のような改良が加えられている
・すべての勾配で同一の学習率を使うのではなく、各成分によって学習率を変える (RMSProp)
・学習率に「勢い」を持たせ、現在の状態に応じて最適な速度を調整する (Momentum)

PyTorch で SGD の代わりに Adam を使うには、次の1行を書き換えるだけでよい

# 最適化器と学習率を定義する
# optimizer = optim.SGD(model.parameters(), lr=0.01)
optimizer = optim.Adam(model.parameters(), lr=0.01)

↑

3-5 全部ををまとめる †

PyTorch によるニューラルネットワークの構築、モデルの保存・読み込み、GPU の利用などをすべてまとめる
　MNIST を PyTorch で実験を行う際の典型的な形式にしたものが mnist_torch.py である
　これは、今後いろいろなモデルを使って機械学習の実験をおこなうための雛形として利用することができる

mnist_torch.py の構成

 必要なモジュールのインポート
import torch
...
# Datasetの定義
class MNISTDataset(Dataset):
    ...
# モデルの定義
class MNISTNet(nn.Module):
    ...
# train: 1エポック分の訓練をおこなう関数
def train(model, device, loader, optimizer, ...):
    ...
# test: テストをおこなう関数
def test(model, device, loader):
    ...
# main: 最初に実行される関数
def main():
    ...
if __name__ == '__main__': main()

main() 関数は、argparseモジュールを使ってコマンドライン引数を解析する
　コマンドラインの書き方は多くの PyTorch用のプログラムで共通しており、以下のような書式になっている (この説明は -h オプションを与えると表示される)
```
usage: mnist_torch.py
    [-h] [--verbose] [--batch-size N] [--test-batch-size N]
    [--no-shuffle] [--epochs N] [--lr LR] [--seed S]
    [--no-cuda] [--dry-run] [--log-interval N]
    [--save-model path]
    datadir
```

最後の引数 datadir は必須で、ここには MNIST のデータ (train-images-idx3-ubyte.gz および train-labels-idx1-ubyte.gz) が入っているディレクトリのパスを指定する

コマンドオプション

オプション	説明	初期値
--verbose	詳細なログを表示する	-
--batch-size n	訓練時のバッチサイズを指定する	32個
--test-batch-size n	テスト時のバッチサイズを指定する	1000個
--no-shuffle	訓練データをシャッフルしない	-
--epochs N	訓練時のエポック数を指定する	10回
--lr rate	学習率を指定する	0.01
--seed seed	乱数のシードを指定する	1
--no-cuda	GPUがある場合でもCUDAを使用しない	-
--dry-run	デバッグ用に1バッチのみ実行する	-
--log-interval n	進捗状況を表示する間隔	10バッチごと
--save-model path	モデルを保存・読み込むパス名	なし

・--verbose や --no-cuda、 --dry-run などのオプションは、プログラムのデバッグ時に用いる
・その他のオプションは条件をあれこれ変えて実験したいときに利用する

※例：
訓練データ・テストデータが ./MNIST ディレクトリに入っているとして、学習率 0.005 で 100エポックの訓練をおこない、完了時のモデルを mnist_net.pt というファイルに保存したい場合

python mnist_torch.py --lr=0.005 --epochs=100 --save-model=mnist_net.pt ./MNIST

▼「mnist_torch.py」ソースコード

#!/usr/bin/env python
import os.path
import logging
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader

from mnist import load_mnist


##  MNISTDataset
##  指定されたファイルから入力と正解を読み込む。
##  __len__() と __getitem__() メソッドを実装する。
##
class MNISTDataset(Dataset):

    def __init__(self, images_path, labels_path):
        super().__init__()
        self.images = load_mnist(images_path)
        self.labels = load_mnist(labels_path)
        return

    def __len__(self):
        return len(self.images)

    def __getitem__(self, index):
        return (self.images[index], self.labels[index])


##  MNISTを処理するニューラルネットワーク。
##
class MNISTNet(nn.Module):

    # 各レイヤーの初期化。
    def __init__(self):
        super().__init__()
        # 畳み込み: 入力1チャンネル、出力10チャンネル、カーネル3×3。
        self.conv1 = nn.Conv2d(1, 10, 3)
        # Max Pooling: 1/2に縮める。
        self.pool1 = nn.MaxPool2d(2)
        # 畳み込み: 入力10チャンネル、出力20チャンネル、カーネル3×3。
        self.conv2 = nn.Conv2d(10, 20, 3)
        # Max Pooling: 1/2に縮める。
        self.pool2 = nn.MaxPool2d(2)
        # 全接続 (fully connected): 入力500ノード、出力10ノード。
        self.fc1 = nn.Linear(20*5*5, 10)
        return

    # 与えらえたミニバッチ x を処理する。
    def forward(self, x):
        # x: (N × 1 × 28 × 28)
        x = self.conv1(x)
        x = F.relu(x)
        # x: (N × 10 × 26 × 26)
        x = self.pool1(x)
        # x: (N × 10 × 13 × 13)
        x = self.conv2(x)
        x = F.relu(x)
        # x: (N × 20 × 11 × 11)
        x = self.pool2(x)
        # x: (N × 20 × 5 × 5)
        x = x.reshape(len(x), 20*5*5)
        # x: (N × 500)
        x = self.fc1(x)
        # x: (N × 10)
        return x

# train: 1エポック分の訓練をおこなう。
def train(model, device, loader, optimizer, log_interval=1, dry_run=False):
    # ニューラルネットワークを訓練モードにする。
    model.train()
    # 各ミニバッチを処理する。
    for (idx, (images, labels)) in enumerate(loader):
        images = images.reshape(len(images), 1, 28, 28)
        # 入力をfloat型のテンソルに変換。
        inputs = images.float().to(device)
        # 正解をlong型のテンソルに変換。
        targets = labels.long().to(device)
        # すべての勾配(.grad)をクリアしておく。
        optimizer.zero_grad()
        # 与えられたミニバッチをニューラルネットワークに処理させる。
        outputs = model(inputs)
        # 損失を計算する。
        loss = F.cross_entropy(outputs, targets)
        # 勾配を計算する。
        loss.backward()
        # 重み・バイアスを更新する。
        optimizer.step()
        # 定期的に現在の状況を表示する。
        if dry_run or ((idx+1) % log_interval) == 0:
            avg_loss = loss.item() / len(outputs)
            logging.info(f'train: batch={idx+1}/{len(loader)}, loss={avg_loss:.4f}')
        if dry_run:
            # dry_run モードの場合、1回のみで終了。
            break
    return

# test: テストをおこなう。
def test(model, device, loader):
    # ニューラルネットワークを評価モードにする。
    model.eval()
    correct = 0
    # 以下の処理ではautograd機能を使わない:
    with torch.no_grad():
        # 各ミニバッチを処理する。
        for (idx, (images, labels)) in enumerate(loader):
            images = images.reshape(len(images), 1, 28, 28)
            # 入力をfloat型のテンソルに変換。
            inputs = images.float().to(device)
            # 正解をlong型のテンソルに変換。
            targets = labels.long().to(device)
            # 与えられたミニバッチをニューラルネットワークに処理させる。
            outputs = model(inputs)
            # 正解かどうかを判定する。
            n = 0
            for (y,label) in zip(outputs, targets):
                i = torch.argmax(y)
                if i == label:
                    n += 1
            logging.debug(f'test: batch={idx+1}/{len(loader)}, correct={n}/{len(outputs)}')
            correct += n
    # 結果を表示する。
    total = len(loader.dataset)
    logging.info(f'test: total={correct}/{total} ({100*correct/total:.2f}%)')
    return

# main
def main():
    import argparse
    # コマンドライン引数を解析する。
    parser = argparse.ArgumentParser(description='PyTorch MNIST Example')
    parser.add_argument('--verbose', action='store_true', default=False,
                        help='enables verbose logging')
    parser.add_argument('--batch-size', type=int, default=32, metavar='N',
                        help='input batch size for training (default: 64)')
    parser.add_argument('--test-batch-size', type=int, default=1000, metavar='N',
                        help='input batch size for testing (default: 1000)')
    parser.add_argument('--no-shuffle', action='store_true', default=False,
                        help='disables dataset shuffling')
    parser.add_argument('--epochs', type=int, default=10, metavar='N',
                        help='number of epochs to train (default: 10)')
    parser.add_argument('--lr', type=float, default=0.01, metavar='LR',
                        help='learning rate (default: 0.01)')
    parser.add_argument('--seed', type=int, default=1, metavar='S',
                        help='random seed (default: 1)')
    parser.add_argument('--no-cuda', action='store_true', default=False,
                        help='disables CUDA training')
    parser.add_argument('--dry-run', action='store_true', default=False,
                        help='quickly check a single pass')
    parser.add_argument('--log-interval', type=int, default=10, metavar='N',
                        help='how many batches to wait before logging training status')
    parser.add_argument('--save-model', type=str, metavar='path', default=None,
                        help='saves model to file')
    parser.add_argument('datadir', type=str)

    args = parser.parse_args()

    # ログ出力を設定する。
    level = (logging.DEBUG if args.verbose else logging.INFO)
    logging.basicConfig(format='%(asctime)s %(levelname)s %(message)s', level=level)

    # 乱数シードを設定する。
    torch.manual_seed(args.seed)

    # CUDA の使用・不使用を設定する。
    use_cuda = not args.no_cuda and torch.cuda.is_available()
    device = torch.device("cuda" if use_cuda else "cpu")

    # バッチサイズその他のパラメータを設定する。
    train_kwargs = {'batch_size': args.batch_size, 'shuffle': not args.no_shuffle}
    test_kwargs = {'batch_size': args.test_batch_size}
    if use_cuda:
        cuda_kwargs = {'pin_memory': True}
        train_kwargs.update(cuda_kwargs)
        test_kwargs.update(cuda_kwargs)

    # 訓練データを読み込む。
    train_dataset = MNISTDataset(
        os.path.join(args.datadir, 'train-images-idx3-ubyte.gz'),
        os.path.join(args.datadir, 'train-labels-idx1-ubyte.gz'))
    train_loader = DataLoader(train_dataset, **train_kwargs)

    # テストデータを読み込む。
    test_dataset = MNISTDataset(
        os.path.join(args.datadir, 't10k-images-idx3-ubyte.gz'),
        os.path.join(args.datadir, 't10k-labels-idx1-ubyte.gz'))
    test_loader = DataLoader(test_dataset, **train_kwargs)

    # モデルを作成。
    model = MNISTNet()
    if args.save_model is not None:
        # モデルをファイルから読み込む。
        logging.info(f'Loading: {args.save_model}...')
        try:
            params = torch.load(args.save_model, map_location=device)
            model.load_state_dict(params)
        except FileNotFoundError as e:
            logging.error(f'Error: {e}')
    model = model.to(device)

    # 最適化器と学習率を定義する。
    optimizer = optim.Adam(model.parameters(), lr=args.lr)

    # エポック回だけ訓練・テストを繰り返す。
    for epoch in range(args.epochs):
        logging.info(f'*** epoch={epoch+1}/{args.epochs} ***')
        train(model, device, train_loader, optimizer,
              log_interval=args.log_interval, dry_run=args.dry_run)
        test(model, device, test_loader)

    # モデルをファイルに保存する。
    if args.save_model is not None:
        logging.info(f'Saving: {args.save_model}...')
        params = model.state_dict()
        torch.save(params, args.save_model)

    return

if __name__ == '__main__': main()