PyTorch5

PyTorch ではじめる AI開発 5 †

　「動画の背景を入れ替える」画像のセグメンテーションという手法を使って、画像中の人物を切り出し背景を入れ替える AIを作成する。

PyTorch ではじめる AI開発 5
画像認識 (Image Recognition) とは
- 画像認識技術一覧
- 重要な概念
CHAPTER 05 動画の背景を入れ替える
参考資料
- 画像認識について
  - 引用・参考サイト
  - 代表的なモデルのサイト
- ディープラーニング全般

※ 最終更新:2021/10/20　

↑

画像認識 (Image Recognition) とは †

　画像認識技術の違いについてサイト「画像分類・物体検出・セグメンテーションの比較」から引用。

画像認識とは、画像や動画データから特徴をつかみ対象物を識別するパターン認識技術の一つ。画像データから、対象物や、対象物の特徴(形状、寸法、数、明暗、色など)を抽出/分析/識別して認識検出する手法。
コンピュータが画像認識を行うためには、前段階として、画像から対象物を抽出する必要がある。

8ビット深度の画像の場合、デジタル画像は0〜255の範囲の値を持つピクセルによって形成される。0は黒、255は白。カラー画像の場合は、赤、緑、青の 3つのマップと、0〜255の範囲のすべてのピクセルが含まれる。

　画像認識を利用することで、顔認証システムや不審者検知、文字認識（OCR）、不適切画像の検出、工場でのイレギュラー検知など幅広い分野で活用することができる。

↑

画像認識技術一覧 †

種別	概要		モデル	処理結果	評価指数
画像分類 Image Classification		機械学習やディープラーニングモデルで、画像を何らかの主題に基づき分類する処理方法。教師あり学習では、ラベル付けされたデータセットを用いて、モデルを学習させていく。	Xception VGG ResNet Inception MobileNet DenseNet	各クラスの予測信頼度	混合行列 (Confusion Matrix) 正解率 (Accuracy) 適合率 (Precision) 再現率 (Recall) F値 (F-measure) ...
画像分類・物体位置特定 Image Classification・Localization		画像内のクラスと物体の位置を検出する方法。画像から物体のクラスを予測する代わりに、クラスとその物体を含む矩形（バウンディングボックス）を予測する必要がある。1つの画像は1つのクラスを検出する。		クラス名クラスの予測信頼度バウンディングボックス	mAP IoU
物体検出 Object Detection		画像内のクラスと物体の位置を検出。複数種類の物体を1つの画像で検出するとマルチクラスの物体検出。入力画像から固定サイズのウィンドウをすべての可能な位置で取得して、これらのパッチ(領域)を画像分類器に入力する。	R-CNN Fast R-CNN SSD Mask R-CNN YOLO RetinaNet	クラス名クラスの予測信頼度バウンディングボックス	mAP (mean Average Precision) IoU (Intersection over Union)
セマンティック・セグメンテーション Semantic Segmentation		画像のピクセルを「どの物体クラス(カテゴリー)に属するか」で分類する方法。画像上の全ピクセルをクラスに分類すること。同クラス間で重なりがある場合、同クラスの領域として認識するため、物体ごとの認識・カウントができない。	U-NET MULTISCALE HYBRID CNN-CRF&br	各ピクセルのクラス情報	IoU and per-pixel accuracy
インスタント・セグメンテーション Instant Segmentation		画像のピクセルを「どの物体クラス(カテゴリー)に属するか、どのインスタンスに属するか」で分類する方法。物体ごとの領域を分割しかつ物体の種類を認識すること。RoI（region of interest）に対して segmentation を行うので、画像全てのピクセルに対してラベルを振ることはしない。	Mask R-CNN DeepMask FCIS	各ピクセルのクラス情報	average precision over different IoU thresholds
パノプティック・セグメンテーション Panoptic Segmentation		Semantic Segmentation とInstance Segmentationを組み合わせた方法。全てのピクセルにラベルが振られ、かつ数えられる物体に関しては、個別で認識した結果が返される。	Panoptic Feature Pyramid Network UPSNet	各ピクセルのクラス情報	Panoptic Quality (PQ)

↑

重要な概念 †

　サイト「オブジェクト検出とインスタンスセグメンテーション：詳細な概要~」から引用

バウンディングボックス
・対象のオブジェクトを囲むために使用されるタイトな長方形。一般に、次の4つの値で表される：（bx、by、bh、bw)

アンカーボックス

・特定の高さと幅の事前定義された境界ボックスのセット。
・ボックスは、検出する特定のオブジェクトクラスのスケールとアスペクト比をキャプチャするように定義されており、通常、トレーニングデータセットのオブジェクトサイズに基づいて選択される。
・検出中、事前定義されたアンカーボックスが画像全体に並べて表示される。ネットワークは、すべてのタイルアンカーボックスの確率と、背景、ユニオン上の交差（IoU）、オフセットなどの他の属性を予測する。
・予測は、個々のアンカーボックスを絞り込むために使用される。オブジェクトサイズが異なる複数のアンカーボックスを定義できる。

ユニオン上の交差点（IOU）
・予測されたバウンディングボックスの精度をチェックするために使用される評価メトリック。

・0.5を超えるIOUは適切な予測と見なされ、さらなる評価に使用される。
非最大抑制

・特定のオブジェクトに複数のボックスが存在する場合この手法では、最大IOUを持つボックスを除くすべてのボックスが破棄される。
バイナリマスク
・これは 2D配列であり、画像の同じピクセル幅と高さを表すデータポイントがある。
・マスクの各ピクセルには、予測されたインスタンスに属しているかどうかを示す 1または 0（trueまたはfalse）のラベルが付けられている。
平均平均精度
・平均平均精度(mAP)は、オブジェクト検出器の精度を定量化するために使用されるメトリック。

・画像の平均精度とは、画像に存在するオブジェクトのすべてのインスタンスにわたって平均された精度を意味する。
・mAPは、0.05のステップサイズで 0.5 から 0.95 の IOU にわたって平均された平均精度。

↑

CHAPTER 05 動画の背景を入れ替える †

　マスク画像を出力するニューラルネットワークを使って画像編集を行う AI を作成する。

↑

SECTION 013 画像を直接扱う AI †

物体検出と似たタスクを実行する AIに、セグメンテーションという種類がある。
セグメンテーションでは一度のニューラルネットワークの実行で、物体の種類と形状を検出できる。
セグメンテーション用の FCN (Fully Convolutional Network) というネットワークの一種である「U-Net」というニューラルネットワークを利用する。

↑

人物のマスク画像を用意する †

一般に公開されている「COCO-Dataset」からファイルをダウンロードする。
・「2014 Train images [83K/13GB]」→ train2014.zip
・「2014 Train/Val annotations [241MB]」→ annotations-trainval2014.zip
※ ファイルの容量が大きのでダウンロードには時間がかかる。

作業ディレクトリ「~workspace_py37/chapter05/」を作成しダインロードしたファイルを移動する。

(py37) $ mkdir ~/workspace_py37/chapter05
(py37) $ cd ~/ダウンロード
(py37) $ mv annotations_trainval2014.zip ~/workspace_py37/chapter05/
(py37) $ mv train2014.zip ~/workspace_py37/chapter05
(py37) $ cd ~/workspace_py37/chapter05
(py37) $ ls
annotations_trainval2014.zip  train2014.zip

ファイルを展開する。

(py37) $ unzip annotations_trainval2014.zip 
Archive:  annotations_trainval2014.zip
  inflating: annotations/instances_train2014.json  
  inflating: annotations/instances_val2014.json  
  inflating: annotations/person_keypoints_train2014.json  
  inflating: annotations/person_keypoints_val2014.json  
  inflating: annotations/captions_train2014.json  
  inflating: annotations/captions_val2014.json  
(py37) $ unzip train2014.zip 
Archive:  train2014.zip
   creating: train2014/
 extracting: train2014/COCO_train2014_000000270070.jpg  
 extracting: train2014/COCO_train2014_000000101772.jpg  
    :
    :
 extracting: train2014/COCO_train2014_000000291366.jpg  
 extracting: train2014/COCO_train2014_000000533055.jpg  
 extracting: train2014/COCO_train2014_000000467840.jpg  
(py37) $ ls
annotations  annotations_trainval2014.zip  train2014  train2014.zip
(py37) $ find ./train2014 -type f | wc -l
82783

ディレクトリ「annotations」「train2014」ができていることを確認したら元の圧縮ファイルは削除しておく。（容量が大きいので）
```
(py37) $ rm annotations_trainval2014.zip
(py37) $ rm train2014.zip
(py37) $ ls
annotations  train2014
```

↑

マスク画像を作成するプログラム †

書籍サイトからダウンロードしたサンプルデータ「~/workspace_py37/sample」からファイルコピーする。
作業ディレクトリ「~workspace_py37/chapter05/」に「chapt05_1.py」を「chapt05_1a.py」としてコピーする。
```
(py37) cd ~/workspace_py37/chapter05
(py37) $ cp ~/workspace_py37/sample/chapt05/chapt05_1.py chapt05_1a.py
```

ファイルを編集する（特に修正箇所はない）

▼　(py37) $ vi chapt05_1a.py

(py37) $ vi chapt05_1a.py 

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 05 / Section 013
##   動画の背景を入れ替える/マスク画像の作成
##
##               2021.09.23 Masahiro Izutsu
##------------------------------------------
## chapt05_1a.py  (original: chapt05_1.py)

import os
import numpy as np
from PIL import Image
from pycocotools.coco import COCO

# COCO2014 Datasetから読み込む
catnames = 'person'  # 読み込むカテゴリー
dataType='train2014'
annFile='annotations/instances_train2014.json'

# 画像とマスク画像を保存するディレクトリを作る
if not os.path.isdir('imgs'):
    os.mkdir('imgs')
if not os.path.isdir('mask'):
    os.mkdir('mask')

# COCOデータセットの読み込み
coco = COCO(annFile)
cats = coco.loadCats(coco.getCatIds())

# カテゴリーから対象となる画像を取得する
catIds = coco.getCatIds(catNms=catnames)
imgIds = coco.getImgIds(catIds=catIds)

# 取得した画像に対して
for id in imgIds:
    # 画像を読み込む
    img = coco.loadImgs([id])[0]
    # 画像に対するアノテーションを取得する
    annIds = coco.getAnnIds(imgIds=[id], catIds=catIds, iscrowd=None)
    anns = coco.loadAnns(annIds)
    # アノテーションをマスク画像化する
    mask = None
    for ann in anns:
        if mask is None:
            mask = coco.annToMask(ann)
        else:
            mask[coco.annToMask(ann) != 0] = 1
    # 256x256の白黒画像にする
    mask = mask.astype(np.uint8) * 255
    mask = Image.fromarray(mask).resize((256,256))
    mask = mask.convert("L")
    # 画像を保存する
    imgFile = '%s/%s'%(dataType,img['file_name'])
    image = Image.open(imgFile)
    image = image.convert("RGB")
    image = image.resize((256,256))
    image.save('imgs/%d.png'%id)
    mask.save('mask/%d.png'%id)

プログラムを実行する

(py37) $ python3 chapt05_1a.py 
loading annotations into memory...
Done (t=19.70s)
creating index...
index created!
(py37) $ ls -l
合計 7164
drwxrwxr-x 2 mizutu mizutu    4096  9月 22 04:20 annotations
-rw-rw-r-- 1 mizutu mizutu    1889  9月 22 04:50 chapt05_1a.py
drwxrwxr-x 2 mizutu mizutu 1294336  9月 22 05:29 imgs
drwxrwxr-x 2 mizutu mizutu 1294336  9月 22 05:29 mask
drwxrwxr-x 2 mizutu mizutu 4722688  8月 16  2014 train2014

学習用データが「image」「mask」に出来上がる。
※ 処理時間：約29分

↑

SECTION 014 転移学習によるモデルの作成 †

　U-Net の畳み込み層に対してさらに改良を施した「DeepLab」のモデルを元に出力層のみを入れ替えたモデルを作成して転移学習を行う。
　「DeepLab」のモデルは「ImageNet」という一般的な画像を使用して学習されたものが公開されているので「TorchHub」からダウンロードして使用する。

↑

転移学習のプログラム †

書籍サイトからダウンロードしたサンプルデータ「~/workspace_py37/sample」からファイルコピーする。
作業ディレクトリ「~workspace_py37/chapter05/」に「chapt05_2.py」を「chapt05_2a.py」としてコピーする。
```
(py37) cd ~/workspace_py37/chapter05
(py37) $ cp ~/workspace_py37/sample/chapt05/chapt05_2.py chapt05_2a.py
```

ファイルを編集する（特に修正箇所はない）

▼　(py37) $ vi chapt05_2a.py

(py37) $ vi chapt05_2a.py 

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 05 / Section 014
##   動画の背景を入れ替える/モデルの作成
##
##               2021.09.23 Masahiro Izutsu
##------------------------------------------
## chapt05_2a.py  (original: chapt05_2.py)

import numpy as np
import os
from PIL import Image
from tqdm import tqdm
import glob
import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import transforms
from torchvision.models.segmentation import deeplabv3

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'

# PyTorchの内部を決定論的に設定する
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

# 乱数を初期化する
np.random.seed(0)
torch.manual_seed(0)

# PyTorchの流儀でデータセットをクラスで定義する
class MyDataset(object):
    def __init__(self):
        # ファイルの一覧
        self.filelist = os.listdir('imgs/')
        # 画像用のtransform
        self.trans1 = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])
        ])
        # マスク画像用のtransform
        self.trans2 = transforms.ToTensor()

    def __getitem__(self, idx):
        # 画像とマスク画像を読み込む
        img = Image.open('imgs/' + self.filelist[idx])
        msk = Image.open('mask/' + self.filelist[idx])
        # 画像をTensorにする
        img = self.trans1(img)
        msk = self.trans2(msk) # ToTensorは0〜1の範囲にする
        # 画像をマスク画像を返す
        return img, msk

    def __len__(self):
        return len(self.filelist)

# 学習で使用するニューラルネットワーク
model = torch.hub.load('pytorch/vision:v0.6.0',
            'deeplabv3_resnet101', pretrained=True)
# 出力層のチャンネル数を1にする
model.classifier = deeplabv3.DeepLabHead(2048, 1)
# GPUを使う場合はGPUメモリに乗せる
model.to(USE_DEVICE)

# 出力層のみ学習する
params = model.classifier.parameters()
optimizer = torch.optim.SGD(params, lr=0.001,  momentum=0.9)

# 損失関数を用意する
loss = nn.BCELoss() # バイナリクロスエントロピー

# 学習時のバッチサイズ
BATCH_SIZE = 4
# データの読み込みスレッドの数
NUM_WORKERS = 2
# 学習エポック数
NUM_EPOCHS = 8

# データセットの読み込みクラス
dataset = MyDataset()
# 別スレッドでデータを読み込む
data_loader = torch.utils.data.DataLoader(
    dataset, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS)

# 学習ループ
for epoch in range(NUM_EPOCHS):
    total_loss = [] # 各バッチ実行時の損失値
    model.train() # モデルを学習用に設定する
    for X, y in tqdm(data_loader): # 画像を読み込んでtensorにする
        X = X.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる
        y = y.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる

        # ニューラルネットワークを実行して損失値を求める
        out = model(X)
        out = torch.sigmoid(out['out'])
        losses = loss(out, y)

        # 新しいバッチ分の学習を行う
        optimizer.zero_grad() # 一つ前の勾配をクリア
        losses.backward() # 損失値を逆伝播させる
        optimizer.step() # 新しい勾配からパラメーターを更新する

        # 損失値を保存しておく
        total_loss.append(losses.detach().cpu().numpy())

    # エポック終了時のスコアを求める
    total_loss = np.mean(total_loss) # 各バッチの損失の平均
    # エポック終了時のスコアを表示する
    print(f'epoch #{epoch}: train_loss:{total_loss}')

# 最終的なモデルを保存する
torch.save(model.state_dict(), 'chapt05-model1.pth')

プログラムを実行する
・CPU (Core™ i5-10210U) での実行結果

(py37) $ cd ~/workspace_py37/chapter05
(py37) $ date
2021年  9月 27日 月曜日 19:40:49 JST
(py37) $ python3 chapt05_2a.py 
Downloading: "https://github.com/pytorch/vision/archive/v0.6.0.zip" to /home/mizutu/.cache/torch/hub/v0.6.0.zip
Downloading: "https://download.pytorch.org/models/deeplabv3_resnet101_coco-586e9e4e.pth" to /home/mizutu/.cache/torch/hub/checkpoints/deeplabv3_resnet101_coco-586e9e4e.pth
100%|████████████████████████████████████████| 233M/233M [00:13<00:00, 17.6MB/s]
100%|██████████████████████████████████| 11294/11294 [19:59:13<00:00,  6.37s/it]
epoch #0: train_loss:0.13978596031665802
100%|██████████████████████████████████| 11294/11294 [19:48:03<00:00,  6.31s/it]
epoch #1: train_loss:0.12665237486362457
100%|██████████████████████████████████| 11294/11294 [19:36:18<00:00,  6.25s/it]
epoch #2: train_loss:0.12261106818914413
100%|██████████████████████████████████| 11294/11294 [19:36:11<00:00,  6.25s/it]
epoch #3: train_loss:0.11953889578580856
100%|██████████████████████████████████| 11294/11294 [19:38:41<00:00,  6.26s/it]
epoch #4: train_loss:0.11823559552431107
100%|██████████████████████████████████| 11294/11294 [19:35:09<00:00,  6.24s/it]
epoch #5: train_loss:0.11668296158313751
100%|██████████████████████████████████| 11294/11294 [19:42:35<00:00,  6.28s/it]
epoch #6: train_loss:0.11582669615745544
100%|██████████████████████████████████| 11294/11294 [19:34:58<00:00,  6.24s/it]
epoch #7: train_loss:0.11430223286151886
(py37) $ ls -l
合計 245948
drwxrwxr-x 2 mizutu mizutu      4096  9月 23 04:28 annotations
-rw-rw-r-- 1 mizutu mizutu 244638643 10月  4 09:12 chapt05-model1.pth
-rw-rw-r-- 1 mizutu mizutu      1889  9月 23 04:31 chapt05_1a.py
-rw-rw-r-- 1 mizutu mizutu      4015  9月 23 05:18 chapt05_2a.py
drwxrwxr-x 2 mizutu mizutu   1204224  9月 23 04:52 imgs
drwxrwxr-x 2 mizutu mizutu   1204224  9月 23 04:52 mask
drwxrwxr-x 2 mizutu mizutu   4780032  8月 16  2014 train2014

・GPU (GeForce GTX 1050 Ti) での実行結果

(py37) > python chapt05_2w.py
Using cache found in C:\Users\izuts/.cache\torch\hub\pytorch_vision_v0.6.0
100%|██████████████████████████████████| 11294/11294 [5:56:55<00:00,  1.90s/it]
epoch #0: train_loss:0.14030972123146057
100%|██████████████████████████████████| 11294/11294 [5:56:12<00:00,  1.89s/it]
epoch #1: train_loss:0.1263476312160492
100%|██████████████████████████████████| 11294/11294 [5:52:53<00:00,  1.87s/it]
epoch #2: train_loss:0.12263970822095871
100%|██████████████████████████████████| 11294/11294 [5:52:45<00:00,  1.87s/it]
epoch #3: train_loss:0.12062573432922363
100%|██████████████████████████████████| 11294/11294 [5:53:30<00:00,  1.88s/it]
epoch #4: train_loss:0.11797807365655899
100%|██████████████████████████████████| 11294/11294 [5:54:05<00:00,  1.88s/it]
epoch #5: train_loss:0.11718424409627914
100%|██████████████████████████████████| 11294/11294 [5:53:51<00:00,  1.88s/it]
epoch #6: train_loss:0.11532850563526154
100%|██████████████████████████████████| 11294/11294 [5:52:37<00:00,  1.87s/it]
epoch #7: train_loss:0.11388455331325531

※「DeepLab」のモデルは実行に時間がかかるため学習にも相当な時間を要する。

学習にかかった時間

機種	開始日時	終了日時	処理時間 (h:m)
GeForce GTX 1050 Ti Intel® Core™ i7-6700	10/14 05:05	10/16 04:18	46:47
Intel® NUC BXNUC10I5FNH Core™ i5-10210U CPU	09/27 19:40	10/04 09:12	157:30
DELL Latitude 7520 Intel® Core™ i7-1185G7 CPU	09/26 10:36	10/05 07:20	212:36

・書籍では 1エポックの実行時間は2時間半だが、ここでは CPUでの実行の場合 10倍近い 20時間ほどかかっている。
　CPU 単体での実行には相当の覚悟を要する。

↑

SECTION 015 人物の背景を入れ替える AI †

↑

動画の編集 AI †

「人物」と「背景」の動画を用意する。
著者のサンプル動画も用意されているが、サイト pixabay からダウンロードしフレームレートと時間を合わせて編集しておく。

・人物の動画「Woman - 86378.mp4」
　→ ~/Videos/woman_m.mp4
・背景の動画「Clouds - 17723.mp4」
　→ ~/Videos/clouds_m.mp4

書籍サイトからダウンロードしたサンプルデータ「~/workspace_py37/sample」からファイルコピーする。
作業ディレクトリ「~workspace_py37/chapter05/」に「chapt05_3.py」を「chapt05_3a.py」としてコピーする。
```
(py37) $ cd ~/workspace_py37/chapter05
(py37) $ cp ~/workspace_py37/sample/chapt05/chapt05_3.py chapt05_3a.py
```

ファイルを編集する（特に修正箇所はない）

▼　(py37) $ vi chapt05_3a.py

(py37) $ vi chapt05_3a.py 

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 05 / Section 015
##   動画の背景を入れ替える/人物の背景を入れ替えるAI
##
##               2021.10.04 Masahiro Izutsu
##------------------------------------------
## chapt05_3a.py  (original: chapt05_3.py)

import numpy as np
from PIL import Image, ImageTk
import cv2
from time import time, sleep
from tkinter import Tk, NW, TOP, Frame, Button, StringVar, Label, filedialog
import tkinter as tk
import tkinter.font as tkFont
import threading

import torch
from torch import nn
import torch.nn.functional as F
from torchvision import transforms
from torchvision.models.segmentation import deeplabv3

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'
# アプリケーションが実行中かどうか
IS_RUN = True

# 保存しておいたモデルを読み込む
model = torch.hub.load('pytorch/vision:v0.6.0',
            'deeplabv3_resnet101', pretrained=True)
# 出力層のチャンネル数を1にする
model.classifier = deeplabv3.DeepLabHead(2048, 1)
# GPUを使用しない場合はデバイスを指定
model.load_state_dict(torch.load('chapt05-model1.pth',
    map_location=torch.device(USE_DEVICE)))
# モデルを推論用に設定する
model.eval()
model.to(USE_DEVICE)

# 画像をTensorにするtransform
transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406],
                             std=[0.229, 0.224, 0.225])
    ])

# 動画の変換を行う関数
def proc_movie(in_file1, in_file2, out_file, svar):
    # 動画を読み込む
    cap1 = cv2.VideoCapture(in_file1) # 人物の動画
    cap2 = cv2.VideoCapture(in_file2) # 背景の動画
    # 動画を書き出す
    fc = cv2.VideoWriter_fourcc(*'XVID') # aviフォーマット
    dst = cv2.VideoWriter(out_file, fc, 15, (1280,720), True)
    nframe = 0 # フレーム数
    while(True):
        # 1フレーム動画を読み込む
        ret1, frame1 = cap1.read()
        ret2, frame2 = cap2.read()
        if not (ret1 and ret2 and IS_RUN):
            break
        # サイズを合わせる
        frame1 = cv2.resize(frame1, (1280,720))
        frame2 = cv2.resize(frame2, (1280,720))

        # PILのImageにする
        frame = cv2.cvtColor(frame1, cv2.COLOR_BGR2RGB)
        pil_image = Image.fromarray(frame)
        pil_image = pil_image.resize((256,256)) # サイズを256ｘ256にする
        # PyTorchのTensorにする
        tensor = transform(pil_image) # 正規化してTensorに
        tensor = tensor.to(USE_DEVICE)
        tensor = tensor.reshape((1,3,256,256)) # 1バッチ分のデータにする
        # モデルを実行する
        out = model(tensor)
        # 実行結果をマスク画像のデータにする
        mask = torch.sigmoid(out['out'])
        mask = mask.detach().cpu().numpy()[0,0,:,:] # 1チャンネル化
        mask = cv2.resize(mask, (1280,720)) # サイズを合わせる
        mask = cv2.cvtColor(mask, cv2.COLOR_GRAY2RGB) # カラー化

        # マスクをアルファ値として、人物を抜き出す
        cur_frame = (frame1 * mask) + (frame2 * (1.0 - mask))
        cur_frame = cur_frame.astype(np.uint8) # 8bit画像にする

        # 1フレーム結果を出力する
        dst.write(cur_frame)
        nframe += 1
        svar.set('%d frame processed.'%nframe) # メッセージの表示
    # 終了処理
    cap1.release()
    cap2.release()
    dst.release()
    svar.set('       Done.')

# Tkで表示するフレーム
class MyFrame(Frame):
    def __init__(self, parent, **params):
        Frame.__init__(self, parent, params)
        myfont = tkFont.Font(family="Noto Sans CJK JP", size=10, weight="bold")
        # ボタンを配置する
        self.button = Button(self,text="　変換開始　", font=myfont, justify=tk.CENTER, command=self.start)
        self.button.place(x=260,y=60)
        # 認識結果の表示場所を作成する
        self.message = StringVar()
        self.message.set('')
        self.label = Label(self, textvariable=self.message, font=myfont)
        self.label.place(x=250,y=180)

    def start(self):
        # 入力ファイルを二つ開く
        in_file1 = filedialog.askopenfilename(title = "人物の動画",
            filetypes = (("movie files","*.mp4"),("all files","*.*")))
        in_file2 = filedialog.askopenfilename(title = "背景の動画",
            filetypes = (("movie files","*.mp4"),("all files","*.*")))
        # 出力ファイルを開く
        out_file = filedialog.asksaveasfilename(title = "Select file",
            filetypes = (("movie files","*.avi"),))
        # 別スレッドで実行する
        thread = threading.Thread(target=proc_movie,
            args=(in_file1,in_file2,out_file,self.message))
        thread.start()

# 画面いっぱいにウィンドウを作成する
win = Tk()
win.geometry('640x320') # ウィンドウの大きさ
frame = MyFrame(win, width=640, height=320) # フレーム
frame.pack(side=TOP) # ウィンドウに配置

win.mainloop() # 処理を開始

# スレッドの終了を待つ
IS_RUN = False

動画編集プログラムを実行する
```
(py37) $ cd ~/workspace_py37/chapter05/
(py37) $ python3 chapt05_3a.py
```
・起動したダイアログから「人物動画ファイル」「背景動画ファイル」「出力先の動画ファイル」を指定する。

・実行終了を待つ

実行結果

↑

動画の編集 AI プログラムの改良 †

処理時間がかかるのにフレームカウントの表示だけではさみしいので手を加える。
　入力動画のの「人物画像」「背景画像」と「マスク画像」「最終合成画像」の処理状態を表示できるようにする。

ソースファイル

▼　(py37) $ vi chapt05_3b.py

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 05 / Section 015
##   動画の背景を入れ替える/人物の背景を入れ替えるAI(プレビュー表示)
##
##               2021.10.04 Masahiro Izutsu
##------------------------------------------
## chapt05_3b.py  (original: chapt05_3.py)
## 2021/10/20 プレビュー表示

import numpy as np
from PIL import Image, ImageTk
import cv2
from time import time, sleep
from tkinter import Tk, NW, TOP, Frame, Button, StringVar, Label, filedialog
import tkinter as tk
import tkinter.font as tkFont
import threading

import torch
from torch import nn
import torch.nn.functional as F
from torchvision import transforms
from torchvision.models.segmentation import deeplabv3

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'
# アプリケーションが実行中かどうか
IS_RUN = True

# 保存しておいたモデルを読み込む
model = torch.hub.load('pytorch/vision:v0.6.0',
            'deeplabv3_resnet101', pretrained=True)
# 出力層のチャンネル数を1にする
model.classifier = deeplabv3.DeepLabHead(2048, 1)
# GPUを使用しない場合はデバイスを指定
model.load_state_dict(torch.load('chapt05-model1.pth',
    map_location=torch.device(USE_DEVICE)))
# モデルを推論用に設定する
model.eval()
model.to(USE_DEVICE)

# 画像をTensorにするtransform
transform = transforms.Compose([
        transforms.ToTensor(),
        transforms.Normalize(mean=[0.485, 0.456, 0.406],
                             std=[0.229, 0.224, 0.225])
    ])

# 動画の変換を行う関数
def proc_movie(in_file1,in_file2,out_file,svar,img1,ID1,img2,ID2,img3,ID3,img4,ID4):
    # 動画を読み込む
    cap1 = cv2.VideoCapture(in_file1) # 人物の動画
    cap2 = cv2.VideoCapture(in_file2) # 背景の動画
    # 動画を書き出す
    fc = cv2.VideoWriter_fourcc(*'XVID') # aviフォーマット
    dst = cv2.VideoWriter(out_file, fc, 15, (1280,720), True)
    nframe = 0 # フレーム数
    while(True):
        # 1フレーム動画を読み込む
        ret1, frame1 = cap1.read()
        ret2, frame2 = cap2.read()
        if not (ret1 and ret2 and IS_RUN):
            break
        # サイズを合わせる
        frame1 = cv2.resize(frame1, (1280,720))
        frame2 = cv2.resize(frame2, (1280,720))

        # PILのImageにする
        frame = cv2.cvtColor(frame1, cv2.COLOR_BGR2RGB)
        pil_image = Image.fromarray(frame)
        
        # プレビュー画像 1
        im1 = pil_image.resize((320,186))
        img1.photo = ImageTk.PhotoImage(im1)
        img1.itemconfig(ID1, image=img1.photo)

        # プレビュー画像 2
        framebk = cv2.cvtColor(frame2, cv2.COLOR_BGR2RGB)
        pil_imagebk = Image.fromarray(framebk)
        im2 = pil_imagebk.resize((320,186))
        img2.photo = ImageTk.PhotoImage(im2)
        img2.itemconfig(ID2, image=img2.photo)

        pil_image = pil_image.resize((256,256)) # サイズを256ｘ256にする
        # PyTorchのTensorにする
        tensor = transform(pil_image) # 正規化してTensorに
        tensor = tensor.to(USE_DEVICE)
        tensor = tensor.reshape((1,3,256,256)) # 1バッチ分のデータにする
        # モデルを実行する
        out = model(tensor)
        # 実行結果をマスク画像のデータにする
        mask = torch.sigmoid(out['out'])
        mask = mask.detach().cpu().numpy()[0,0,:,:] # 1チャンネル化
        mask = cv2.resize(mask, (1280,720)) # サイズを合わせる
        mask = cv2.cvtColor(mask, cv2.COLOR_GRAY2RGB) # カラー化
        
        # マスクをアルファ値として、人物を抜き出す
        cur_frame = (frame1 * mask) + (frame2 * (1.0 - mask))
        cur_frame = cur_frame.astype(np.uint8) # 8bit画像にする
        
        # プレビュー画像 3
        cvim3 = cv2.resize(mask, (320,180))
        blank = np.zeros((180, 320, 3))
        blank += 255 #←全ゼロデータに255を足してホワイトにする
        blank_msk = blank * cvim3
        blank_msk = blank_msk.astype(np.uint8) # 8bit画像にする

        im3 = Image.fromarray(blank_msk)
        img3.photo = ImageTk.PhotoImage(im3)
        img3.itemconfig(ID3, image=img3.photo)
        
        # プレビュー画像 4
        cvim4 = cv2.resize(cur_frame, (320,180))
        cvim4 = cv2.cvtColor(cvim4, cv2.COLOR_BGR2RGB)
        im4 = Image.fromarray(cvim4)
        img4.photo = ImageTk.PhotoImage(im4)
        img4.itemconfig(ID4, image=img4.photo)

        # 1フレーム結果を出力する
        dst.write(cur_frame)
        nframe += 1
        svar.set('%d frame processed.'%nframe) # メッセージの表示
    # 終了処理
    cap1.release()
    cap2.release()
    dst.release()
    svar.set('       Done.')

# Tkで表示するフレーム
class MyFrame(Frame):
    def __init__(self, parent, **params):
        Frame.__init__(self, parent, params)
        myfont = tkFont.Font(family="Noto Sans CJK JP", size=10, weight="bold")
        # ボタンを配置する
        self.button = Button(self,text="　変換開始　", font=myfont, justify=tk.CENTER, command=self.start)
        self.button.place(x=260,y=450)
        # 認識結果の表示場所を作成する
        self.message = StringVar()
        self.message.set('開始ボタンを押してください')
        self.label = Label(self, textvariable=self.message, justify=tk.CENTER, font=myfont)
        self.label.place(x=220,y=420)
        
        self.canvas1 = tk.Canvas(self, bg="#ffffff", height=180, width=320)
        self.canvas2 = tk.Canvas(self, bg="#ffffff", height=180, width=320)
        self.canvas3 = tk.Canvas(self, bg="#ffffff", height=180, width=320)
        self.canvas4 = tk.Canvas(self, bg="#ffffff", height=180, width=320)
        self.canvas1.place(x=2, y=30)
        self.canvas2.place(x=332, y=30)
        self.canvas3.place(x=2, y=220)
        self.canvas4.place(x=332, y=220)
        self.img = Image.new("RGB", (320, 180), (0, 128, 255))
        self.canvas1.photo = ImageTk.PhotoImage(self.img)
        self.canvasID1 = self.canvas1.create_image(0, 0, image=self.canvas1.photo, anchor=tk.NW)
        self.canvas2.photo = ImageTk.PhotoImage(self.img)
        self.canvasID2 = self.canvas2.create_image(0, 0, image=self.canvas2.photo, anchor=tk.NW)
        self.canvas3.photo = ImageTk.PhotoImage(self.img)
        self.canvasID3 = self.canvas3.create_image(0, 0, image=self.canvas3.photo, anchor=tk.NW)
        self.canvas4.photo = ImageTk.PhotoImage(self.img)
        self.canvasID4 = self.canvas4.create_image(0, 0, image=self.canvas4.photo, anchor=tk.NW)

    def start(self):
        # 入力ファイルを二つ開く
        in_file1 = filedialog.askopenfilename(title = "人物の動画",
            filetypes = (("movie files","*.mp4"),("all files","*.*")))
        in_file2 = filedialog.askopenfilename(title = "背景の動画",
            filetypes = (("movie files","*.mp4"),("all files","*.*")))
        # 出力ファイルを開く
        out_file = filedialog.asksaveasfilename(title = "Select file",
            filetypes = (("movie files","*.avi"),))
        # 別スレッドで実行する
        thread = threading.Thread(target=proc_movie,
                    args=(in_file1,in_file2,out_file,self.message,
                            self.canvas1,self.canvasID1,
                            self.canvas2,self.canvasID2,
                            self.canvas3,self.canvasID3,
                            self.canvas4,self.canvasID4))
        thread.start()

# 画面いっぱいにウィンドウを作成する
win = Tk()
#win.geometry('670x320') # ウィンドウの大きさ
win.geometry('670x510') # ウィンドウの大きさ
#frame = MyFrame(win, width=640, height=320) # フレーム
frame = MyFrame(win, width=640, height=510) # フレーム
frame.pack(side=TOP) # ウィンドウに配置

win.mainloop() # 処理を開始

# スレッドの終了を待つ
IS_RUN = False

↑