PyTorch2

PyTorch ではじめる AI開発 2 †

　「使用シーンが限定される AI」を PyTorch を使って作成し機械学習の手順を実行してみる。

PyTorch ではじめる AI開発 2
CHAPTER 02 定点カメラの映像を認識する
参考資料

※ 最終更新:2021/10/20　

CHAPTER 02 定点カメラの映像を認識する †

　PC に接続したカメラデバイスを定点カメラとして運用して、カメラの視界に人物が写っているかを判定する AI を作成する。
　ニューラルネットワークのトレーニング（学習）と、作成したニューラルネットワーク（学習済みモデル）を使用してカメラからの映像をリアルタイムで認識するプログラムを作成する。

↑

SECTION-004 学習データを準備する †

定点カメラからの映像を認識するような「使用シーンが限定される AI」を作成する場合、一般公開されているデータセットとは異なり、限定された状況で作成されたデータセットを AI の学習に使用することになる。

シーンが限定されるデータは、多くの場合はデータの個数もバリエーションも一般的な大規模データセットに比べると少ないものになる。
従ってゼロから作成したデータセットのみで学習するのは現実的でない。そこで大規模データセットで学習されたモデルをもとに、特定の定点カメラからの映像に特化した専用のモデルを作成する。

このような、別の目的のために作成されたモデルをもとにして異なる目的のモデルを作成するテクニックを「転移学習」と呼ぶ。
転移学習の中でも元のモデルの一部のみを変更して別のモデルを作成することを「ファインチューニング」という。

ニューラルネットワークの学習手順を再現するため、学習データとして、著者があらかじめ用意した加工済みのサンプルデータセットを使用する。
従って出来上がった学習済みモデルは、著者が動画を撮影した同じ場所で作られたサンプル動画でのみ検証可能となる。
新たな環境に設置した定点カメラの映像を認識する場合は、設置予定場所にカメラを設置し新たにデータセットを作成するところから始める必要がある。

↑

サンプルのデータセットの準備 †

　下記の場所からダウンロードできる。

GitHub

Kaggle

● Kaggle からダウンロードするには、Kaggle のアカウントを作成する必要がある。
● https://www.kaggle.com/ にアクセスしてアカウント登録後上記サイトにアクセスする。

↑

forest-path-movie-dataset (GitHubより) †

　このデータセットについて

公園内の散策路に設置された定点カメラの映像からなるデータセットです。映像は、1日の異なる時間帯（昼間、夕暮れ時、深夜）に撮影され、映像は36～456フレームの長さのシーンに分割されました。
それぞれのシーンには、人がいるかどうかでタグが付けられています。
散策路の中を人が移動するので、フレームによっては、木の陰に隠れてカメラから消えてしまうこともあります。そのため、必要に応じてローパスフィルタを適用する必要があります。
時間帯によっては、光量が足りず、映像がノイジーです。特に深夜はシーンによっては決定的に光量が不足しており、人物の特定が困難になります。
映像に映っている人物の肖像権は放棄されています。

↑

データセットの展開と配置 †

ダウンロードしたファイルを展開する

(py37) $ cd ~/workspace_py37
(py37) $ mkdir forest-path-movie-dataset
(py37) $ cd forest-path-movie-dataset
(py37) $ mv ~/ダウンロード/archive.zip ./
(py37) $ unzip archive.zip
(py37) $ ls
all_file.csv  archive.zip  scene.csv  scenes
(py37) $ ls scenes
scene-001  scene-016  scene-031  scene-046  scene-061  scene-076  scene-091
scene-002  scene-017  scene-032  scene-047  scene-062  scene-077  scene-092
scene-003  scene-018  scene-033  scene-048  scene-063  scene-078  scene-093
scene-004  scene-019  scene-034  scene-049  scene-064  scene-079  scene-094
scene-005  scene-020  scene-035  scene-050  scene-065  scene-080  scene-095
scene-006  scene-021  scene-036  scene-051  scene-066  scene-081  scene-096
scene-007  scene-022  scene-037  scene-052  scene-067  scene-082  scene-097
scene-008  scene-023  scene-038  scene-053  scene-068  scene-083  scene-098
scene-009  scene-024  scene-039  scene-054  scene-069  scene-084  scene-099
scene-010  scene-025  scene-040  scene-055  scene-070  scene-085  scene-100
scene-011  scene-026  scene-041  scene-056  scene-071  scene-086
scene-012  scene-027  scene-042  scene-057  scene-072  scene-087
scene-013  scene-028  scene-043  scene-058  scene-073  scene-088
scene-014  scene-029  scene-044  scene-059  scene-074  scene-089
scene-015  scene-030  scene-045  scene-060  scene-075  scene-090

作業用ディレクトリの作成

(py37) $ mkdir ~/workspace_py37/chapter02

↑

学習データの作成手順 †

著者の用意したデータセットを利用することで、下記の時間のかかる作業を省略した。

カメラを設置して録画
・定点カメラを設置する予定の場所に、カメラを設置して動画を撮影する。
・録画には実際に認識したい物体（人物など）が写っているシーンが含まれている必要がある。
・屋外設置のカメラの場合は気象条件など撮影条件の変化の影響を受けるのでできるだけ長い時間で時間帯などを変えながら複数の撮影を行う。
シーンを動画に分割
・動画内の目的の物体が写っているシーンを一続きの部分として時間を指定して切り出す。
・物体の写っていないシーンも連続して写っていない短い動画として切り出す。
(例）シーン動画「movie1.mp4」30秒時点から40秒時点までの10秒間をを「scene001.mp4」として切り出す場合
```
$ ffmpeg -ss 30 -i movie1.mp4 -t 10 scene001.mp4
```
動画から画像を抽出・シーンごとごとにディレクトリを作成しシーン動画内すべてのフレームを jpeg ファイルとしてそのディレクトリに書き出す。
(例）シーン動画「scene001.mp4」のフレームをディレクトリ「scene-001」下に保存する場合
```
$ mkdir scene-001
$ ffmpeg -i scene001.mp4 -f image2 scene-001/%03d.jpg
```
撮影した動画内のすべてのシーンに対して上記の処理をする。
・全シーンに対応するディレクトリを作成したら「scenes」ディレクトリ内に保存する。
データのタグ付け・各シーン内のファイルに対する正解データ「all_file.csv」を作成する。
・データフィールドは「画像ファイル名」「シーンの名称」「物体が写っているか（0 or 1）」「撮影時間帯」
・撮影時間帯は明るさによる認識率の違いを判定するために使用し、日中・夕方・夜間の時間帯に対応して「daytime」「twilight」「midnight」とする。
```
$ vi all_file.csv
file,scene,person,when
scenes/scene-001/000.jpg,scene-001,0,daytime
scenes/scene-001/001.jpg,scene-001,0,daytime
scenes/scene-001/002.jpg,scene-001,0,daytime
scenes/scene-001/003.jpg,scene-001,0,daytime
    :
```

↑

使用するデータセット †

データセットの偏りについて

・Kaggle サイトでデータセット「forest path movie datase」の偏りを分析できる。

・「person」フィールドのデータの総個数「18940」1の数「12917 (68.2%)」0の数「6023 (31.8%)」
・0/1 の二値のラベルで、68.2% が 1 であるということは Accuracy（正解率）のスコアが 0.682 以下のモデルは実質意味を持たない。（全て1を返すモデルの正解率以下のため）

・学習時のパラメータによっては全て1を返すモデルや、全て0を返すモデルが作成されてしまうことがあるので、不均衡なデータセットの学習時には注意が必要。

↑

SECTION-005 PyTorch による学習 †

↑

学習プログラムの作成 †

書籍サイトからダウンロードしたサンプルデータ「~/workspace_py37/sample」からファイルコピーする。
作業ディレクトリ「~workspace_py37/chapter02/」に「chapt02_1.py」を「chapt02_1a.py」としてコピーする。
```
(py37) $ cd ~/workspace_py37/chapter02/
(py37) $ cp ../sample/chapt02/chapt02_1.py ./chapt02_1a.py
(py37) $ ls
chapt02_1a.py
```

データセットのディレクトリなどを編集する。

(py37) $ vi chapt02_1a.py 

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / Section 005
##       PyTorch による学習
##
##               2021.09.05 Masahiro Izutsu
##------------------------------------------
## chapt02_1a.py  (original: chapt02_1.py)

import numpy as np
import pandas as pd
import itertools
    :
    
# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'

# データがあるディレクトリ
#INPUT_DIR = 'forest-path-movie-dataset/'
INPUT_DIR = '../forest-path-movie-dataset/'     ## 2021.09.05
    :

学習のパラメータ

    :
# 学習時と評価時のバッチサイズ
BATCH_SIZE = 16
BATCH_SIZE_VALID = 4
# データの読み込みスレッドの数
NUM_WORKERS = 2
# 試行時の学習エポック数
NUM_EPOCHS = 3
# 評価で試す学習率
LR_TESTS = [1e-3,2e-4,5e-5]
# 試すウェイトは、人物の方が分散が大きいので、クラス1側を0.5より少なくする
WEIGHT_TESTS = [0.1,0.2,0.3,0.4,0.5]
    :

ソースコード

▼「chapt02_1a.py」

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / Section 005
##       PyTorch による学習
##
##               2021.09.05 Masahiro Izutsu
##------------------------------------------
## chapt02_1a.py  (original: chapt02_1.py)

import numpy as np
import pandas as pd
import itertools
import shutil
from PIL import Image
import os

import torch
from torch import nn, utils, optim
from torchvision import transforms, models
from sklearn.metrics import f1_score, accuracy_score
from sklearn.model_selection import train_test_split

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'

# データがあるディレクトリ
#INPUT_DIR = 'forest-path-movie-dataset/'
INPUT_DIR = '../forest-path-movie-dataset/'     ## 2021.09.05

# PyTorchの内部を決定論的に設定する
torch.backends.cudnn.deterministic = True
torch.backends.cudnn.benchmark = False

# 乱数を初期化する関数
def init_seed():
    np.random.seed(0)
    torch.manual_seed(0)

# 一時ディレクトリを作成
if not os.path.isdir('tmp'):
    os.mkdir('tmp')

# データセットの定義ファイルを読み込む
df = pd.read_csv(INPUT_DIR+'all_file.csv')

# シーン毎に分割するので、groupbyして取り出す
file, person = [], []
for g in df.groupby(df.scene):
    file.append(g[1].file.values.tolist())
    person.append(g[1].person.values.tolist())

# シーン毎に学習用と評価用データに分ける
train_X, test_X, train_y, test_y = train_test_split(file, person, test_size=0.3, random_state=0)

# 全てのシーン内のデータを繋げた配列にする
train_X = sum(train_X, [])
train_y = sum(train_y, [])
test_X = sum(test_X, [])
test_y = sum(test_y, [])

# PyTorchの流儀でデータセットをクラスで定義する
class MyDataset:
    def __init__(self, X, y, valid=False):
        # 初期化 Xはファイル名のリスト、yは人物が写っているかどうかのリスト
        self.X = X
        self.y = y
        if not valid: # 学習用ならDAを含んだtransoformを作る
            trans = [
                transforms.Resize((224,224)),
                transforms.ColorJitter(brightness=1.0),
                transforms.RandomGrayscale(0.1),
                transforms.ToTensor(),
                transforms.RandomErasing(),
                transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                 std=[0.229, 0.224, 0.225])
            ]
        else: # 評価時にはDAを含まないtransoformを作る
            trans = [
                transforms.Resize((224,224)),
                transforms.ToTensor(),
                transforms.Normalize(mean=[0.485, 0.456, 0.406],
                                     std=[0.229, 0.224, 0.225])
            ]
        self.trans = transforms.Compose(trans)

    def __len__(self):
        # データセットの長さを返す
        return len(self.X)

    def __getitem__(self, pos):
        # posの場所にあるデータを返す
        f = INPUT_DIR + self.X[pos] # ファイルパス
        X = Image.open(f) # ファイルを読み込む
        X = self.trans(X) # DAしてtensorにする
        y = self.y[pos]
        return X, y

def get_model(): # ニューラルネットワークのモデルを返す関数
    # ModelZOOからモデルをダウンロードして最後の層だけを入れ替える
    model = models.resnet50(pretrained=True)
    model.fc = nn.Linear(2048, 2) # 出力の数＝2にする
    model = model.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる
    return model

def get_optim(model, lr): # 勾配降下法のアルゴリズムを返す関数
    params = model.parameters() # 学習させるパラメーター
    optimizer = optim.SGD(params, lr=lr,  momentum=0.9) # 学習率を設定
    return optimizer

def get_loss(weight): # 損失関数を返す関数
    # 不均衡なデータを学習させるために、クラス毎のウェイトを設定する
    weight = torch.tensor([1.0-weight,weight], dtype=torch.float)
    weight = weight.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる
    loss = nn.CrossEntropyLoss(weight=weight) # ウェイト付きのCrossEntropy
    return loss

def get_score(true_valid, pred_valid): # 評価スコアを返す関数
    # 評価スコアは、全体の他に時間帯毎にも作成するのでディクショナリを用意する
    timezone = {'daytime':([],[]),'twilight':([],[]),'midnight':([],[])}
    # 認識結果を時間帯毎に仕分けする
    for i, filename in enumerate(test_X):
        w = df[df.file==filename].when.values[0]
        timezone[w][0].append(true_valid[i])
        timezone[w][1].append(pred_valid[i])
    # 時間帯毎のF1スコアをディクショナリに入れる
    score = {k:f1_score(v[0], v[1]) for k,v in timezone.items()}
    # 全体のF1スコアをディクショナリに入れる
    score['total'] = f1_score(true_valid, pred_valid)
    # 認識が極端に偏ってないか見るために、認識値の平均も求める
    score['average'] = np.mean(pred_valid)
    return score

# 学習時と評価時のバッチサイズ
BATCH_SIZE = 16
BATCH_SIZE_VALID = 4
# データの読み込みスレッドの数
NUM_WORKERS = 2
# 試行時の学習エポック数
NUM_EPOCHS = 3
# 評価で試す学習率
LR_TESTS = [1e-3,2e-4,5e-5]
# 試すウェイトは、人物の方が分散が大きいので、クラス1側を0.5より少なくする
WEIGHT_TESTS = [0.1,0.2,0.3,0.4,0.5]

# 学習用と評価用にデータセットを作る
train_ds = MyDataset(train_X, train_y)
test_ds = MyDataset(test_X, test_y, True)

# 複数スレッドでファイルを読み込みつつデータを取り出すDataLoaderを作る
data_loader = utils.data.DataLoader(
    train_ds, batch_size=BATCH_SIZE, shuffle=True, num_workers=NUM_WORKERS)
data_loader_v = utils.data.DataLoader(
    test_ds, batch_size=BATCH_SIZE_VALID, shuffle=False, num_workers=NUM_WORKERS)

# 試行時の最も評価が良かったスコアのリスト
best_scores = []
# 学習率とウェイトを変えながら試行する
for t, (lr, weight) in enumerate(itertools.product(LR_TESTS, WEIGHT_TESTS)):
    # 試行毎に乱数を初期化してからニューラルネットワークを作成する
    init_seed()
    model = get_model() # ニューラルネットワークを作成
    # 学習のためのアルゴリズムを取得
    optimizer = get_optim(model, lr)
    loss = get_loss(weight)

    # 現在の学習率とウェイトで試行する
    print(f'test #{t} lr={lr} weight={weight}')
    scores = [] # 各エポック終了時のスコア

    # 学習ループ
    for epoch in range(NUM_EPOCHS):
        total_loss = [] # 各バッチ実行時の損失値
        model.train() # モデルを学習用に設定する
        for X, y in data_loader: # 画像を読み込んでtensorにする
            X = X.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる
            y = y.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる

            # ニューラルネットワークを実行して損失値を求める
            losses = loss(model(X), y)

            # 新しいバッチ分の学習を行う
            optimizer.zero_grad() # 一つ前の勾配をクリア
            losses.backward() # 損失値を逆伝播させる
            optimizer.step() # 新しい勾配からパラメーターを更新する

            # 損失値を保存しておく
            total_loss.append(losses.detach().cpu().numpy())

        # 評価
        with torch.no_grad():
            # 評価時の損失値と正解/認識結果を入れるリスト
            total_loss_v = []
            true_valid = []
            pred_valid = []

            model.eval() # モデルを推論用に設定する
            for i, (X, y) in enumerate(data_loader_v):
                X = X.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる
                y = y.to(USE_DEVICE) # GPUを使うときはGPUメモリ上に乗せる

                res = model(X) # ニューラルネットワークの実行
                losses = loss(res, y) # 評価データの損失値

                # 正解データを保存
                y = y.detach().cpu().numpy() # CPUメモリに入れてnumpy化
                true_valid.extend(y.tolist())
                # 認識結果を保存
                res = res.detach().cpu().numpy() # CPUメモリに入れてnumpy化
                pred_valid.extend(res.argmax(axis=1).tolist())

                # 損失値を保存しておく
                total_loss_v.append(losses.detach().cpu().numpy())

        # エポック終了時のスコアを求める
        total_loss = np.mean(total_loss) # 各バッチの損失の平均
        total_loss_v = np.mean(total_loss_v) # 各バッチの損失の平均
        score = get_score(true_valid, pred_valid) # 評価スコア
        scores.append(score['total']) # スコアを保存しておく
        # エポック終了時のスコアを表示する
        print(f'epoch #{epoch}: train_loss:{total_loss} valid_loss:{total_loss_v} score:{score}')
        # エポック終了時のモデルを保存しておく
        torch.save(model.state_dict(), f'tmp/checkpoint{epoch}.pth')

    # 現在の学習率とウェイトで最も良かったモデルをコピーして保存しておく
    best_epoch = np.argmax(scores)
    shutil.copyfile(f'tmp/checkpoint{best_epoch}.pth',f'tmp/test{t}_best.pth')
    # 現在の学習率とウェイトで最も良かったモデルを損失値しておく
    best_scores.append(scores[best_epoch])

    # GPUメモリをGCする
    del model, optimizer, loss, X, y, res, losses
    torch.cuda.empty_cache()

# 最も良かった学習率とウェイトでのモデルをコピーする
best_of_best = np.argmax(best_scores)
shutil.copyfile(f'tmp/test{best_of_best}_best.pth', 'chapt02-model1.pth')

# 一時ディレクトリを削除
shutil.rmtree('tmp')

※ 畳み込みニューラルネットワークの全結合層は、使用するモデルによって入力数や変数の名前が異なる。
　モデルの入力数や名前は TorchVision のソースコードを参照のこと。

↑

学習プログラムの実行 †

ニューラルネットワークの学習

(py37) $ python3 chapt02_1a.py 
Downloading: "https://download.pytorch.org/models/resnet50-19c8e357.pth" to /home/mizutu/.cache/torch/hub/checkpoints/resnet50-19c8e357.pth
100%|██████████████████████████████████████| 97.8M/97.8M [00:02<00:00, 37.0MB/s]
test #0 lr=0.001 weight=0.1
epoch #0: train_loss:0.2363504022359848 valid_loss:0.5292516350746155 score:{'daytime': 0.9271425043220548, 'twilight': 0.6267166042446941, 'midnight': 0.8371361132966169, 'total': 0.8636363636363635, 'average': 0.6363470319634703}
    :
    :

実行時間の予測
・CPU の場合上記の 1epoch に約1時間
学習率（3通り）× ウエイト（5種類）× エポック数（3）＝学習回数（45）
1学習に要する時間（約1時間）× 学習回数（45）＝約 45時間

実行結果

test	ir	weight	epoch	train_loss	valid_loss	score
test	ir	weight	epoch	train_loss	valid_loss	daytime	twilight	midnight	total	average
#0	0.001	0.1	#0	0.2364	0.5293	0.9271	0.6267	0.8371	0.8636	0.6363
			#1	0.1103	0.8016	0.7756	0.6842	0.9072	0.8105	0.7434
			#2	0.0990	0.9960	0.8125	0.5770	0.9149	0.8242	0.7653
#1	0.001	0.2	#0	0.2872	0.3695	0.8881	0.6651	0.9159	0.8747	0.7262
			#1	0.1352	0.7838	0.8192	0.7269	0.9098	0.8398	0.7833
			#2	0.0989	1.0708	0.8182	0.6981	0.9146	0.8379	0.7742
#2	0.001	0.3	#0	0.3019	0.3734	0.9031	0.6618	0.9529	0.8964	0.7288
			#1	0.1490	1.0838	0.8097	0.6520	0.9305	0.8347	0.7868
			#2	0.1064	1.2363	0.8180	0.6051	0.9048	0.8241	0.7752
#3	0.001	0.4	#0	0.2919	0.6846	0.8287	0.6301	0.9120	0.8377	0.7640
			#1	0.1367	0.8502	0.8230	0.7028	0.9618	0.8587	0.7909
			#2	0.1069	1.2713	0.8124	0.6369	0.9326	0.8359	0.7918
#4	0.001	0.5	#0	0.2636	0.5122	0.8365	0.6950	0.9023	0.8464	0.8093
			#1	0.1329	0.7969	0.8013	0.6094	0.9519	0.8358	0.7521
			#2	0.0988	0.5957	0.7949	0.7269	0.9501	0.8411	0.7763
#5	0.0002	0.1	#0	0.3702	0.4491	0.9492	0.4980	0.8862	0.8779	0.5604
			#1	0.1707	0.5217	0.8722	0.5951	0.9050	0.8556	0.7003
			#2	0.1280	0.5248	0.8477	0.5987	0.9132	0.8455	0.7297
#6	0.0002	0.2	#0	0.4198	0.3595	0.9570	0.5725	0.9143	0.8987	0.5858
			#1	0.1922	0.6013	0.8128	0.6217	0.9338	0.8355	0.7637
			#2	0.1418	0.4839	0.8427	0.6529	0.9570	0.8645	0.7140
#7	0.0002	0.3	#0	0.4340	0.3080	0.9749	0.5977	0.9069	0.9079	0.5987
			#1	0.1956	0.6520	0.8160	0.6778	0.9460	0.8462	0.7885
			#2	0.1433	0.5778	0.8214	0.6553	0.9409	0.8462	0.7397
#8	0.0002	0.4	#0	0.4266	0.2868	0.9634	0.6075	0.9451	0.9179	0.6457
			#1	0.1979	0.6624	0.8186	0.6570	0.9425	0.8446	0.7832
			#2	0.1425	0.5556	0.8098	0.6387	0.9582	0.8455	0.7145
#9	0.0002	0.5	#0	0.4089	0.2883	0.9430	0.6222	0.9555	0.9120	0.6080
			#1	0.1903	0.6060	0.8101	0.6792	0.9477	0.8437	0.7839
			#2	0.1368	0.5368	0.7882	0.6556	0.9598	0.8364	0.7388
#10	5e-05	0.1	#0	0.4840	1.1392	0.0	0.0	0.0	0.0	0.0
			#1	0.4038	0.8005	0.6384	0.3294	0.5691	0.5747	0.2911
			#2	0.3025	0.5715	0.8955	0.3789	0.8248	0.8155	0.4921
#11	5e-05	0.2	#0	0.6004	0.7843	0.3683	0.2360	0.4609	0.3817	0.2079
			#1	0.4419	0.4972	0.8996	0.4021	0.8267	0.8173	0.5202
			#2	0.3042	0.3926	0.9357	0.5370	0.8837	0.8726	0.5547
#12	5e-05	0.3	#0	0.6308	0.6395	0.7414	0.3072	0.8011	0.7050	0.4411
			#1	0.4462	0.4217	0.9071	0.4246	0.8745	0.8339	0.5925
			#2	0.3083	0.3457	0.9454	0.5681	0.8962	0.8852	0.5730
#13	5e-05	0.4	#0	0.6199	0.5721	0.8675	0.4716	0.9032	0.8262	0.6135
			#1	0.4384	0.3947	0.9005	0.5246	0.8873	0.8431	0.6363
			#2	0.3058	0.3231	0.9396	0.5721	0.9142	0.8890	0.5929
#14	5e-05	0.5	#0	0.5846	0.5441	0.8328	0.7121	0.8860	0.8349	0.8163
			#1	0.4284	0.3733	0.8775	0.5929	0.9288	0.8545	0.6957
			#2	0.3038	0.3107	0.9331	0.6041	0.9247	0.8903	0.6111

▼　実行ログ

(py37) $ python3 chapt02_1a.py 
Downloading: "https://download.pytorch.org/models/resnet50-19c8e357.pth" to /home/mizutu/.cache/torch/hub/checkpoints/resnet50-19c8e357.pth
100%|██████████████████████████████████████| 97.8M/97.8M [00:02<00:00, 37.0MB/s]
test #0 lr=0.001 weight=0.1
epoch #0: train_loss:0.2363504022359848 valid_loss:0.5292516350746155 score:{'daytime': 0.9271425043220548, 'twilight': 0.6267166042446941, 'midnight': 0.8371361132966169, 'total': 0.8636363636363635, 'average': 0.6363470319634703}
epoch #1: train_loss:0.11029258370399475 valid_loss:0.8016409873962402 score:{'daytime': 0.7756294964028777, 'twilight': 0.6842105263157895, 'midnight': 0.9072011878247959, 'total': 0.8104788167460516, 'average': 0.7433789954337899}
epoch #2: train_loss:0.09903263300657272 valid_loss:0.9959533214569092 score:{'daytime': 0.8124594419208306, 'twilight': 0.5769728331177232, 'midnight': 0.9148778682457439, 'total': 0.824154112126451, 'average': 0.765296803652968}
test #1 lr=0.001 weight=0.2
epoch #0: train_loss:0.2872437536716461 valid_loss:0.36953264474868774 score:{'daytime': 0.8881003075467234, 'twilight': 0.6650544135429263, 'midnight': 0.9159010600706714, 'total': 0.8746829020801623, 'average': 0.7262100456621005}
epoch #1: train_loss:0.1351834386587143 valid_loss:0.7838091254234314 score:{'daytime': 0.8191930207197383, 'twilight': 0.7268518518518519, 'midnight': 0.9097525473071324, 'total': 0.8398194461388312, 'average': 0.78337899543379}
epoch #2: train_loss:0.09891653060913086 valid_loss:1.0707920789718628 score:{'daytime': 0.8182413266419376, 'twilight': 0.6981132075471699, 'midnight': 0.914580265095729, 'total': 0.8378544249416963, 'average': 0.7742465753424658}
test #2 lr=0.001 weight=0.3
epoch #0: train_loss:0.3018871545791626 valid_loss:0.3733811676502228 score:{'daytime': 0.9030858244937319, 'twilight': 0.6618004866180048, 'midnight': 0.9528688524590165, 'total': 0.8964294758166624, 'average': 0.7287671232876712}
epoch #1: train_loss:0.14893406629562378 valid_loss:1.083849549293518 score:{'daytime': 0.8097497842968076, 'twilight': 0.6519607843137255, 'midnight': 0.9305354558610709, 'total': 0.8347127555988315, 'average': 0.7868493150684932}
epoch #2: train_loss:0.10644236952066422 valid_loss:1.2363388538360596 score:{'daytime': 0.8179638107695661, 'twilight': 0.605080831408776, 'midnight': 0.9047795479807336, 'total': 0.8240922473012757, 'average': 0.7751598173515982}
test #3 lr=0.001 weight=0.4
epoch #0: train_loss:0.291884183883667 valid_loss:0.6846925616264343 score:{'daytime': 0.8286604361370717, 'twilight': 0.6301369863013699, 'midnight': 0.9119541875447388, 'total': 0.8377209244839945, 'average': 0.7640182648401826}
epoch #1: train_loss:0.13668787479400635 valid_loss:0.8501860499382019 score:{'daytime': 0.8229327453142227, 'twilight': 0.7028301886792453, 'midnight': 0.9618213660245184, 'total': 0.8587035688273853, 'average': 0.7908675799086758}
epoch #2: train_loss:0.1068500503897667 valid_loss:1.2713412046432495 score:{'daytime': 0.8123924268502583, 'twilight': 0.6369268897149938, 'midnight': 0.9325681492109038, 'total': 0.8358607303166323, 'average': 0.7917808219178082}
test #4 lr=0.001 weight=0.5
epoch #0: train_loss:0.2635954022407532 valid_loss:0.5121663808822632 score:{'daytime': 0.8364623388373671, 'twilight': 0.6950354609929078, 'midnight': 0.90234375, 'total': 0.8463844585681737, 'average': 0.8093150684931507}
epoch #1: train_loss:0.1329410970211029 valid_loss:0.7969106435775757 score:{'daytime': 0.8012762078395625, 'twilight': 0.6093552465233881, 'midnight': 0.9518791710572533, 'total': 0.8357837029653624, 'average': 0.7521461187214612}
epoch #2: train_loss:0.09879038482904434 valid_loss:0.5956724286079407 score:{'daytime': 0.7949175211769951, 'twilight': 0.7268518518518519, 'midnight': 0.9501424501424502, 'total': 0.8411375337092425, 'average': 0.776255707762557}
test #5 lr=0.0002 weight=0.1
epoch #0: train_loss:0.37016844749450684 valid_loss:0.44914811849594116 score:{'daytime': 0.9492371705963939, 'twilight': 0.49795918367346936, 'midnight': 0.8861911987860394, 'total': 0.8778669724770642, 'average': 0.560365296803653}
epoch #1: train_loss:0.17073862254619598 valid_loss:0.5217418670654297 score:{'daytime': 0.8721557588552662, 'twilight': 0.59514687100894, 'midnight': 0.9050445103857567, 'total': 0.8555928700594162, 'average': 0.7002739726027397}
epoch #2: train_loss:0.1279519945383072 valid_loss:0.5247925519943237 score:{'daytime': 0.8476580263756253, 'twilight': 0.5987261146496815, 'midnight': 0.913235294117647, 'total': 0.8455017082120714, 'average': 0.7296803652968037}
test #6 lr=0.0002 weight=0.2
epoch #0: train_loss:0.41980332136154175 valid_loss:0.359539657831192 score:{'daytime': 0.9570011025358324, 'twilight': 0.5725288831835688, 'midnight': 0.914327917282127, 'total': 0.8986647926914968, 'average': 0.5857534246575342}
epoch #1: train_loss:0.19217230379581451 valid_loss:0.6013468503952026 score:{'daytime': 0.8127772848269742, 'twilight': 0.6217228464419476, 'midnight': 0.9338129496402877, 'total': 0.8354555569291631, 'average': 0.7636529680365297}
epoch #2: train_loss:0.1417895406484604 valid_loss:0.4838775396347046 score:{'daytime': 0.8426911907066795, 'twilight': 0.6529126213592233, 'midnight': 0.9570080391471514, 'total': 0.8645260330049891, 'average': 0.7139726027397261}
test #7 lr=0.0002 weight=0.3
epoch #0: train_loss:0.43401992321014404 valid_loss:0.30795833468437195 score:{'daytime': 0.974912328028055, 'twilight': 0.5977301387137453, 'midnight': 0.9069247952345495, 'total': 0.9078764263846367, 'average': 0.5987214611872146}
epoch #1: train_loss:0.19555841386318207 valid_loss:0.6519783735275269 score:{'daytime': 0.8160243849335946, 'twilight': 0.6778443113772454, 'midnight': 0.9460135859849839, 'total': 0.8462006079027357, 'average': 0.7884931506849315}
epoch #2: train_loss:0.14327846467494965 valid_loss:0.577752411365509 score:{'daytime': 0.8214450069028991, 'twilight': 0.6552984165651644, 'midnight': 0.9408814045145109, 'total': 0.8461925106810757, 'average': 0.7397260273972602}
test #8 lr=0.0002 weight=0.4
epoch #0: train_loss:0.42663058638572693 valid_loss:0.2867547571659088 score:{'daytime': 0.9634443541835906, 'twilight': 0.6075, 'midnight': 0.945084745762712, 'total': 0.9179094451162166, 'average': 0.645662100456621}
epoch #1: train_loss:0.19792519509792328 valid_loss:0.6624035835266113 score:{'daytime': 0.8185598599255854, 'twilight': 0.6570048309178744, 'midnight': 0.9424794569489103, 'total': 0.8445583211322597, 'average': 0.7831963470319635}
epoch #2: train_loss:0.14250896871089935 valid_loss:0.5556091070175171 score:{'daytime': 0.809753742153549, 'twilight': 0.6386554621848739, 'midnight': 0.9581722319859401, 'total': 0.8455242966751919, 'average': 0.7145205479452055}
test #9 lr=0.0002 weight=0.5
epoch #0: train_loss:0.4088980257511139 valid_loss:0.288325697183609 score:{'daytime': 0.9430080622741174, 'twilight': 0.6222222222222222, 'midnight': 0.9554770318021202, 'total': 0.9119801022523145, 'average': 0.6080365296803653}
epoch #1: train_loss:0.19031976163387299 valid_loss:0.6059825420379639 score:{'daytime': 0.8101321585903084, 'twilight': 0.6792009400705054, 'midnight': 0.9476682093271628, 'total': 0.8436585365853658, 'average': 0.7839269406392694}
epoch #2: train_loss:0.13677962124347687 valid_loss:0.5368375182151794 score:{'daytime': 0.7881516587677725, 'twilight': 0.655621301775148, 'midnight': 0.9598337950138504, 'total': 0.8364139318496165, 'average': 0.7388127853881279}
test #10 lr=5e-05 weight=0.1
epoch #0: train_loss:0.4840039312839508 valid_loss:1.1392462253570557 score:{'daytime': 0.0, 'twilight': 0.0, 'midnight': 0.0, 'total': 0.0, 'average': 0.0}
epoch #1: train_loss:0.4037753939628601 valid_loss:0.8005108833312988 score:{'daytime': 0.638359121986326, 'twilight': 0.3293768545994066, 'midnight': 0.5690580771107857, 'total': 0.574700109051254, 'average': 0.29114155251141555}
epoch #2: train_loss:0.30253931879997253 valid_loss:0.5715116858482361 score:{'daytime': 0.8955049620548745, 'twilight': 0.3788546255506608, 'midnight': 0.8248496993987975, 'total': 0.8155104513783702, 'average': 0.49205479452054796}
test #11 lr=5e-05 weight=0.2
epoch #0: train_loss:0.6003655195236206 valid_loss:0.7843497395515442 score:{'daytime': 0.3682621819749892, 'twilight': 0.23600973236009734, 'midnight': 0.4608923884514436, 'total': 0.3816884661117717, 'average': 0.20785388127853882}
epoch #1: train_loss:0.4419252574443817 valid_loss:0.4971935451030731 score:{'daytime': 0.8996006845407872, 'twilight': 0.4021304926764315, 'midnight': 0.8267306922769108, 'total': 0.8173475429248075, 'average': 0.5201826484018265}
epoch #2: train_loss:0.3041668236255646 valid_loss:0.39260753989219666 score:{'daytime': 0.9356560831694297, 'twilight': 0.537037037037037, 'midnight': 0.8836501901140684, 'total': 0.8725701943844492, 'average': 0.5547031963470319}
test #12 lr=5e-05 weight=0.3
epoch #0: train_loss:0.6308048367500305 valid_loss:0.6395089626312256 score:{'daytime': 0.7413563829787232, 'twilight': 0.3071593533487298, 'midnight': 0.8011433238056349, 'total': 0.7050450735410406, 'average': 0.4410958904109589}
epoch #1: train_loss:0.4461800456047058 valid_loss:0.42170995473861694 score:{'daytime': 0.9070918086860912, 'twilight': 0.42464246424642454, 'midnight': 0.87447216890595, 'total': 0.8338926174496645, 'average': 0.5925114155251141}
epoch #2: train_loss:0.30833807587623596 valid_loss:0.34565457701683044 score:{'daytime': 0.9453839756029943, 'twilight': 0.5681233933161953, 'midnight': 0.8962406015037595, 'total': 0.8851667849538679, 'average': 0.5729680365296803}
test #13 lr=5e-05 weight=0.4
epoch #0: train_loss:0.6199387311935425 valid_loss:0.5720835328102112 score:{'daytime': 0.8675177304964539, 'twilight': 0.47164179104477616, 'midnight': 0.9031786627694556, 'total': 0.8262006329984862, 'average': 0.6135159817351599}
epoch #1: train_loss:0.43844908475875854 valid_loss:0.39474305510520935 score:{'daytime': 0.9005376344086022, 'twilight': 0.5245901639344263, 'midnight': 0.8872865275142315, 'total': 0.8430735930735931, 'average': 0.6363470319634703}
epoch #2: train_loss:0.3058253824710846 valid_loss:0.323168009519577 score:{'daytime': 0.9395936298736958, 'twilight': 0.5721455457967378, 'midnight': 0.9141804788213627, 'total': 0.8890131395023763, 'average': 0.5928767123287672}
test #14 lr=5e-05 weight=0.5
epoch #0: train_loss:0.5846045017242432 valid_loss:0.5440996885299683 score:{'daytime': 0.8328358208955224, 'twilight': 0.7120843471208435, 'midnight': 0.8860435339308579, 'total': 0.8349050972901995, 'average': 0.8162557077625571}
epoch #1: train_loss:0.4284237325191498 valid_loss:0.3732976019382477 score:{'daytime': 0.8775032509752926, 'twilight': 0.5928571428571429, 'midnight': 0.9287790697674418, 'total': 0.8544771284177788, 'average': 0.6957077625570777}
epoch #2: train_loss:0.30378925800323486 valid_loss:0.310722678899765 score:{'daytime': 0.9330773450356554, 'twilight': 0.6041189931350114, 'midnight': 0.9246525237746891, 'total': 0.8902674386545356, 'average': 0.6111415525114156}

学習にかかった時間

機種	開始日時	終了日時	処理時間 (h:m)
GeForce GTX 1050 Ti Intel® Core™ i7-6700	10/12 19:01	10/13 00:09	05:08
DELL Latitude 7520 Intel® Core™ i7-1185G7 CPU	09/05 14:35	09/07 02:02	35:27
HP EliteDesk 800 Intel® Core™ i7-6700 CPU	09/05 11:00	09/07 05:15	41:55

出来上がった最もスコアの良い学習済みモデル

(py37) $ ls -l
合計 92172
-rw-rw-r-- 1 mizutu mizutu 94368495  9月  7 05:15 chapt02-model1.pth
-rw-rw-r-- 1 mizutu mizutu    10164  9月  5 11:18 chapt02_1a.py

↑

SECTION-006 認識用プログラムの作成 †

↑

認識用プログラムの作成 †

書籍サイトからダウンロードしたサンプルデータ「~/workspace_py37/sample」からファイルコピーする。
作業ディレクトリ「~workspace_py37/chapter02/」に「chapt02_2.py」を「chapt02_2a.py」としてコピーする。
```
(py37) $ cd ~/workspace_py37/chapter02/
(py37) $ cp ../sample/chapt02/chapt02_2.py ./chapt02_2a.py
(py37) $ ls
chapt02-model1.pth  chapt02_1a.py  chapt02_2a.py
```

モデルファイル指定などを編集する。

(py37) $ vi chapt02_2a.py 

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / Section 006
##       PyTorch による学習
##
##               2021.09.07 Masahiro Izutsu
##------------------------------------------
## chapt02_2a.py  (original: chapt02_2.py)

import numpy as np
from PIL import Image, ImageTk
import cv2
    :

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'
# アプリケーションが実行中かどうか
IS_RUN = True

# 保存しておいたモデルを読み込む
model = models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 2)
model.load_state_dict(torch.load('chapt02-model1.pth', map_location=torch.device(USE_DEVICE)))
    :

「forest path movie dataset」用のサンプルを利用する

    :
    def __init__(self, parent, **params):
        Frame.__init__(self, parent, params)
#        # OpenCVのカメラキャプチャーを用意する
#        self.cap = cv2.VideoCapture(0)
        ## 2021.09.07
        #「forest path movie dataset」用のサンプルを利用する
        self.cap = cv2.VideoCapture('../sample/chapt02/chapt02-sample.mp4')

    :

ソースコード

▼「chapt02_2a.py」

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / Section 006
##       PyTorch による学習
##
##               2021.09.07 Masahiro Izutsu
##------------------------------------------
## chapt02_2a.py  (original: chapt02_2.py)

import numpy as np
from PIL import Image, ImageTk
import cv2
from time import time, sleep
from tkinter import Tk, NW, TOP, Frame, Canvas, Label, StringVar
import tkinter as tk
import tkinter.font as tkFont
import threading

import torch
from torch import nn
from torchvision import transforms, models

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'
# アプリケーションが実行中かどうか
IS_RUN = True

# 保存しておいたモデルを読み込む
model = models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 2)
model.load_state_dict(torch.load('chapt02-model1.pth', map_location=torch.device(USE_DEVICE)))
# モデルを推論用に設定する
model.eval()

# 画像を正規化するtransformを用意しておく
trans = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

# Tkで表示するフレーム
class MyFrame(Frame):
    def __init__(self, parent, **params):
        Frame.__init__(self, parent, params)
#        # OpenCVのカメラキャプチャーを用意する
#        self.cap = cv2.VideoCapture(0)
        ## 2021.09.07
        #「forest path movie dataset」用のサンプルを利用する
        self.cap = cv2.VideoCapture('../sample/chapt02/chapt02-sample-a.mp4')

        # 画像の表示場所を作成する
        self.image = Image.new('RGB',(320,240),(0,0,0))
        self.imgtk = ImageTk.PhotoImage(self.image)
        self.canvas = Canvas(self, width=320, height=240, bg='black')
        self.canvas.place(x=20,y=20)
        self.canvas.create_image(0,0,image=self.imgtk,anchor=NW,tag='i')
        # 認識結果の表示場所を作成する
        myfont = tkFont.Font(family="Noto Sans CJK JP", size=10, weight="bold")
        self.message = StringVar()
        self.message.set('')
        self.label = Label(self, textvariable=self.message, font=myfont, justify=tk.LEFT)
        self.label.place(x=360,y=20)

    def updateFrame(self):
        # OpenCVでカメラからキャプチャーする
        ret, frame = self.cap.read()
        # OpenCVのBGRをRGBにする
        frame = frame[:,:,::-1]
        # 画像を表示させる
        self.image = Image.fromarray(frame)
        self.imgtk = ImageTk.PhotoImage(self.image.resize((320,240)))
        self.canvas.itemconfigure(tagOrId='i', image=self.imgtk)
        # 0.1秒後に再び更新する
        self.after(100, self.updateFrame)

# ニューラルネットワークを実行するスレッド
def detect(frame):
    global IS_RUN
    n_pred = 0
    s_time = time()
    with torch.no_grad():
        # アプリケーションの実行中は無限ループ
        while IS_RUN:
            # キャプチャー速度に合わせて最大fpsを調整する
            a_time = time()
            # 現在のキャプチャ画像を取得してtensorにする
            tensor = trans(frame.image)
            # バッチサイズ＝1の形式にする
            batch_tensor = tensor.view(1,3,224,224)
            batch_tensor = batch_tensor.to(USE_DEVICE)
            # ニューラルネットワークを実行する
            batch_result = model(batch_tensor)
            # バッチ内から結果を取得する
            result = batch_result.detach().cpu()
            result = result[0]
            # メッセージを更新する
            if IS_RUN:
                n_pred += 1
                fps = n_pred / (time() - s_time)
                # 結果からクラスの確率の高い方を認識とする
                predict = '誰もいない' if result[0] > result[1] else '歩行者あり'
                # 表示メッセージ
                message = f'''認識結果：{predict}
                \n出力値0: {result[0]}
                \n出力値1: {result[1]}
                \n認識実行回数 = {n_pred}
                \n認識速度 = {fps} fps'''
                # UI上に表示する
                frame.message.set(message)
                # 0.1秒以下だったらその分待つ
                deltime = (time() - a_time)
                if deltime < 0.1:
                    sleep(0.1-deltime)

# 画面いっぱいにウィンドウを作成する
win = Tk()
win.geometry('800x360') # ウィンドウの大きさ
frame = MyFrame(win, width=800, height=360) # フレーム
frame.pack(side=TOP) # ウィンドウに配置
win.after_idle(frame.updateFrame) # 起動後にupdateFrameを呼び出す

detection = threading.Thread(target=detect, args=(frame,))
detection.start()

win.mainloop() # 処理を開始

# スレッドの終了を待つ
IS_RUN = False
detection.join()

↑

認識用プログラムの実行 †

(py37) mizutu@ubuntu-vbox:~/workspace_py37/chapter02$ python3 chapt02_2a.py 
[W NNPACK.cpp:80] Could not initialize NNPACK! Reason: Unsupported hardware.
Exception in Tkinter callback
Traceback (most recent call last):
  File "/home/mizutu/anaconda3/envs/py37/lib/python3.7/tkinter/__init__.py", line 1705, in __call__
    return self.func(*args)
  File "/home/mizutu/anaconda3/envs/py37/lib/python3.7/tkinter/__init__.py", line 749, in callit
    func(*args)
  File "chapt02_2a.py", line 68, in updateFrame
    frame = frame[:,:,::-1]
TypeError: 'NoneType' object is not subscriptable

サンプル画像「chapt02-sample.mp4」の不要部分をカットして短くした「chapt02-sample-a.mp4」を作成しテストする。

サンプル映像は20秒ほどで終了する。
・その後エラー表示は出る（上記）がそのままループしている。（後日調査）
・アプリケージョンの終了はウインドウの「閉じる×」ボタン。

↑

認識用プログラムを作り直す †

上記のプログラムが「tkinter」パッケージを利用したものなのでいつものやり方に作り直す。

(py37) $ cd ~/workspace_py37/chapter02/
(py37) $ cp ../sample/chapt02/chapt02_2a.py ./chapt02_2b.py
(py37) $ vi chapt02_2b.py

プログラムの実行

(py37) $ python3 chapt02_2b.py 

--- Surveillance camera ---
4.5.2

Surveillance camera: Starting application...
   - Image File   :  ../sample/chapt02/chapt02-sample-a.mp4
   - Language     :  jp
   - Program Title:  y
   - Speed flag   :  y
   - Processed out:  non
[W NNPACK.cpp:80] Could not initialize NNPACK! Reason: Unsupported hardware.

FPS average:       3.10

 Finished.

ソースコード

▼「chapt02_2b.py」

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / Section 006
##       PyTorch による学習
##
##               2021.09.07 Masahiro Izutsu
##------------------------------------------
## chapt02_2b.py  (original: chapt02_2.py)
## 2021.0917  tensor変換の修正

# Color Escape Code
GREEN = '\033[1;32m'
RED = '\033[1;31m'
NOCOLOR = '\033[0m'
YELLOW = '\033[1;33m'

# 定数定義
WINDOW_WIDTH = 640
BOX_COLOR_OK = (  0,255,   0)
BOX_COLOR_ER = (  0,  0, 255)
LABEL_BG_COLOR_OK = (  0, 180,   0)     # greyish green background for text
LABEL_BG_COLOR_ER = (  0,   0, 240)     # greyish red background for text
TEXT_COLOR = (255, 255, 255)            # white text
INPUT_DEF = '../sample/chapt02/chapt02-sample-a.mp4'
# import処理
import sys
import cv2
import numpy as np
import argparse
import myfunction
import mylib

import torch
from torch import nn
from torchvision import transforms, models
from PIL import Image

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'

# 保存しておいたモデルを読み込む
model = models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 2)
model.load_state_dict(torch.load('chapt02-model1.pth', map_location=torch.device(USE_DEVICE)))
# モデルを推論用に設定する
model.eval()

# 画像を正規化するtransformを用意しておく
trans = transforms.Compose([
    transforms.Resize((224,224)),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406],
                         std=[0.229, 0.224, 0.225])
])

# タイトル・バージョン情報
title = 'Surveillance camera'
print(GREEN)
print('--- {} ---'.format(title))
print(cv2.__version__)
print(NOCOLOR)

# Parses arguments for the application
def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('-i', '--image', metavar = 'IMAGE_FILE', type=str,
            default = INPUT_DEF,
            help = 'Absolute path to image file or cam for camera stream.')
    parser.add_argument('-l', '--language', metavar = 'LANGUAGE',
            default = 'jp',
            help = 'Language.(jp/en) Default value is \'jp\'')
    parser.add_argument('-t', '--title', metavar = 'TITLE',
            default = 'y',
            help = 'Program title flag.(y/n) Default value is \'y\'')
    parser.add_argument('-s', '--speed', metavar = 'SPEED',
            default = 'y',
            help = 'Speed display flag.(y/n) Default calue is \'y\'')
    parser.add_argument('-o', '--out', metavar = 'IMAGE_OUT',
            default = 'non',
            help = 'Processed image file path. Default value is \'non\'')
    return parser

# モデル基本情報の表示
def display_info(image, lang, titleflg, speedflg, outpath):
    print(YELLOW + title + ': Starting application...' + NOCOLOR)
    print('   - ' + YELLOW + 'Image File   : ' + NOCOLOR, image)
    print('   - ' + YELLOW + 'Language     : ' + NOCOLOR, lang)
    print('   - ' + YELLOW + 'Program Title: ' + NOCOLOR, titleflg)
    print('   - ' + YELLOW + 'Speed flag   : ' + NOCOLOR, speedflg)
    print('   - ' + YELLOW + 'Processed out: ' + NOCOLOR, outpath)

# 画像の種類を判別する
#   戻り値: 'jeg''png'... 画像ファイル
#           'None'        画像ファイル以外 (動画ファイル)
#           'NotFound'    ファイルが存在しない
import imghdr
def is_pict(filename):
    try:
        imgtype = imghdr.what(filename)
    except FileNotFoundError as e:
        imgtype = 'NotFound'
    return str(imgtype)

# ** main関数 **
def main():
    # 日本語フォント指定
    fontPIL = 'NotoSansCJK-Bold.ttc'

    # Argument parsing and parameter setting
    ARGS = parse_args().parse_args()
    input_stream = ARGS.image
    lang = ARGS.language
    titleflg = ARGS.title
    speedflg = ARGS.speed
    if ARGS.image.lower() == "cam" or ARGS.image.lower() == "camera":
        input_stream = 0
        isstream = True
    else:
        filetype = is_pict(input_stream)
        isstream = filetype == 'None'
        if (filetype == 'NotFound'):
            print(RED + "\ninput file Not found." + NOCOLOR)
            quit()
    outpath = ARGS.out
    
    # 判定ラベル
    if (lang == 'jp'):
        label = ('誰もいない！', '歩行者あり!')
    else:
        label = ('Nobody is here !!!', 'There are pedestrians')

    # 情報表示
    display_info(input_stream, lang, titleflg, speedflg, outpath)

    # 入力準備
    if (isstream):
        # カメラ 
        cap = cv2.VideoCapture(input_stream)
        ret, frame = cap.read()
        loopflg = cap.isOpened()
    else:
        # 画像ファイル読み込み
        frame = cv2.imread(input_stream)
        if frame is None:
            print(RED + "\nUnable to read the input." + NOCOLOR)
            quit()

        # アスペクト比を固定してリサイズ
        img_h, img_w = frame.shape[:2]
        if (img_w > WINDOW_WIDTH):
            height = round(img_h * (WINDOW_WIDTH / img_w))
            frame = cv2.resize(frame, dsize = (WINDOW_WIDTH, height))
        loopflg = True   # 1回ループ

    # 処理結果の記録 step1
    if (outpath != 'non'):
        if (isstream):
            fps = int(cap.get(cv2.CAP_PROP_FPS))
            out_w = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
            out_h = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
            fourcc = cv2.VideoWriter_fourcc('m', 'p', '4', 'v')
            outvideo = cv2.VideoWriter(outpath, fourcc, fps, (out_w, out_h))

    # 計測値初期化
    fpsWithTick = mylib.fpsWithTick()
    frame_count = 0
    fps_total = 0
    fpsWithTick.get()                       # fps計測開始

    # メインループ 
    while (loopflg):
        if frame is None:
            print(RED + "\nUnable to read the input." + NOCOLOR)
            quit()

        # 入力データフォーマットへ変換 
        frame_PIL = frame[:,:,::-1]         # OpenCV の BGRを RGBにする
        # 現在のキャプチャ画像を tensorにする
        image = Image.fromarray(frame_PIL)
#        print(type(frame_PIL))
#        print(type(image))
        tensor = trans(image)
        
        # バッチサイズ＝1の形式にする
        batch_tensor = tensor.view(1,3,224,224)
        batch_tensor = batch_tensor.to(USE_DEVICE)

        # ニューラルネットワークを実行する
        batch_result = model(batch_tensor)
        # バッチ内から結果を取得する
        result = batch_result.detach().cpu()
        result = result[0]

        if result[0] > result[1]:
            box_color = BOX_COLOR_OK
            label_bgcolor = LABEL_BG_COLOR_OK
            out_str = label[0]
        else:
            box_color = BOX_COLOR_ER
            label_bgcolor = LABEL_BG_COLOR_ER
            out_str = label[1]
        
        s0 = 'frame: {:5d}  '.format(frame_count)
        s1 = 'out0: {: 02.5f}  '.format(result[0])
        s2 = 'out1: {: 02.5f}'.format(result[1])
        out_str0 = s0 + s1 + s2
        cv2.rectangle(frame, (10, 58), (330, 75), (90, 90, 90), -1)
        cv2.putText(frame, out_str0, (15, 70), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.4, color=(255, 255, 255), lineType=cv2.LINE_AA)

        label_text_color = TEXT_COLOR
        cv2.rectangle(frame, (10, 88), (95, 105), label_bgcolor, -1)
        myfunction.cv2_putText(img = frame,
                               text = out_str,
                               org = (15, 104),
                               fontFace = fontPIL,
                               fontScale = 12,
                               color = label_text_color,
                               mode = 0)
        
        frame_count = frame_count + 1
        # FPSを計算する
        fps = fpsWithTick.get()
        st_fps = 'fps: {:>6.2f}'.format(fps)
        if (speedflg == 'y'):
            cv2.rectangle(frame, (10, 38), (95, 55), (90, 90, 90), -1)
            cv2.putText(frame, st_fps, (15, 50), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.4, color=(255, 255, 255), lineType=cv2.LINE_AA)

        # タイトル描画
        if (titleflg == 'y'):
            cv2.putText(frame, title, (12, 32), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.8, color=(0, 0, 0), lineType=cv2.LINE_AA)
            cv2.putText(frame, title, (10, 30), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.8, color=(200, 200, 0), lineType=cv2.LINE_AA)

        # 画像表示 
        window_name = title + "  (hit 'q' or 'esc' key to exit)"
        cv2.namedWindow(window_name, cv2.WINDOW_AUTOSIZE)
        cv2.imshow(window_name, frame)

        # 処理結果の記録 step2
        if (outpath != 'non'):
            if (isstream):
                outvideo.write(frame)
            else:
                cv2.imwrite(outpath, frame)

        # 何らかのキーが押されたら終了 
        breakflg = False
        while(True):
            key = cv2.waitKey(1)
            prop_val = cv2.getWindowProperty(window_name, cv2.WND_PROP_ASPECT_RATIO)
            if key == 27 or key == 113 or (prop_val < 0.0):     # 'esc' or 'q'
                breakflg = True
                break
            if (isstream):
                break

        if ((breakflg == False) and isstream):
            # 次のフレームを読み出す
            ret, frame = cap.read()
            if ret == False:
                break
            loopflg = cap.isOpened()
        else:
            loopflg = False

    # 終了処理 
    if (isstream):
        cap.release()

        # 処理結果の記録 step3
        if (outpath != 'non'):
            if (isstream):
                outvideo.release()

    cv2.destroyAllWindows()

    print('\nFPS average: {:>10.2f}'.format(fpsWithTick.get_average()))
    print('\n Finished.')

# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    sys.exit(main())

↑

OpenVINO™ を利用する †

　以下の手順で変換した学習モデルはうまく動作していない。2021/09/05
　正常に動作する手順は → OpenVINO™ を利用する（ONNXモデルコンバート検証）

↑

Pytorch の学習済みモデルを ONNX フォーマットに変換 †

変換メソッド

torch.onnx.export(net, input, output_name, verbose=True, input_names=input_layer_names, output_names=output_layer_names)

引数	意味
net	実行中のモデル
input	モデルの入力値
output_name	出力先のパス
verbose	変換中の細かいログを吐く(True/False)
input_names	モデルの入力値に関する表示名を指定
output_names	モデルの出力値に関する表示名を指定

ソースコード

▼「chapt02_3.py」

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / onnx convert
##       PyTorch による学習
##
##               2021.09.07 Masahiro Izutsu
##------------------------------------------
## chapt02_3.py

import numpy as np
import torch
from torch import nn
from torchvision import transforms, models

import torch.onnx as torch_onnx
from torch.autograd import Variable

# GPUを使うかどうか
USE_DEVICE = 'cuda:0' if torch.cuda.is_available() else 'cpu'

# 保存しておいたモデルを読み込む
model = models.resnet50(pretrained=False)
model.fc = nn.Linear(2048, 2)
model.load_state_dict(torch.load('chapt02-model1.pth', map_location=torch.device(USE_DEVICE)))
# モデルを推論用に設定する
model.eval()

# モデル出力のための設定
model_onnx_path = "chapt02-model1.onnx"         # 出力するモデルのファイル名
input_names = [ "input" ]                       # データを入力する際の名称
output_names = [ "output" ]                     # 出力データを取り出す際の名称

# ダミーインプットの作成
input_shape = (3, 224, 224)                     # 入力データの形式
batch_size = 1                                  # 入力データのバッチサイズ
dummy_input = torch.randn(batch_size, *input_shape) # ダミーインプット生成

# 変換実行！！
print('ONNX Convert start !!')
output = torch_onnx.export(model, dummy_input, model_onnx_path, verbose=False, input_names=input_names, output_names=output_names)

print('Finish !!')

Pytorch -> ONNX 変換

(py37) $ python3 chapt02_3.py 
ONNX Convert start !!
[W NNPACK.cpp:80] Could not initialize NNPACK! Reason: Unsupported hardware.
Finish !!
(py37) mizutu@ubuntu-vbox:~/workspace_py37/chapter02$ ls
chapt02-model1.onnx  chapt02_1a.py  chapt02_3.py
chapt02-model1.pth   chapt02_2a.py

↑

ONNX フォーマットを IR フォーマットに変換 †

新しく端末を開いて OpenVINO™ 環境を選択する。

[env_select.sh] Environment Select !!
  1: Nomal
  2: OpenVINO
  3: Anaconda
 Prease input '1-3' : 2
 ** OpenVINO environment select !! **

[openvino_setup.sh] OpenVINO environment initialized
    :

モデルオプティマイザーを使用してモデルをコンバートする。

$ cd ~/workspace_py37/chapter02/
$ ls
chapt02-model1.onnx  chapt02_1a.py  chapt02_3.py
chapt02-model1.pth   chapt02_2a.py
$ python3 /opt/intel/openvino_2021/deployment_tools/model_optimizer/mo.py --input_model chapt02-model1.onnx 
Model Optimizer arguments:
Common parameters:
    - Path to the Input Model:  /home/mizutu/workspace_py37/chapter02/chapt02-model1.onnx
    - Path for generated IR:    /home/mizutu/workspace_py37/chapter02/.
    - IR output name:   chapt02-model1
    - Log level:    ERROR
    - Batch:    Not specified, inherited from the model
    - Input layers:     Not specified, inherited from the model
    - Output layers:    Not specified, inherited from the model
    - Input shapes:     Not specified, inherited from the model
    - Mean values:  Not specified
    - Scale values:     Not specified
    - Scale factor:     Not specified
    - Precision of IR:  FP32
    - Enable fusing:    True
    - Enable grouped convolutions fusing:   True
    - Move mean values to preprocess section:   None
    - Reverse input channels:   False
ONNX specific parameters:
    - Inference Engine found in:    /opt/intel/openvino_2021/python/python3.8/openvino
Inference Engine version:   2021.4.0-3839-cd81789d294-releases/2021/4
Model Optimizer version:    2021.4.0-3839-cd81789d294-releases/2021/4
[ SUCCESS ] Generated IR version 10 model.
[ SUCCESS ] XML file: /home/mizutu/workspace_py37/chapter02/chapt02-model1.xml
[ SUCCESS ] BIN file: /home/mizutu/workspace_py37/chapter02/chapt02-model1.bin
[ SUCCESS ] Total execution time: 14.87 seconds. 
[ SUCCESS ] Memory consumed: 361 MB.

できたモデルをテストする。

$ cd ~/workspace/tools/
$ ls
model_check2.py  model_data.py
$ python3 model_check2.py -m ../../workspace_py37/chapter02/chapt02-model1.xml

--- Model Check Program 2 ---
4.5.3-openvino
OpenVINO inference_engine: 2021.4.0-3839-cd81789d294-releases/2021/4

Model Check Program 2: Starting application...
   - Model        :  ../../workspace_py37/chapter02/chapt02-model1.xml
   - Device       :  CPU
input blob: name='input', N=1, C=3, H=224, W=224

 Finished.

$ python3 model_data.py -m ../../workspace_py37/chapter02/chapt02-model1.xml

--- OpenVINO™ Model Data Check ---
4.5.3-openvino
OpenVINO inference_engine: 2021.4.0-3839-cd81789d294-releases/2021/4

OpenVINO™ Model Data Check: Starting application...
   - Model        :  ../../workspace_py37/chapter02/chapt02-model1.xml
   - Device       :  CPU
   - Image file   :  /home/mizutu/Images/photo4.jpg
input blob: name='input', N=1, C=3, H=224, W=224

>>> Inference execution...

 *** STER 1 ***
{'output': array([[-46.022556,  77.82302 ]], dtype=float32)}

 *** STER 2 ***
[[-46.022556  77.82302 ]]

 *** STER 3 ***
[-46.022556  77.82302 ]

 Finished.

　出力の値が違っている。 → ONNXモデルコンバート検証

↑

OpenVINO™ で認識プログラムを実行 †

認識用プログラムを実行する。

(py37) $ python3 chapt02_4.py 

--- Surveillance camera ---
4.5.2
OpenVINO inference_engine: 2021.4.0-3839-cd81789d294-releases/2021/4

Surveillance camera: Starting application...
   - Image File   :  ../sample/chapt02/chapt02-sample.mp4
   - m_detect     :  chapt02-model1.xml
   - Device       :  CPU
   - Language     :  jp
   - Input Shape  :  input
   - Output Shape :  output
   - Program Title:  y
   - Speed flag   :  y
   - Processed out:  non

FPS average:      12.50

 Finished.

ソースコード

▼「chapt02_4.py」

# -*- coding: utf-8 -*-
##------------------------------------------
## 「PyTorch で始める AI開発」
##   Chapter 02 / on OpenVINO
##       PyTorch による学習
##
##               2021.09.07 Masahiro Izutsu
##------------------------------------------
## chapt02_4.py

# Color Escape Code
GREEN = '\033[1;32m'
RED = '\033[1;31m'
NOCOLOR = '\033[0m'
YELLOW = '\033[1;33m'

# 定数定義
WINDOW_WIDTH = 640
BOX_COLOR_OK = (  0,255,   0)
BOX_COLOR_ER = (  0,  0, 255)
LABEL_BG_COLOR_OK = (  0, 180,   0)     # greyish green background for text
LABEL_BG_COLOR_ER = (  0,   0, 240)     # greyish red background for text
TEXT_COLOR = (255, 255, 255)            # white text
MODEL_DEF = 'chapt02-model1.xml'
INPUT_DEF = '../sample/chapt02/chapt02-sample-a.mp4'

# モジュール読み込み 
from openvino.inference_engine import IECore
from openvino.inference_engine import get_version

# import処理
import sys
import cv2
import numpy as np
import argparse
import myfunction
import mylib

# タイトル・バージョン情報
title = 'Surveillance camera'
print(GREEN)
print('--- {} ---'.format(title))
print(cv2.__version__)
print("OpenVINO inference_engine:", get_version())
print(NOCOLOR)


# Parses arguments for the application
def parse_args():
    parser = argparse.ArgumentParser()
    parser.add_argument('-i', '--image', metavar = 'IMAGE_FILE', type=str,
            default = INPUT_DEF,
            help = 'Absolute path to image file or cam for camera stream.')
    parser.add_argument('-m', '--m_detector', type=str,
            default = MODEL_DEF,
            help = 'Detector Path to an .xml file with a trained model.'
            'Default value is '+MODEL_DEF)
    parser.add_argument('-d', '--device', default = 'CPU', type=str,
            help = 'Optional. Specify a target device to infer on. CPU, GPU, FPGA, HDDL or MYRIAD is '
            'acceptable. The demo will look for a suitable plugin for the device specified. '
            'Default value is CPU')
    parser.add_argument('-l', '--language', metavar = 'LANGUAGE',
            default = 'jp',
            help = 'Language.(jp/en) Default value is \'jp\'')
    parser.add_argument('-t', '--title', metavar = 'TITLE',
            default = 'y',
            help = 'Program title flag.(y/n) Default value is \'y\'')
    parser.add_argument('-s', '--speed', metavar = 'SPEED',
            default = 'y',
            help = 'Speed display flag.(y/n) Default calue is \'y\'')
    parser.add_argument('-o', '--out', metavar = 'IMAGE_OUT',
            default = 'non',
            help = 'Processed image file path. Default value is \'non\'')
    return parser

# モデル基本情報の表示
def display_info(image, detector, device, lang, input_blob, out_blob, titleflg, speedflg, outpath):
    print(YELLOW + title + ': Starting application...' + NOCOLOR)
    print('   - ' + YELLOW + 'Image File   : ' + NOCOLOR, image)
    print('   - ' + YELLOW + 'm_detect     : ' + NOCOLOR, detector)
    print('   - ' + YELLOW + 'Device       : ' + NOCOLOR, device)
    print('   - ' + YELLOW + 'Language     : ' + NOCOLOR, lang)
    print('   - ' + YELLOW + 'Input Shape  : ' + NOCOLOR, input_blob)
    print('   - ' + YELLOW + 'Output Shape : ' + NOCOLOR, out_blob)
    print('   - ' + YELLOW + 'Program Title: ' + NOCOLOR, titleflg)
    print('   - ' + YELLOW + 'Speed flag   : ' + NOCOLOR, speedflg)
    print('   - ' + YELLOW + 'Processed out: ' + NOCOLOR, outpath)

# 画像の種類を判別する
#   戻り値: 'jeg''png'... 画像ファイル
#           'None'        画像ファイル以外 (動画ファイル)
#           'NotFound'    ファイルが存在しない
import imghdr
def is_pict(filename):
    try:
        imgtype = imghdr.what(filename)
    except FileNotFoundError as e:
        imgtype = 'NotFound'
    return str(imgtype)

# ** main関数 **
def main():
    # 日本語フォント指定
    fontPIL = 'NotoSansCJK-Bold.ttc'

    # Argument parsing and parameter setting
    ARGS = parse_args().parse_args()
    input_stream = ARGS.image
    lang = ARGS.language
    titleflg = ARGS.title
    speedflg = ARGS.speed
    if ARGS.image.lower() == "cam" or ARGS.image.lower() == "camera":
        input_stream = 0
        isstream = True
    else:
        filetype = is_pict(input_stream)
        isstream = filetype == 'None'
        if (filetype == 'NotFound'):
            print(RED + "\ninput file Not found." + NOCOLOR)
            quit()
    model_detector = ARGS.m_detector
    device = ARGS.device
    outpath = ARGS.out
    
    # 判定ラベル
    if (lang == 'jp'):
        label = ('誰もいない！', '歩行者あり!')
    else:
        label = ('Nobody is here !!!', 'There are pedestrians')

    # モデルの読み込み
    ie = IECore()
    net = ie.read_network(model = model_detector, weights = model_detector[:-4] + '.bin')
    exec_net = ie.load_network(network = net, device_name = device)

    # 入出力設定
    input_key = list(net.input_info.keys())[0]         # 入力データ・キー名
    input_blob_name  = net.input_info[input_key].name
    output_blob_name = next(iter(net.outputs))
    input_blob = net.input_info[input_blob_name].name
    out_blob = next(iter(net.outputs))
    n, c, h, w = net.input_info[input_blob].input_data.shape

    # 情報表示
    display_info(input_stream, model_detector, device, lang, input_blob, out_blob, titleflg, speedflg, outpath)

    # 入力準備
    if (isstream):
        # カメラ 
        cap = cv2.VideoCapture(input_stream)
        ret, frame = cap.read()
        loopflg = cap.isOpened()
    else:
        # 画像ファイル読み込み
        frame = cv2.imread(input_stream)
        if frame is None:
            print(RED + "\nUnable to read the input." + NOCOLOR)
            quit()

        # アスペクト比を固定してリサイズ
        img_h, img_w = frame.shape[:2]
        if (img_w > WINDOW_WIDTH):
            height = round(img_h * (WINDOW_WIDTH / img_w))
            frame = cv2.resize(frame, dsize = (WINDOW_WIDTH, height))
        loopflg = True   # 1回ループ

    # 処理結果の記録 step1
    if (outpath != 'non'):
        if (isstream):
            fps = int(cap.get(cv2.CAP_PROP_FPS))
            out_w = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
            out_h = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
            fourcc = cv2.VideoWriter_fourcc('m', 'p', '4', 'v')
            outvideo = cv2.VideoWriter(outpath, fourcc, fps, (out_w, out_h))

    # 計測値初期化
    fpsWithTick = mylib.fpsWithTick()
    frame_count = 0
    fps_total = 0
    fpsWithTick.get()                       # fps計測開始

    # メインループ 
    while (loopflg):
        if frame is None:
            print(RED + "\nUnable to read the input." + NOCOLOR)
            quit()

        # 入力データフォーマットへ変換 
        img = cv2.resize(frame, (w, h))     # サイズ変更 
        img = img.transpose((2, 0, 1))      # HWC > CHW 
        img = np.expand_dims(img, axis=0)   # 次元合せ 

        # 推論実行 
        out = exec_net.infer(inputs={input_blob_name: img})

        # 出力から必要なデータのみ取り出し 
        out = out[output_blob_name]
        out = np.squeeze(out) # サイズ1の次元を全て削除

        if out[0] > out[1]:
            box_color = BOX_COLOR_OK
            label_bgcolor = LABEL_BG_COLOR_OK
            out_str = label[0]
        else:
            box_color = BOX_COLOR_ER
            label_bgcolor = LABEL_BG_COLOR_ER
            out_str = label[1]

        s0 = 'frame: {:5d}  '.format(frame_count)
        s1 = 'out0: {: 02.5f}  '.format(out[0])
        s2 = 'out1: {: 02.5f}'.format(out[1])
        out_str0 = s0 + s1 + s2
        cv2.rectangle(frame, (10, 58), (330, 75), (90, 90, 90), -1)
        cv2.putText(frame, out_str0, (15, 70), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.4, color=(255, 255, 255), lineType=cv2.LINE_AA)

        label_text_color = TEXT_COLOR
        cv2.rectangle(frame, (10, 88), (95, 105), label_bgcolor, -1)
        myfunction.cv2_putText(img = frame,
                               text = out_str,
                               org = (15, 104),
                               fontFace = fontPIL,
                               fontScale = 12,
                               color = label_text_color,
                               mode = 0)
        
        frame_count = frame_count + 1

        # FPSを計算する
        fps = fpsWithTick.get()
        st_fps = 'fps: {:>6.2f}'.format(fps)
        if (speedflg == 'y'):
            cv2.rectangle(frame, (10, 38), (95, 55), (90, 90, 90), -1)
            cv2.putText(frame, st_fps, (15, 50), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.4, color=(255, 255, 255), lineType=cv2.LINE_AA)

        # タイトル描画
        if (titleflg == 'y'):
            cv2.putText(frame, title, (12, 32), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.8, color=(0, 0, 0), lineType=cv2.LINE_AA)
            cv2.putText(frame, title, (10, 30), cv2.FONT_HERSHEY_DUPLEX, fontScale=0.8, color=(200, 200, 0), lineType=cv2.LINE_AA)

        # 画像表示 
        window_name = title + "  (hit 'q' or 'esc' key to exit)"
        cv2.namedWindow(window_name, cv2.WINDOW_AUTOSIZE)
        cv2.imshow(window_name, frame)

        # 処理結果の記録 step2
        if (outpath != 'non'):
            if (isstream):
                outvideo.write(frame)
            else:
                cv2.imwrite(outpath, frame)

        # 何らかのキーが押されたら終了 
        breakflg = False
        while(True):
            key = cv2.waitKey(1)
            prop_val = cv2.getWindowProperty(window_name, cv2.WND_PROP_ASPECT_RATIO)
            if key == 27 or key == 113 or (prop_val < 0.0):     # 'esc' or 'q'
                breakflg = True
                break
            if (isstream):
                break

        if ((breakflg == False) and isstream):
            # 次のフレームを読み出す
            ret, frame = cap.read()
            if ret == False:
                break
            loopflg = cap.isOpened()
        else:
            loopflg = False

    # 終了処理 
    if (isstream):
        cap.release()

        # 処理結果の記録 step3
        if (outpath != 'non'):
            if (isstream):
                outvideo.release()

    cv2.destroyAllWindows()

    print('\nFPS average: {:>10.2f}'.format(fpsWithTick.get_average()))
    print('\n Finished.')

# main関数エントリーポイント(実行開始)
if __name__ == "__main__":
    sys.exit(main())

↑

更新履歴 †

2021/09/05 初版
2021/09/08 OpenVINO™ 対応
2021/09/19 サンプル動画を短く
2021/09/30 ソース修正
2021/10/01 ONNXモデルコンバート検証追加

↑

最新の20件

PyTorch ではじめる AI開発 2 †

CHAPTER 02 定点カメラの映像を認識する †

SECTION-004 学習データを準備する †

サンプルのデータセットの準備 †

forest-path-movie-dataset (GitHubより) †

データセットの展開と配置 †

学習データの作成手順 †

使用するデータセット †

SECTION-005 PyTorch による学習 †

学習プログラムの作成 †

学習プログラムの実行 †

SECTION-006 認識用プログラムの作成 †

認識用プログラムの作成 †

認識用プログラムの実行 †

認識用プログラムを作り直す †

OpenVINO™ を利用する †

Pytorch の学習済みモデルを ONNX フォーマットに変換 †

ONNX フォーマットを IR フォーマットに変換 †

OpenVINO™ で認識プログラムを実行 †

更新履歴 †

参考資料 †