私的AI研究会 > PyTorch5

PyTorch ではじめる AI開発 5

 「動画の背景を入れ替える」画像のセグメンテーションという手法を使って、画像中の人物を切り出し背景を入れ替える AIを作成する。

※ 最終更新:2021/10/20 

画像認識 (Image Recognition) とは

 画像認識技術の違いについて サイト「画像分類・物体検出・セグメンテーションの比較 」から引用。

 画像認識を利用することで、顔認証システムや不審者検知、文字認識(OCR)、不適切画像の検出、工場でのイレギュラー検知など幅広い分野で活用することができる。

 

画像認識技術一覧

種別概要モデル処理結果評価指数
画像分類
Image Classification
機械学習やディープラーニングモデルで、画像を何らかの主題に基づき分類する処理方法。教師あり学習では、ラベル付けされたデータセットを用いて、モデルを学習させていく。Xception
VGG
ResNet
Inception
MobileNet
DenseNet
各クラスの予測信頼度混合行列 (Confusion Matrix)
正解率 (Accuracy)
適合率 (Precision)
再現率 (Recall)
F値 (F-measure)
...
画像分類・物体位置特定
Image Classification・Localization
画像内のクラスと物体の位置を検出する方法。画像から物体のクラスを予測する代わりに、クラスとその物体を含む矩形(バウンディングボックス)を予測する必要がある。1つの画像は1つのクラスを検出する。クラス名
クラスの予測信頼度
バウンディングボックス
mAP
IoU
物体検出
Object Detection
画像内のクラスと物体の位置を検出。複数種類の物体を1つの画像で検出するとマルチクラスの物体検出。入力画像から固定サイズのウィンドウをすべての可能な位置で取得して、これらのパッチ(領域)を画像分類器に入力する。R-CNN
Fast R-CNN
SSD
Mask R-CNN
YOLO
RetinaNet
クラス名
クラスの予測信頼度
バウンディングボックス
mAP (mean Average Precision)
IoU (Intersection over Union)
セマンティック・セグメンテーション
Semantic Segmentation
画像のピクセルを「どの物体クラス(カテゴリー)に属するか」で分類する方法。画像上の全ピクセルをクラスに分類すること。同クラス間で重なりがある場合、同クラスの領域として認識するため、物体ごとの認識・カウントができない。U-NET
MULTISCALE
HYBRID CNN-CRF&br
各ピクセルのクラス情報IoU and per-pixel accuracy
インスタント・セグメンテーション
Instant Segmentation
画像のピクセルを「どの物体クラス(カテゴリー)に属するか、どのインスタンスに属するか」で分類する方法。物体ごとの領域を分割しかつ物体の種類を認識すること。RoI(region of interest)に対して segmentation を行うので、画像全てのピクセルに対してラベルを振ることはしない。Mask R-CNN
DeepMask
FCIS
各ピクセルのクラス情報average precision over different IoU thresholds
パノプティック・セグメンテーション
Panoptic Segmentation
Semantic Segmentation とInstance Segmentationを組み合わせた方法。全てのピクセルにラベルが振られ、かつ数えられる物体に関しては、個別で認識した結果が返される。Panoptic Feature Pyramid Network
UPSNet
各ピクセルのクラス情報Panoptic Quality (PQ)

重要な概念

 サイト「オブジェクト検出とインスタンスセグメンテーション:詳細な概要~」から引用

CHAPTER 05 動画の背景を入れ替える

 マスク画像を出力するニューラルネットワークを使って画像編集を行う AI を作成する。

SECTION 013 画像を直接扱う AI

人物のマスク画像を用意する

マスク画像を作成するプログラム

SECTION 014 転移学習によるモデルの作成

 U-Net の畳み込み層に対してさらに改良を施した「DeepLab」のモデルを元に出力層のみを入れ替えたモデルを作成して転移学習を行う。
 「DeepLab」のモデルは「ImageNet」という一般的な画像を使用して学習されたものが公開されているので「TorchHub」からダウンロードして使用する。

転移学習のプログラム

SECTION 015 人物の背景を入れ替える AI

動画の編集 AI

動画の編集 AI プログラムの改良

更新履歴

 

参考資料

画像認識について

引用・参考サイト

代表的なモデルのサイト

ディープラーニング全般

 

Last-modified: 2021-10-23 (土) 05:26:45