AIGlossary のバックアップソース(No.3)

#author("2021-09-02T00:01:04+00:00","default:mizutu","mizutu")
[[AI推進準備室]] > AIGlossary

* AI 用語集 [#bdb1f55d]
#contents
RIGHT:&size(12){※ 最終更新:2021/09/01　};

** 用語の解説と参考サイト [#aeec2c03]

*** Faster R-CNN [#ma54cbcf]
- 2015年にMicrosoftが発明した物体検出アルゴリズム。Deep LearningによるEnd-to-Endな実装に初めて成功している。~

- STEP1: ある矩形の中身が物体なのか背景( = 何も写っていない)なのかを学習する~
Resion Proposal Network(RPN)と呼ばれるCNN構造を用い Deep Learningによって実装~
- STEP2: STEP1で検出した場所に、具体的に何が写っているのかを学習する。~

- 参考サイト~
-- [[Faster R-CNNにおけるRPNの世界一分かりやすい解説>+https://medium.com/lsc-psd/faster-r-cnn%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8Brpn%E3%81%AE%E4%B8%96%E7%95%8C%E4%B8%80%E5%88%86%E3%81%8B%E3%82%8A%E3%82%84%E3%81%99%E3%81%84%E8%A7%A3%E8%AA%AC-dfc0c293cb69]]~

*** HDF5 [#zf5ffb6c]
- Hierarchical Data Format（階層的データ形式、略称：HDF）は、大量のデータを格納および構造化するために設計された一連のファイル形式（HDF4、HDF5）。~
- 米国立スーパーコンピュータ応用研究所で開発され、非営利法人である HDF グループによってサポートされている。~
- HDFグループは、HDF5 テクノロジーの継続的な開発と HDF で保存されたデータの継続的なアクセスを確保することを使命としている。~

- 参考サイト~
-- [[Hierarchical Data Format>+https://ja.wikipedia.org/wiki/Hierarchical_Data_Format]]~

*** Inception Resnet V2 [#d373a580]
- Inception-ResNet-v2 は、ImageNet データベース [1] の 100 万枚を超えるイメージで学習済みの畳み込みニューラル ネットワーク。~
- このネットワークは、深さが 164 層であり、イメージを 1000 個のオブジェクト カテゴリ (キーボード、マウス、鉛筆、多くの動物など) に分類できる。~
- 結果として、このネットワークは広範囲のイメージに対する豊富な特徴表現を学習している。~
- ネットワークのイメージ入力サイズは 299 x 299。~

- 参考サイト~
-- [[inceptionresnetv2>+https://jp.mathworks.com/help/deeplearning/ref/inceptionresnetv2.html;jsessionid=3cbf758accb3c682a299f0bd489d]]~

*** LabelImg [#q4031c73]
- LabelImgは、グラフィカル画像アノテーションツール。~
- Pythonで書かれており、GUIとして Qtを使用している。~
- アノテーションは、ImageNetで使用される形式であるPASCAL VOC形式で XMLファイルとして保存される。~

- 参考サイト~
-- [[labelImg – 🤘画像の注釈ツール>+https://githubja.com/tzutalin/labelimg]]~
-- [[labelImgとChainerCVを使ってアノテーション作業を楽にする>+https://qiita.com/wakaba130/items/e86109b3cbd1b0dde902]]~

*** pytesseract「Python Tesseract」 [#i5a0b655]
- Python-tesseractは、Python用の光学式文字認識（OCR）ツール。画像に埋め込まれたテキストを認識する。~

- Python-tesseractは、 GoogleのTesseract-OCR Engineのラッパー。 jesseg、png、gif、bmp、tiffなどの Python Imaging Libraryでサポートされているすべてのイメージタイプを読み取ることができる。~

- 参考サイト~
-- [[pytesseract – Google TesseractのPythonラッパー>+https://githubja.com/madmaze/pytesseract]]~
-- [[pytesseract 概要と使い方 メモ>+https://qiita.com/KWS_0901/items/26df569fd3b98ca96c54]]~

*** VGG16 [#y7a3b4aa]
- VGG16というのは，「ImageNet」と呼ばれる大規模画像データセットで学習された16層からなる CNNモデル。Oxford 大学の研究グループが提案し2014年のILSVRで好成績を収めた。16層からなる CNNモデルには、（224×224）の入力サイズのカラーチャネルの入力層と1000クラス分類の出力層を含み様々な研究に使用されている。~
- 名前の由来は、VGGチームが作った、畳み込み13層＋全結合層３層＝16層のニューラルネットワークということで、VGG-16となっているそうな。~

- モデルイメージ~
#ref(vgg16_01m.jpg,left,around,50%,vgg16_01m.jpg)
#clear

- 参考サイト~
-- [[VGG16モデルを使用してオリジナル写真の画像認識を行ってみる>+https://newtechnologylifestyle.net/vgg16originalpicture/]]~
-- [[Keras：VGG16、VGG19とかってなんだっけ？？>+https://qiita.com/MuAuan/items/86a56637a1ebf455e180]]~

#br

** 更新履歴 [#eb95c496]
- 2021/09/01 初版
#br

* 参考資料 [#d26c4289]
- [[PyTorchの学習済みモデルで画像分類（VGG, ResNetなど）>+https://note.nkmk.me/python-pytorch-pretrained-models-image-classification/]]~

#br