#author("2021-09-02T00:01:04+00:00","default:mizutu","mizutu") [[AI推進準備室]] > AIGlossary * AI 用語集 [#bdb1f55d] #contents RIGHT:&size(12){※ 最終更新:2021/09/01 }; ** 用語の解説と参考サイト [#aeec2c03] *** Faster R-CNN [#ma54cbcf] - 2015年にMicrosoftが発明した物体検出アルゴリズム。Deep LearningによるEnd-to-Endな実装に初めて成功している。~ - STEP1: ある矩形の中身が物体なのか背景( = 何も写っていない)なのかを学習する~ Resion Proposal Network(RPN)と呼ばれるCNN構造を用い Deep Learningによって実装~ - STEP2: STEP1で検出した場所に、具体的に何が写っているのかを学習する。~ - 参考サイト~ -- [[Faster R-CNNにおけるRPNの世界一分かりやすい解説>+https://medium.com/lsc-psd/faster-r-cnn%E3%81%AB%E3%81%8A%E3%81%91%E3%82%8Brpn%E3%81%AE%E4%B8%96%E7%95%8C%E4%B8%80%E5%88%86%E3%81%8B%E3%82%8A%E3%82%84%E3%81%99%E3%81%84%E8%A7%A3%E8%AA%AC-dfc0c293cb69]]~ *** HDF5 [#zf5ffb6c] - Hierarchical Data Format(階層的データ形式、略称:HDF)は、大量のデータを格納および構造化するために設計された一連のファイル形式(HDF4、HDF5)。~ - 米国立スーパーコンピュータ応用研究所で開発され、非営利法人である HDF グループによってサポートされている。~ - HDFグループは、HDF5 テクノロジーの継続的な開発と HDF で保存されたデータの継続的なアクセスを確保することを使命としている。~ - 参考サイト~ -- [[Hierarchical Data Format>+https://ja.wikipedia.org/wiki/Hierarchical_Data_Format]]~ *** Inception Resnet V2 [#d373a580] - Inception-ResNet-v2 は、ImageNet データベース [1] の 100 万枚を超えるイメージで学習済みの畳み込みニューラル ネットワーク。~ - このネットワークは、深さが 164 層であり、イメージを 1000 個のオブジェクト カテゴリ (キーボード、マウス、鉛筆、多くの動物など) に分類できる。~ - 結果として、このネットワークは広範囲のイメージに対する豊富な特徴表現を学習している。~ - ネットワークのイメージ入力サイズは 299 x 299。~ - 参考サイト~ -- [[inceptionresnetv2>+https://jp.mathworks.com/help/deeplearning/ref/inceptionresnetv2.html;jsessionid=3cbf758accb3c682a299f0bd489d]]~ *** LabelImg [#q4031c73] - LabelImgは、グラフィカル画像アノテーションツール。~ - Pythonで書かれており、GUIとして Qtを使用している。~ - アノテーションは、ImageNetで使用される形式であるPASCAL VOC形式で XMLファイルとして保存される。~ - 参考サイト~ -- [[labelImg – 🤘画像の注釈ツール>+https://githubja.com/tzutalin/labelimg]]~ -- [[labelImgとChainerCVを使ってアノテーション作業を楽にする>+https://qiita.com/wakaba130/items/e86109b3cbd1b0dde902]]~ *** pytesseract「Python Tesseract」 [#i5a0b655] - Python-tesseractは、Python用の光学式文字認識(OCR)ツール。画像に埋め込まれたテキストを認識する。~ - Python-tesseractは、 GoogleのTesseract-OCR Engineのラッパー。 jesseg、png、gif、bmp、tiffなどの Python Imaging Libraryでサポートされているすべてのイメージタイプを読み取ることができる。~ - 参考サイト~ -- [[pytesseract – Google TesseractのPythonラッパー>+https://githubja.com/madmaze/pytesseract]]~ -- [[pytesseract 概要と使い方 メモ>+https://qiita.com/KWS_0901/items/26df569fd3b98ca96c54]]~ *** VGG16 [#y7a3b4aa] - VGG16というのは,「ImageNet」と呼ばれる大規模画像データセットで学習された16層からなる CNNモデル。Oxford 大学の研究グループが提案し2014年のILSVRで好成績を収めた。16層からなる CNNモデルには、(224×224)の入力サイズのカラーチャネルの入力層と1000クラス分類の出力層を含み様々な研究に使用されている。~ - 名前の由来は、VGGチームが作った、畳み込み13層+全結合層3層=16層のニューラルネットワークということで、VGG-16となっているそうな。~ - モデルイメージ~ #ref(vgg16_01m.jpg,left,around,50%,vgg16_01m.jpg) #clear - 参考サイト~ -- [[VGG16モデルを使用してオリジナル写真の画像認識を行ってみる>+https://newtechnologylifestyle.net/vgg16originalpicture/]]~ -- [[Keras:VGG16、VGG19とかってなんだっけ??>+https://qiita.com/MuAuan/items/86a56637a1ebf455e180]]~ #br ** 更新履歴 [#eb95c496] - 2021/09/01 初版 #br * 参考資料 [#d26c4289] - [[PyTorchの学習済みモデルで画像分類(VGG, ResNetなど)>+https://note.nkmk.me/python-pytorch-pretrained-models-image-classification/]]~ #br