AIGlossary のバックアップ(No.2) - PukiWiki

[ トップ ] [ 一覧 | 検索 | 履歴 | ログイン ]

AI推進準備室 > AIGlossary

AI 用語集 †

AI 用語集
- 用語の解説と参考サイト
- 更新履歴
参考資料

※ 最終更新:2021/09/01　

用語の解説と参考サイト †

Faster R-CNN †

2015年にMicrosoftが発明した物体検出アルゴリズム。Deep LearningによるEnd-to-Endな実装に初めて成功している。

STEP1: ある矩形の中身が物体なのか背景( = 何も写っていない)なのかを学習する
Resion Proposal Network(RPN)と呼ばれるCNN構造を用い Deep Learningによって実装
STEP2: STEP1で検出した場所に、具体的に何が写っているのかを学習する。

参考サイト
- Faster R-CNNにおけるRPNの世界一分かりやすい解説

HDF5 †

Hierarchical Data Format（階層的データ形式、略称：HDF）は、大量のデータを格納および構造化するために設計された一連のファイル形式（HDF4、HDF5）。
米国立スーパーコンピュータ応用研究所で開発され、非営利法人である HDF グループによってサポートされている。
HDFグループは、HDF5 テクノロジーの継続的な開発と HDF で保存されたデータの継続的なアクセスを確保することを使命としている。

参考サイト
- Hierarchical Data Format

LabelImg †

LabelImgは、グラフィカル画像アノテーションツール。
Pythonで書かれており、GUIとして Qtを使用している。
アノテーションは、ImageNetで使用される形式であるPASCAL VOC形式で XMLファイルとして保存される。

参考サイト
- labelImg – 🤘画像の注釈ツール
- labelImgとChainerCVを使ってアノテーション作業を楽にする

pytesseract「Python Tesseract」 †

Python-tesseractは、Python用の光学式文字認識（OCR）ツール。画像に埋め込まれたテキストを認識する。

Python-tesseractは、 GoogleのTesseract-OCR Engineのラッパー。 jesseg、png、gif、bmp、tiffなどの Python Imaging Libraryでサポートされているすべてのイメージタイプを読み取ることができる。

参考サイト
- pytesseract – Google TesseractのPythonラッパー
- pytesseract 概要と使い方メモ

VGG16 †

VGG16というのは，「ImageNet」と呼ばれる大規模画像データセットで学習された16層からなる CNNモデル。Oxford 大学の研究グループが提案し2014年のILSVRで好成績を収めた。16層からなる CNNモデルには、（224×224）の入力サイズのカラーチャネルの入力層と1000クラス分類の出力層を含み様々な研究に使用されている。
名前の由来は、VGGチームが作った、畳み込み13層＋全結合層３層＝16層のニューラルネットワークということで、VGG-16となっているそうな。

モデルイメージ

参考サイト
- VGG16モデルを使用してオリジナル写真の画像認識を行ってみる
- Keras：VGG16、VGG19とかってなんだっけ？？

更新履歴 †

2021/09/01 初版

参考資料 †

PyTorchの学習済みモデルで画像分類（VGG, ResNetなど）