私的AI研究会 > ModelZoo

Model Zoo -学習済み機械学習モデルのアーカイブ-

※ 最終更新:2021/05/15 

OpenVINO™ Model Zoo

 「多くの人々がさまざまなタスクのために機械学習モデルを訓練した結果の学習(Pretraining)済の機械学習モデルの集合を「Model Zoo」と呼ぶ。

OpenVINO™ Intel® Model Zoo

学習済モデル(IRフォーマット) と使用可能デバイス

Object Detection Models オブジェクト検出モデル

 いくつかの検出モデルを使用して、顔、人、車両など、最も人気のあるオブジェクトのセットを検出できます。ほとんどのネットワークは SSD ベースであり、妥当な精度/パフォーマンスのトレードオフを提供します。同じ種類のオブジェクト (など) を検出するネットワークは、パフォーマンスが低下するコストで、より高い精度と適用性を選択できるため、同じタイプのオブジェクトをより適切に検出できる「大きい」ネットワークが期待できます。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)FACEPERSONVEHICLEBIKELICENSE PLATEPRODUCT
faster-rcnn-resnet101-coco-sparse-60-0001364.2152.79XXX
face-detection-adas-00012.8351.053X
face-detection-retail-00041.0670.588X
face-detection-retail-00050.9821.021X
face-detection-02000.7851.828X
face-detection-02021.7671.842X
face-detection-02042.4051.851X
face-detection-02052.8532.392X
face-detection-0206339.59769.920X
person-detection-retail-000212.4273.244X
person-detection-retail-00132.3000.723X
person-detection-action-recognition-00057.1401.951X
person-detection-action-recognition-00068.2252.001X
person-detection-action-recognition-teacher-00027.1401.951X
person-detection-raisinghand-recognition-00017.1381.951X
person-detection-02000.7861.817X
person-detection-02011.7681.817X
person-detection-02023.1431.817X
person-detection-02036.5192.394X
person-detection-0106404.26471.565X
pedestrian-detection-adas-00022.8361.165X
pedestrian-and-vehicle-detector-adas-00013.9741.650XX
vehicle-detection-adas-00022.7981.079X
vehicle-detection-02000.7861.817X
vehicle-detection-02011.7681.817X
vehicle-detection-02023.1431.817X
person-vehicle-bike-detection-crossroad-00783.9641.178XXX
person-vehicle-bike-detection-crossroad-10163.5602.887XXX
person-vehicle-bike-detection-crossroad-yolov3-102065.98461.92XXX
person-vehicle-bike-detection-20000.7871.821XXX
person-vehicle-bike-detection-20011.7701.821XXX
person-vehicle-bike-detection-20023.1631.821XXX
vehicle-license-plate-detection-barrier-01060.3490.634XX
product-detection-00013.5983.212X
person-detection-asl-00010.9861.338X
yolo-v2-ava-000129.3848.29XXX
yolo-v2-ava-sparse-35-000129.3848.29XXX
yolo-v2-ava-sparse-70-000129.3848.29XXX
yolo-v2-tiny-ava-00016.97515.12XXX
yolo-v2-tiny-ava-sparse-30-00016.97515.12XXX
yolo-v2-tiny-ava-sparse-60-00016.97515.12XXX
yolo-v2-tiny-vehicle-detection-00015.42411.229X

Object Recognition Models オブジェクト認識モデル

 オブジェクト認識モデルは、分類、回帰、および文字認識に使用されます。これらのネットワークは、それぞれの検出検出後に使用します (例えば、顔検出後の年齢/性別認識)。(機械翻訳)

Reidentification Models 再識別モデル

 ビデオ内のオブジェクトの正確な追跡は、コンピュータビジョンの一般的なアプリケーションです(例えば、人数を数える)。「オブジェクトの比較的長い不在」と表現できる一連のイベントによって複雑になることがよくあります。たとえば、オクルージョンやフレーム外の動きが原因で発生する可能性があります。このような場合、画像内の現在の位置や最後の既知の位置から経過した時間に関係なく、オブジェクトを「前に見た」と認識することをおしいます。

 このようなシナリオでは、次のネットワークを使用できます。彼らは人のイメージを取り、埋め込みを評価する - この人の外観を表す高次元空間のベクトル。このベクトルは、さらなる評価に使用することができます:同じ人に対応する画像は、L2メトリック(ユークリッド距離)によって「近い」埋め込みベクトルを持つことになります。

 パフォーマンスと精度の間にさまざまなトレードオフを提供するモデルが複数存在します(より大きなモデルの方がパフォーマンスが向上すると予想されます)。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)RANK-1 ON MARKET-1501
person-reidentification-retail-02880.1740.18386.1%
person-reidentification-retail-02870.5640.59592.9%
person-reidentification-retail-02861.1701.23494.8%
person-reidentification-retail-02771.9932.10396.2%

Semantic Segmentation Models

 意味的なセグメンテーションは、オブジェクト検出の問題の拡張です。セマンティック セグメンテーション モデルは、バウンディング ボックスを返す代わりに、入力イメージの "描画" バージョンを返します。これらのネットワークは、それぞれのオブジェクト検出ネットワークよりもはるかに大きいですが、オブジェクトのより良い(ピクセルレベル)の局在化を提供し、複雑な形状の領域(道路上の空きスペースなど)を検出することができます。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
road-segmentation-adas-00014.7700.184
semantic-segmentation-adas-000158.5726.686
unet-camvid-onnx-0001260.131.03
icnet-camvid-ava-0001151.8225.45
icnet-camvid-ava-sparse-30-0001151.8225.45
icnet-camvid-ava-sparse-60-0001151.8225.45

Instance Segmentation Models

 インスタンスセグメンテーションは、オブジェクト検出とセマンティックセグメンテーションの問題の拡張です。各オブジェクト インスタンス インスタンスセグメンテーション モデルの周囲に境界ボックスを予測するのではなく、すべてのインスタンスのピクセル単位のマスクを出力します。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
instance-segmentation-security-102530.14626.69
instance-segmentation-security-005046.60230.448
instance-segmentation-security-0083365.626143.444
instance-segmentation-security-0010899.568174.568

Human Pose Estimation Models 人間のポーズ推定モデル

 人間のポーズ推定タスクは、入力画像またはビデオ内のすべての人に対して、キーポイントとそれらの間の接続で構成されるボディスケルトンを予測することです。要点は、耳、目、鼻、肩、膝など、身体関節です。このような方法には、トップダウンとボトムアップの 2 つの主要なグループがあります。最初のフレーム内の人物を検出し、作物または再スケール検出を検出し、次に検出ごとにポーズ推定ネットワークを実行します。これらの方法は非常に正確です。2 つ目は、特定のフレーム内のすべてのキーポイントを検索し、ネットワークが 1 回実行されるため、以前よりも速く、それらを人インスタンスごとにグループ化します。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
human-pose-estimation-000115.4354.099
human-pose-estimation-00025.93938.1504
human-pose-estimation-00038.87208.1504
human-pose-estimation-000414.37078.1504

Image Processing 画像処理

 ディープラーニングモデルは、出力の品質を向上させるために、さまざまな画像処理タスクでアプリケーションを見つけます。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
single-image-super-resolution-103211.6540.030
single-image-super-resolution-103316.0620.030
text-image-super-resolution-00011.3790.003

Text Detection テキスト検出

 さまざまなアプリケーションでのテキスト検出のためのディープラーニングモデル。

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
text-detection-000351.2566.747
text-detection-000423.3054.328
horizontal-text-detection-00017.7182.259

Text Recognition テキスト認識

 さまざまなアプリケーションでのテキスト認識のためのディープラーニングモデル。

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
text-recognition-00121.4855.568
handwritten-score-recognition-00030.7925.555
handwritten-japanese-recognition-0001117.13615.31
handwritten-simplified-chinese-recognition-0001134.51317.270
formula-recognition-medium-scan-0001:
encode16.561.69
decoder1.862.56
formula-recognition-polynomials-handwritten-0001:
encoder12.84478.6838
decoder0.20172.5449

Text Spotting テキスト同時検出と認識

 テキストスポッティング(同時検出と認識)のためのディープラーニングモデル。

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
text-spotting-0003
text-spotting-0003-detector184.49527.010
text-spotting-0003-recognizer-encoder2.0821.328
text-spotting-0003-recognizer-decoder0.0020.273

Action Recognition Models アクション認識モデル

 アクション認識モデルは、短いビデオクリップ(入力ビデオからサンプリングされたフレームを積み重ねて形成されるテンソル)で実行されるアクションを予測します。モデルによっては、個々のクリップ フラグメントから事前計算された高レベル空間または時間的なフィーチャ (埋め込み) を使用して、それらを時系列モデルに集約して、分類スコアを持つベクターを予測するものもあります。埋め込みを計算するモデルはエンコーダーと呼ばれ、実際のラベルを予測するモデルはデコーダと呼ばれます。(機械翻訳)

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
driver-action-recognition-adas-0002
driver-action-recognition-adas-0002-encoder0.6762.863
driver-action-recognition-adas-0002-decoder0.1474.205
action-recognition-0001
action-recognition-0001-encoder7.34021.276
action-recognition-0001-decoder0.1474.405
asl-recognition-00046.6604.133
weld-porosity-detection-00013.63611.173

Image Retrieval 画像検索

 画像検索用のディープラーニングモデル(いくつかの「プローブ」画像との類似度に従って「ギャラリー」画像をランク付けする)。

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
image-retrieval-00010.6132.535

Compressed models 圧縮モデル

 ディープラーニング圧縮モデル

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
resnet50-binary-00011.0027.446
resnet18-xnor-binary-onnx-0001--

Question Answering 質問回答

Machine Translation 機械翻訳

MODEL NAMECOMPLEXITY (GFLOPS)SIZE (MP)
machine-translation-nar-en-ru-000123.1769.29
machine-translation-nar-ru-en-000123.1769.29

./intel

▼ 「$ tree ./intel」

OpenVINO™ Public Model Zoo

学習済みモデル一覧

./public

▼ 「$ tree ./public」
 

更新履歴

 

参考資料

 

Last-modified: 2021-06-25 (金) 05:18:13