AIrepVol5 のバックアップ(No.3) - PukiWiki

[ トップ ] [ 一覧 | 検索 | 履歴 | ログイン ]

バックアップ一覧
差分を表示
現在との差分を表示
ソースを表示
AIrepVol5 へ行く。
- 1 (2023-03-17 (金) 00:34:52)
- 2 (2023-03-17 (金) 01:26:43)
- 3 (2023-03-17 (金) 20:38:53)
- 4 (2023-03-18 (土) 00:32:45)
- 5 (2023-03-18 (土) 02:18:41)
- 6 (2023-03-19 (日) 22:45:40)

AI推進準備室 > AIrepVol5

「私的AI研究会」レポート　VOL.5 == 編集中 == †

これまで取り上げたテーマを振り返ってみる。以下は CQ 出版刊「インターフェース 2023年4月号」特集3 からの抜粋。

「私的AI研究会」レポート　VOL.5 == 編集中 ==
- ディープ・ラーニングの今 2023
- 更新履歴
参考資料

※ 最終更新:2023/03/16　

ディープ・ラーニングの今 2023 †

ディープ・ラーニング（深層学習）の位置づけ †

ディープ・ラーニングは AI技術の一分野

引用 → 令和元年版情報通信白書｜AIに関する基本的な仕組み - 総務省
ディープ・ラーニングは大量のデータを元に自動で特徴量を抽出し、学習していく AI技術
・画像認識などに用いられる CNN（畳み込みニューラル・ネットワーク）
・音声認識などに用いられる RNN（再帰型ニューラル・ネットワーク）
など複数の種類がある

近年次のような理由でディープ・ラーニングの研究が加速した
・高性能 GPU の登場でコンピュータの処理性能が飛躍的に向上
・インターネットの発達で、自ら目的の画像/音声/テキストなどの学習に利用可能な大量のデータが収集しやすくなる

公開されている大規模データーセットの例

種別	名称	URL
画像	ImageNet	https://image-net.org/
	COCO – Common Object in Context	https://cocodataset.org/#home
	Google Open Image V4	https://storage.googleapis.com/openimages/web/factsfigures.html
	CoPhIR	http://cophir.isti.cnr.it/whatis.html
動画	YouTube-8M Dataset	https://research.google.com/youtube8m/
	YouTube-BoundingBoxes Dataset	https://research.google.com/youtube-bb/
	Atomic Visual Actions (AVA)	https://research.google.com/ava/

ディープ・ラーニングの応用例 †

製造分野
　高齢化による専門家不足等に対応するため、目視で行っていた外観検査にディープ・ラーニングを活用した画像認識技術を使う試みが進行している。画像認識技術によって、外観検査を自動判定することで省人化・検査品質の均一化を図っている。
・自動車部品メーカーのアイシンは、画像を撮影するカメラ側でディープ・ラーニングを動作させるエッジ・デバイス形式を取ることでコストダウンに成功した。エッジ・デバイスには「Jetson Xavier NX（エヌビディア）」を採用。

医療分野
　深刻化する医師不足に対応し、診断の質を高めつつ医師の負担を軽減するために、ディープ・ラーニングを活用した画像認識技術が使われている。
・NECと国立がんセンターは、大腸前がん病変と早期大腸がんを内視鏡検査時にリアルタイムで自動検出できる技術の開発に成功した。
・富士通と総合南東北病院は、生存率が低い膵臓がんを非造影CT画像から早期発見できる技術を開発している。
・2022年度の診療報酬改定により、4月から新たに「人工知能技術（AI）を用いた画像診断補助に対する加算（単純・コンピュータ断層撮影）が保険適用されることが決定された。

農業分野
　担い手の減少、高齢化による労働力不足に対応して、作業の負担を軽減し、食料採算性と収益の向上を実現するためにディープ・ラーニングを活用した画像認識技術が使われている。
・葉色解析AIサービス「いろは」は、圃場（ほじょう）の様子を上空からドローンで撮影することで、作物の育成状況を一目で把握できるサービス。ドローンで撮影した画像を認識することで、収穫の予測を助けたりピンポイントの除草剤散布でコスト削減などが可能となる。
・日本農薬は、水稲・トマト・キュウリなどの計15作物の病害虫や雑草を画像診断できるスマートフォン・アプリ「レイミーのAI病害虫雑草診断」を提供している。

ディープ・ラーニングのシステム構成 †

　

　引用 → スマホでAI！？エヌビディアのアーム買収で何が起こるのか？

クラウドAI
　エッジ・デバイスで収集したデータをネットワーク経由でクラウドに送り、データ・センタのマシン・パワーによって学習と推論を行う。高性能なマシン・パワーを使った高性能なディープ・ラーニングが可能であるが、タイムラグの発生やネットワーク障害に弱い弱点もある。

エッジAI
　クラウドで学習したモデルをエッジ・デバイスに配布し、エッジ・デバイスで推論を行う。反応速度が速い、クラウドにデータを送らないためプライバシーを保護できる、ネットワークの有無に影響されない長所があるが、AI解析結果がエッジ・デバイスの性能に依存する。

代表的なフレームワーク †

　前掲のページ → ディープラーニングのフレームワーク

TensorFlow
　利用者多数、軽量版もある
グーグルによって 2015年に公開された。公開時期も早くAPIやドキュメントも充実していることから多くの利用者がいる。

PyTorch
　対抗馬、自然言語処理から画像処理まで
2016年 Meta（旧フェースブック）から公開。Torchという機械学習ライブラリをベースとしたフレームワーク。自然言語処理に利用されることが多かったが、現在では多くの画像処理にも利用されている。

Keras
　ニューラル・ネットワークを利用できるAPI
ニューラル・ネットワークを効率的に利用できるAPIのように機能する。バックエンドにTensorFlowなどが動作する構造になっており、APIを介して効率的にディープ・ラーニングのプログラムを利用できる。TensorFlow や PyTorch に比べると処理が遅く比較的小規模のデータ・セットを対象とする場合に適している。

Chainer
　日本初のフレームワークだが、開発終了
2015年に公開された日本製のフレームワーク。現在は開発を終了して PyTorch に移行している。

ONNX
　様々なフレームワークで利用できる
様々なフレームワークで生成したモデルは、基本的には同じフレームワークでしか動作させることはできないが、ONNX（Open Neural Network eXchange）を用いることで異なるフレームワーク間で学習したモデルを同時に運用できる。

画像処理向け深層学習のタスク †

　その１：物体認識　
　画像中の何らかの位置を抽出するタスクと、それがどの良いな物体であるかを識別するタスクを、順または同時に実行する。ディープ・ニューラル・ネットワークの学習の際は、画像に対して物体の位置を示す矩形（バウンディング・ボックス）と、それにタグやラベルと呼ばれる、物体に意味づけ（人・ネコ・車など）を行った大量のデータを用いて行われる。

■ R-CNN … 物体認識の先駆け
　Resion based Convolutional Neural Networks は、画像の中から物体の候補を含む矩形の領域として抽出して、それぞれの矩形がどの物体を含むかを分類する手法。
速度の向上のため、Fast R-CNN・Faster R-CNN・Cascade R-CNN などの手法が提案されてきた。

　画像引用 → Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

■ YOLO … ユーザー多数
　You Only Look Once あらかじめ入力画像を正方形のグリッドに分割し、対象物の候補ではない背景領域を切り捨て、対象物の候補領域に対して高速に物体認識ができることが特徴。最初に発表された YOLO は2016年、2022年7月には YOLOv7 が発表されている。

　画像引用 → You Only Look Once: Unified, Real-Time Object Detection

■ DETR … 話題の Transformer アーキテクチャーを採用
　Detection Transformer は Transformer アーキテクチャーを物体認識に採用したもの。自然言語学習における Transformer は,Attention機構のみで構築されたネットワークにより、文章中の広範囲な単語の依存関係を捉えながら、どの単語に注目すれば文章の意味を理解できるかを学習する。これを画像からの物体認識に用いることで、シンプルな構成ながらも高性能な物体認識を実現した。右の画像は DETR の処理中の情報を可視化したもの。各画素に関連する領域が白く示されている。

　画像引用 → End-to-End Object Detection with Transformers
　Transformer論文 → Attention Is All You Need
　　　　　　　　　　 TRANSFORMER MODELS: AN INTRODUCTION AND CATALOG

　その２：セグメンテーション　
　セグメンテーションとは画像を画素単位でいくつかの意味（クラス）に分類するタスク。物体認識のタスクは、バウンディング・ボックスによって物体の位置を示したが、セグメンテーションは画素単位で分類することが大きく異なる。

■ セマンティック・セグメンテーション
　セマンティック・セグメンテーションはエンコーダ・デコーダ構造と呼ばれるネットワークを用いる。ニューラル・ネットワークにおいて、入力データを圧縮し次元を小さくして入力したものを低次元で表現する過程をエンコーダと呼び、低次元で表現された特徴から復元する過程をデコーダと呼ぶ。PSPNet は画像の大局的なコンテキストと局所的な情報の両方を扱うことができる。最終的に同じサイズにそろえられた特徴のすべてからデコーダを介して画像の画素ごとにクラス分類した結果を出力する。瀬部手の画素を分類するので背景にもクラスが付与される。

　画像引用 → Pyramid Scene Parsing Network

■ インスタンス・セグメンテーション

　画像引用 → Mask R-CNN

更新履歴 †

2023/03/16 初版

参考資料 †

データセット