私的AI研究会 > Tesseract4

OCR アプリケーション基礎編 2

 実用的な AI開発に向けて、文字認識エンジン「Tesseract」(テッセラクト)を使用した「OCR アプリケーション」を開発する。(その2)

※ 最終更新:2022/01/17 

OCR プログラムの開発過程 2

設定ファイルを作成・編集する

「PyYAML」パッケージを利用する。

Step 4 位置情報を入力・編集・ファイルするプログラムを考える

  1. Step 3 のプログラムでキー入力による入力前処理の指定をマウス操作でできるようにする。
  2. 本プログラムはできるだけ簡単な操作で、基本となる「請求書」画像ファイルから OCR に入力する文字の書かれた範囲と処理内容を記述した「配置情報ファイル」を作成することを目的とする。
  3. 作成した「配置情報ファイル」は次のステップからの「請求書」自動読み取りアプリケーションで利用する。

Step 5 配置情報ファイルを利用して伝票内を一括処理する

  1. Step 4 のプログラムで作成した「配置情報ファイル」に従って自動的に OCR 出力を得る。
  2. 先ずは、Step4 で用いた帳票画像ファイルと、同じ画像の解像度の異なる画像に対して動作確認を行う。
  3. 次のステップでは異なる帳票画像を複数用意してテンプレート登録し、そのテンプレートの中から一致するものを探すアルゴリズムを作成する。

→ 以降「OCR アプリケーション基礎編 3」へ続く

 

更新履歴

参考資料

 

Last-modified: 2022-03-11 (金) 05:08:33