Google Document AI で文書画像からフォーム要素(キー名とその値)を抽出する
本記事では、Document AI の汎用的な Form Parser を利用した簡単な実験を通して、文書画像から抽出できる情報を見ていきます。 【目次】 [1]はじめに [2]実験準備 (1)環境準備 (2)フォーム解析結果のデータ構造 (3)本記事で利用するユーティリティ関数 [3]Google のサンプル画像解析例 (1)画像データの準備 (2)解析の実行と結果確認 [4]Google フォームの画像解析例 (1)画像データの準備 (2)解析の実行と結果確認 (3)修正した画像で解析の実行と結果確認 [5]表形式の画像解析例 (1)画像データの準備 (2)フォーム解析の結果確認 (3)Google Knowledge Graphとの関係 [6]罫線のない表形式画像の解析例 (1)画像データの準備 (2)解析の実行と結果確認 [7]最後に [1]はじめに OCR(Google ならVision APIなど)を利用すると、画像から文字を抽出することができます。小説のような文章中心の文書をスキャンする場合は、OCRの機能で十分な場合が多いと思います。 一方、例えば、請求書をスキャンする場合は、そこに書かれている全ての文字を列挙したいわけではなく、請求元や請求日、各金額などの必要な項目をコンピュータで再利用しやすい形式で抽出したい、ということではないかと思います。 つまり、請求書などのようなテンプレート(様式?、フォーム?)にそった文書をスキャンする目的は、そこに書かれている「文字」を抽出することよりも、そこに書かれている「情報」を抽出することだと思います。 (多くの場合、様式といわれるような文書は、アンケートのように、質問と回答のペア(キー/バリューで表現)で効率よく情報を取得できるように作られていると思います。) Google の Document AI は、このような、文書画像から、OCRより一歩踏み込んだ情報を抽出することを目的としているようです。 Document AI( https://cloud.google.com/document-ai ) また、Document AI の動機や技術的な仕組みは以下のブログで触れられています。 Extracting Structured Data from Templatic Documents https...