テクノ大福帳

投稿

8月, 2020の投稿を表示しています

Vision APIのBatchAnnotateFilesメソッド（ファイルからの同期特徴抽出）を少し深堀りする

- 8月 30, 2020

Vision APIの利用には、クライアントライブラリの利用が推奨されていますが、クライアントライブラリの理解を深めるためにも、まずはVision APIが提供するメソッドの基本的な仕様を押さえておきたいと思います。本記事では、『 Vision API クライアントライブラリの概要（Python編）』に続いて、 Vision APIの RPCで定義されているImageAnnotatorサービスのBatchAnnotateFilesメソッド（ファイルからの同期特徴抽出）について少し深堀します。なお、内容的にはREST/HTTP APIのfiles.annotateメソッドも同様かと思います。【目次】［１］BatchAnnotateFilesメソッドの概要（１）特徴（２）メソッド定義（３）動作イメージ（４）BatchAnnotateImagesメソッドとの違い［２］リクエストデータ：BatchAnnotateFilesRequest （１）ファイルの指定（InputConfig）（２）検出したい特徴の指定（Feature）（３）特徴タイプ固有のパラメータ（ImageContext）（４）検出対象ページの指定（pagesフィールド）［３］レスポンス：BatchAnnotateFilesResponse （１）AnnotateFileResponse （２）AnnotateImageResponse ［１］BatchAnnotateFilesメソッドの概要ファイル（PDF、TIFF、アニメーションGIF）から同期処理で特徴検出を行うメソッドです。 BatchAnnotateFilesメソッドは、Vision APIのRPCで定義されるImageAnnotatorサービスが提供する４つのメソッドのうちの１つす。（『 Vision API クライアントライブラリの概要（Python編）』も参照してください。）（１）特徴１つのファイルに複数のページやフレームを含めることが出来るファイル形式から特徴検出します。具体的には、PDF、TIFF、アニメーションGIFファイルです。 JPEG、PNG、BMP、WEBP、RAW、ICOの画像形式を送信するとエラーになります。検出できる特徴は、Vision APIの機能リストにあるもので

Vision APIのBatchAnnotateImagesメソッド（画像からの同期特徴抽出）を少し深堀りする

- 8月 23, 2020

Vision APIの利用には、クライアントライブラリの利用が推奨されていますが、クライアントライブラリの理解を深めるためにも、まずはVision APIが提供するメソッドの基本的な仕様を押さえておきたいと思います。本記事では、『 Vision API クライアントライブラリの概要（Python編）』に続いて、 Vision APIの RPCで定義されているImageAnnotatorサービスのBatchAnnotateImagesメソッド（画像からの同期特徴抽出）について少し深堀します。なお、内容的にはREST/HTTP APIのimages.annotateメソッドも同様かと思います。【目次】［１］BatchAnnotateImagesメソッドの概要（１）特徴（２）メソッド定義（３）動作イメージ［２］リクエストデータ：BatchAnnotateImagesRequest （１）画像の指定（Image）（２）検出したい特徴の指定（Feature）（３）特徴タイプ固有のパラメータ（ImageContext）［３］レスポンス：BatchAnnotateImagesResponse （１）指定した特徴に対応する検出結果フィールド（２）errorフィールド（エラー情報）（３）contextフィールド［４］Status型のエラー情報［５］モデルのバージョンアップへの対応［６］Protocol BuffersによるAPI定義［１］BatchAnnotateImagesメソッドの概要画像（JPEG、PNGなど）から同期処理で特徴検出を行うメソッドです。 BatchAnnotateImagesメソッドは、Vision APIのRPCで定義されるImageAnnotatorサービスが提供する４つのメソッドのうちの１つす。（『 Vision API クライアントライブラリの概要（Python編）』も参照してください。）（１）特徴画像形式は、JPEG、PNG、GIF、BMP、WEBP、RAW、ICOです。（但し、アニメーションGIFは最初のフレームのみ） PDFファイル、TIFFファイルを送信するとエラーになります。検出できる特徴は、Vision APIの機能リストにあるもの全てです。一つの画像に対して同時に複数の特徴を検

Vision API クライアントライブラリの概要（Python編）

- 8月 16, 2020

本記事では、Vision APIの使い方について、Pythonクライアントライブラリを中心に、少し深堀してみたいと思います。【目次】［１］Vision APIの公式ドキュメント［２］PythonクライアントライブラリとRPC、REST ［３］ImageAnnotatorサービス概要（１）４つのメソッド（２）画像（Image）とファイル（File）（３）バッチ（Batch）（４）同期（オンライン）と非同期（オフライン）［４］ImageAnnotatorClientのメソッド構成の概要［５］その他（１）料金（２）利用状況の確認方法（３）割り当てと上限［１］Vision APIの公式ドキュメント Vision APIの仕様に関する公式ドキュメントは、主に以下の二つはないかと思います。ガイド（ https://cloud.google.com/vision/docs?hl=ja ）「画像内のテキストを検出する」のようなシナリオに応じて、Vision APIの簡単なサンプルコードとともに利用方法が説明されています。 APIとリファレンス（ https://cloud.google.com/vision/docs/apis?hl=ja ）クライアントライブラリ、REST、RPC、gcloudコマンドのそれぞれについて、形式的な仕様の説明があります。ガイドを見れば、シナリオに応じて直観的な利用方法は分かりますが、サンプルコードの範囲以上の情報は得られません。もう少し突っ込んだ情報を知りたい場合は、リファレンスを見ることになりますが、リファレンスを見ても、最初は分かりにくいのではないかと思います。この理由として、ガイドは日本語だけどリファレンスは英語のみということもあるかもしれませんが、それよりも、ガイドとリファレンスでは視点が違うことが原因かな、と思いました。 Vision APIは顔認識、OCRなどの多くの特徴検出機能をサポートしており、ガイドでは検出する特徴ごとに個別に説明されています。一方で、Vision APIは、それらをまとめて処理できる包括的な仕様として構成されているため、リファレンスでは、個々の機能に対する説明や制限事項の記述が少なく、対応関係が分かりにくいように思えます。本記事では、Vision APIクライ

Colaboratory環境で画像ファイルをPDFファイルに変換する（img2pdf）

- 8月 12, 2020

本記事では、主にGoogle Colaboratory環境で、JPEGなどの画像ファイルをimg2pdfを利用して、画質の劣化なくPDFファイルに変換する方法について考えてみました。【目次】［１］img2pdfについて［２］インストール方法［３］シェルコマンドとして利用する（１）基本的な使い方（２）高度な使い方（３）PNGファイルを変換する場合の注意事項［４］Pythonプログラムから利用する（１）基本的な使い方（２）コマンドライン的な利用方法［１］img2pdfについて img2pdfは、JPEGなどの画像ファイルを、劣化なく（可逆に）PDFファイルに変換してくれるツールです。 img2pdf（ https://gitlab.mister-muffin.de/josch/img2pdf ） img2pdfの特徴劣化がない（可逆変換） PDFに埋め込まれた画像は、すべてのピクセルが入力と同じカラー情報を持ちます。サイズが小さい可能であれば、入力画像と出力PDFとのファイルサイズの違いは、PDFコンテナー自体のオーバーヘッドのみになります。変換が高速可能であれば、入力画像はピクセルデータの再エンコードを行わずにそのままPDFドキュメントに貼り付けられます。このため、画像ファイルを画質を落とさず機械的にPDFファイルに変換したい場合には、とても有用なツールです。 img2pdfは、シェルコマンドあるいはPythonライブラリとして利用することができます。本記事では、『 Colaboratory＋GoogleドライブでVision APIの実験環境を作る』の流れから、Colaboratoryの環境内でimg2pdfを使って画像ファイルをPDFに変換する方法を考えてみました。（参考）本記事とは逆に、PDFファイルを画像化する記事『 Ubuntu/Colab環境でPDFファイルのページを画像化する（pdf2image、pdftoppm、pdftocairo）』も書いてみました。参考にしてください。［２］インストール方法以下のコマンドを実行するだけで、Colaboratory環境にimg2pdfをンストールできます。 !pip install img2pdf インスト