テクノ大福帳

投稿

9月, 2020の投稿を表示しています

Colaboratory環境でGoogle Cloud Storage(GCS)と連携する(gsutil,gcsfuse)

- 9月 30, 2020

本記事では、gsutilとgcsfuseを利用したColaboratory環境とGoogle Cloud Storage（GCS）との連携について見ていきます。【目次】［１］概要（１）Vision APIに関連するGCSの利用シナリオ例（２）GCSとの連携方法（３）利用料金について［２］gsutil （１）Google Cloud Storage URI （２）一般公開データのダウンロード例（３）認証（４）プロジェクトの設定（オプション）（５）URIとワイルドカード（６）gsutil ls：バケットやオブジェクトの情報表示（７）gsutil cp：ファイルやフォルダのコピー［３］Cloud Storage FUSE（gcsfuse）（１）インストール（２）認証（３）マウントして利用する（４）マウントの解除（５）他ツールとの共存：ディレクトリの扱いなどの問題［１］概要 Google Cloud Storageは、公式ドキュメント（ https://cloud.google.com/storage/docs?hl=ja ）で以下のように説明されています。 Cloud Storage は、Google Cloud でオブジェクトを保存するためのサービスです。オブジェクトとは、任意の形式のファイルで構成される不変のデータのことです。オブジェクトをバケットと呼ばれるコンテナに保存します。すべてのバケットがプロジェクトに関連付けられ、組織のプロジェクトをグループ化できます。これは技術的側面からの説明ですが、大雑把に言えば、Google Cloud Platform（GCP）が提供するデータ保管サービスの一つです。利用方法によっては、OSのファイルのように扱うこともできます。本記事では、Google Cloud Storageについての説明は行いませんが、記事『 Colaboratory＋GoogleドライブでVision APIの実験環境を作る』の流れから、Colaboratory環境からGoogle Cloud Storageを利用する方法を見ていきます。また、利用例などはVision APIの利用に関するものを中心としています。以下は、Google Cloud StorageをGCSと略して書きます。（１

Vision API OCR事始め(1)：TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違い

- 9月 26, 2020

これまでの記事で、Google Vision APIの使い方の側面（特にPython）について見てきましたが、平行して、今回からOCR（光学文字認識）の機能面についても見ていきたいと思います。まずは、OCRにあたる２つの機能（特徴タイプ）であるTEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違いについて見ていきます。【目次】［１］はじめに［２］Vision APIが提供する２つのOCR機能［３］「～向けに最適化されます」とは？［４］簡単な実験での違いの例（１）スパースと思われる画像の例（２）高密度と思われる画像の例（３）少し難しい漢字の例（文字の大きさによる違い）（４）手書き文書の例（５）TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの二つを同時に指定した場合の例［５］実験から受ける印象［６］最後に［１］はじめに Google Vision APIのOCRは評判が良く、私もデモを見て凄いなと思いました。昔、仕事でOCRをちょっとだけ使ったことがありますが、その頃を思うと、隔世の感があります。そこで実際に使ってみようと思って、ドキュメント（ガイド）を読んだり、サンプルを試してみたりしました。それはなんとなく理解できるのですが、現実の問題に適用しようとすると、ある画像形式に対してどのような機能を使い、どのように結果を解釈するのが良いのか、など、もう少し自分なりに頭の整理が必要だと感じました。というわけで、Googleが公開している資料や実験を通して、私なりに理解したことを共有していきたいと思います。ただし、私はOCRや画像処理、機械学習の専門家ではありませんので、誤った理解もあるかもしれません。また、資料や実験結果は、記事を書いている時点のものであり、モデルのバージョンアップやサービス内容の変更によって、結果が異なる可能性があることをご了承ください。［２］Vision APIが提供する２つのOCR機能 Vision APIでは、OCR機能として、「テキスト検出」と「ドキュメントテキスト検出（高密度テキスト / 手書き）」の２つを提供しています。これらは、機能リスト（ https://cloud.google.com/vision/docs/featu

Vision API Pythonクライアントライブラリを少し深堀りする（BatchAnnotateFiles編）

- 9月 16, 2020

本記事では、『 Vision API Pythonクライアントライブラリを少し深堀りする（BatchAnnotateImages編）』に続いて、Vision APIのPythonクライアントライブラリを利用した、PDFファイルなどから特徴検出を行う同期メソッド（BatchAnnotateFilesに対応するメソッド）の使い方について少し深堀します。＜＜お知らせ（2020/10/05）＞＞ Vision API Pythonクライアントライブラリの新バージョン（v2.0.0）が2020年9月29日付でリリースされています。本記事の内容はv1.0.0をもとに書いていますので、v2.0.0とは異なる内容、V2.0.0では動作しないコードを含んでいます。 v2.0.0については、『 Vision API Pythonクライアントライブラリ v2.0.0リリース（BREAKING CHANGES 有り）』を参照してください。【目次】［１］はじめに［２］BatchAnnotateFilesメソッド［３］batch_annotate_filesメソッド［４］リクエストデータの表現方法（１）InputConfig：ファイルのバイナリデータを送信する場合（２）InputConfig：Google Cloud Storageのパスを指定する場合（３）Feature：検出したい特徴の指定（４）ImageContext：特徴タイプ固有のパラメータを設定する場合（５）pagesフィールド：検出対象ページの指定［５］batch_annotate_filesの呼び出し（１）ローカルに保存されたファイルを使用する（２）Cloud Storage 上のファイルを使用する［６］レスポンスデータの扱い（１）概要（２）リクエスト時のページ指定と結果ページの関係［１］はじめに本記事は、前回の記事『 Vision API Pythonクライアントライブラリを少し深堀りする（BatchAnnotateImages編）』に続いて、PDFファイルなどから特徴検出を行う同期メソッド（BatchAnnotateFilesに対応するメソッド）について、少し深堀します。 Vision APIのPythonクライアントライブラリのパッケージ内容や、画像から

Vision API Pythonクライアントライブラリを少し深堀りする（BatchAnnotateImages編）

- 9月 12, 2020

本記事では、『 Vision API クライアントライブラリの概要（Python編）』に続いて、Vision APIのPythonクライアントライブラリのパッケージ内容を概観し、画像から特徴検出を行う同期メソッド（BatchAnnotateImagesに関連するメソッド）について少し深堀します。＜＜お知らせ（2020/10/05）＞＞ Vision API Pythonクライアントライブラリの新バージョン（v2.0.0）が2020年9月29日付でリリースされています。本記事の内容はv1.0.0をもとに書いていますので、v2.0.0とは異なる内容、V2.0.0では動作しないコードを含んでいます。 v2.0.0については、『 Vision API Pythonクライアントライブラリ v2.0.0リリース（BREAKING CHANGES 有り）』を参照してください。【目次】［１］はじめに（１）参考情報など（２）ライブラリを利用するための準備作業［２］google.cloud.visionパッケージ概要（１）vision.ImageAnnotatorClientクラス（２）vision.enums（定数定義）（３）vision.types（データ型定義）（４）補足［３］BatchAnnotateImagesに関連するメソッドの構成（参考）ImageAnnotatorClientクラスの実装構成［４］リクエストデータの表現方法（１）Image：画像のバイナリデータを送信する場合（２）Image：画像のURIを指定する場合（３）Feature：検出したい特徴の指定（４）ImageContext：特徴タイプ固有のパラメータを設定する場合［５］特徴タイプ毎のメソッド（text_detectionなど）（１）利用例（２）Feature.modelに関する注意事項［６］annotate_imageメソッド（１）利用例（２）featuresに関する注意事項［７］batch_annotate_imagesメソッド（１）利用例［８］レスポンスデータとエラー［９］JSON、ディクショナリとの相互変換（１）google.protobuf.json_format モジュール（２）Protocol Buffersのクラ