テクノ大福帳

投稿

10月, 2020の投稿を表示しています

Ubuntu/Colab環境でPDFファイルのページを画像化する（pdf2image、pdftoppm、pdftocairo）

- 10月 31, 2020

本記事では、UbuntuやGoogle Colaboratory環境で、オープンソースライブラリのPoppler（poppler-utilsに含まれるpdftoppm、pdftocairo）あるいはPythonライブラリのpdf2imageを利用して、PDFファイルのページをJPEGなどの画像ファイルに変換する方法を見ていきます。【目次】［１］PDFファイルを画像に変換したいとき？［２］PDFファイル扱うオープンソースライブラリ（参考）ページの画像化と情報抽出について［３］コマンドラインからの利用：poppler-utils （１）poppler-utils （２）インストール（３）pdftoppmの利用例（４）pdftocairoの利用例［４］Pythonからの利用：pdf2image （１）pdf2image （２）インストール（３）最も簡単な使い方（４）メモリを節約する方法（output_folderを利用する方法）（５）メモリを節約する方法（fmtを利用する方法）（６）サムネイルの作成サンプル（７）ページを指定して変換する方法（first_page, last_page）（８）大量ページの変換速度を上げる方法（thread_count）（９）解像度（dpi）（１０）pdftocairo/pdftoppmの画像変換結果を直接利用する（use_pdftocairo）（参考）pdfinfo_from_path関数［１］PDFファイルを画像に変換したいとき？ PDF（Portable Document Format）ファイルは広く使われている電子文書です。 PDFファイルは、ブラウザでも表示できますし、無料のAdobe Acrobat Readerをインストールして表示することもできます。しかし、こういったツールでファイル内容を表示するだけではなく、PDFファイル内のページをJPEGなどの画像ファイルに変換して利用したい場合もあります。例えば、システム開発において、Webサイトやアプリ内で、PDFファイルの概要をサムネイル表示したいとか、PDFファイルをダウンロードさせたり、ブラウザの別タブでPDFファイルを表示するのではなく、（導線が途切れないように）ページを移動することなく内容を見てもらいたい場合など、いろいろ

Vision API OCR事始め(3)：textAnnotations

- 10月 24, 2020

『 Vision API OCR事始め(2)：検出されたテキストの階層構造（fullTextAnnotation）』に続いて、今回はもう一つのOCRレスポンスデータ表現（textAnnotations）を見ていきます。【目次】［１］textAnnotationsとは［２］textAnnotationsが得られる条件［３］textAnnotationsの構造［４］具体的な例（１）設定されるフィールドの確認（２）localeの確認（３）画像テキスト全体の領域（４）画像全体のテキスト［５］fullTextAnnotationとの対応関係の確認［６］textAnnotationsの内容のまとめ（１）AnnotateImageResponse.text_annotationsフィールド（２）先頭要素のEntityAnnotation型オブジェクト（３）後続要素のEntityAnnotation型オブジェクト（参考）EntityAnnotation.midフィールド［７］fullTextAnnotationとの使い分け［１］textAnnotationsとは Google Vision APIの機能リスト（ https://cloud.google.com/vision/docs/features-list?hl=ja ）によると、OCR（テキスト検出とドキュメントテキスト検出）機能のレスポンスには、２種類のデータ構造（表現）があるようです。 fullTextAnnotation OCR で検出されたテキスト（fullTextAnnotation）の構造的階層（TextAnnotation -> Page -> Block -> Paragraph -> Word -> Symbol） textAnnotations テキストであると識別された単語、境界ボックス、textAnnotations のリスト fullTextAnnotationについては、記事『 Vision API OCR事始め(2)：検出されたテキストの階層構造（fullTextAnnotation）』を参照してください。本記事では、もう一つのtextAnnotationsについて見ていきます。ところで、公式ドキュメントの表現

Vision API OCR事始め(2)：検出されたテキストの階層構造（fullTextAnnotation）

- 10月 17, 2020

『 Vision API OCR事始め(1)：TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違い』に続いて、今回は、Google Vision API OCRのレスポンスデータに含まれるテキストの階層構造（fullTextAnnotation）を中心に見ていきます。【目次】［１］はじめに［２］テキストの階層構造（fullTextAnnotation）（１）概要（２）PageとTextAnnotation.pagesフィールド（３）BlockType （４）トラバースサンプル［３］TextProperty （１）DetectedLanguage （２）DetectedBreak ［４］TextAnnotation.text ［５］テキスト要素のconfidenceフィールド（１）TEXT_DETECTIONの場合（２）DOCUMENT_TEXT_DETECTIONの場合［６］テキスト要素のbounding_boxフィールド（１）JPEGなどの画像（BatchAnnotateImages、AsyncBatchAnnotateImagesメソッド）の場合（２）PDFファイル（BatchAnnotateFiles、AsyncBatchAnnotateFilesメソッド）の場合［７］最後に［１］はじめに記事『 Vision API OCR事始め(1)：TEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONの違い』では、Google Vision APIのOCR機能であるTEXT_DETECTIONとDOCUMENT_TEXT_DETECTIONによって抽出されるテキストの大雑把な傾向について見ました。今回から、OCRによって抽出されるテキスト情報の詳細なデータ構造について見ていきます。 Google Vision APIの機能リスト（ https://cloud.google.com/vision/docs/features-list?hl=ja ）には、テキスト検出（TEXT_DETECTION）とドキュメントテキスト検出（高密度テキスト / 手書き）（DOCUMENT_TEXT_DETECTION）のレスポンスデータとして、 OCR で検出されたテキスト（fullTextA