Ubuntu/Colab環境でPDFファイルのページを画像化する(pdf2image、pdftoppm、pdftocairo)
本記事では、UbuntuやGoogle Colaboratory環境で、オープンソースライブラリのPoppler(poppler-utilsに含まれるpdftoppm、pdftocairo)あるいはPythonライブラリのpdf2imageを利用して、PDFファイルのページをJPEGなどの画像ファイルに変換する方法を見ていきます。 【目次】 [1]PDFファイルを画像に変換したいとき? [2]PDFファイル扱うオープンソースライブラリ (参考)ページの画像化と情報抽出について [3]コマンドラインからの利用:poppler-utils (1)poppler-utils (2)インストール (3)pdftoppmの利用例 (4)pdftocairoの利用例 [4]Pythonからの利用:pdf2image (1)pdf2image (2)インストール (3)最も簡単な使い方 (4)メモリを節約する方法(output_folderを利用する方法) (5)メモリを節約する方法(fmtを利用する方法) (6)サムネイルの作成サンプル (7)ページを指定して変換する方法(first_page, last_page) (8)大量ページの変換速度を上げる方法(thread_count) (9)解像度(dpi) (10)pdftocairo/pdftoppmの画像変換結果を直接利用する(use_pdftocairo) (参考)pdfinfo_from_path関数 [1]PDFファイルを画像に変換したいとき? PDF(Portable Document Format)ファイルは広く使われている電子文書です。 PDFファイルは、ブラウザでも表示できますし、無料のAdobe Acrobat Readerをインストールして表示することもできます。 しかし、こういったツールでファイル内容を表示するだけではなく、PDFファイル内のページをJPEGなどの画像ファイルに変換して利用したい場合もあります。 例えば、システム開発において、Webサイトやアプリ内で、PDFファイルの概要をサムネイル表示したいとか、PDFファイルをダウンロードさせたり、ブラウザの別タブでPDFファイルを表示するのではなく、(導線が途切れないように)ページを移動することなく内容を見てもらいたい場合など、いろいろ...