テクノ大福帳

投稿

8月, 2021の投稿を表示しています

Google Natural Language API を利用して固有表現とその付加情報（ナレッジグラフなど）を抽出する

- 8月 11, 2021

本記事では、Googleが提供しているCloud Natural Language API のエンティティ分析を利用して、テキストから人名、地名などの固有表現とその付加情報（ナレッジグラフやWikipediaへのリンクなど）を抽出してみます。【目次】［１］はじめに［２］GCPプロジェクトの準備［３］APIの仕様（１）LanguageService の利用（２）AnalyzeEntities メソッド（３）引数：AnalyzeEntitiesRequest （４）AnalyzeEntitiesRequest.encoding_type （５）戻り値：AnalyzeEntitiesResponse （６）Entity.type （７）Entity.metadata （mid,wikipedia_url他）（８）Entity.mentions ［４］Pythonクライアントライブラリの利用（１）準備（２）エンティティ分析の実行と結果確認用コード（参考）分析結果をJSONファイルに保存、再現する方法［５］エンティティ分析例（１）Wikipediaの固有表現抽出にある例（２）英語の文："California is a state." （３）日本語の地名を含む例（４）異なる漢字だけど同じエンティティの例（５）OCRから抽出した表形式データの例［６］最後に［１］はじめに本記事では、Googleが提供しているCloud Natural Language API を利用したエンティティ分析（Entity Analysis）を取り上げます。ここで、「エンティティ分析って何なの？」については、Googleのドキュメントに以下のように書かれています。エンティティ分析は、指定されたテキストに既知のエンティティ（著名人、ランドマークなどの固有名詞）が含まれていないかどうかを調べて、それらのエンティティに関する情報を返します。詳しくは以下のドキュメントを参照して下さい。エンティティ分析 https://cloud.google.com/natural-language/docs/analyzing-entities そもそも、「これは何に使えるのかな？」という素朴な疑問については、テキストからの情報抽出や情報検索などに...