投稿

8月, 2021の投稿を表示しています

Google Natural Language API を利用して固有表現とその付加情報(ナレッジグラフなど)を抽出する

イメージ
本記事では、Googleが提供しているCloud Natural Language API のエンティティ分析を利用して、テキストから人名、地名などの固有表現とその付加情報(ナレッジグラフやWikipediaへのリンクなど)を抽出してみます。 【目次】 [1]はじめに [2]GCPプロジェクトの準備 [3]APIの仕様 (1)LanguageService の利用 (2)AnalyzeEntities メソッド (3)引数:AnalyzeEntitiesRequest (4)AnalyzeEntitiesRequest.encoding_type (5)戻り値:AnalyzeEntitiesResponse (6)Entity.type (7)Entity.metadata (mid,wikipedia_url他) (8)Entity.mentions [4]Pythonクライアントライブラリの利用 (1)準備 (2)エンティティ分析の実行と結果確認用コード (参考)分析結果をJSONファイルに保存、再現する方法 [5]エンティティ分析例 (1)Wikipediaの固有表現抽出にある例 (2)英語の文:"California is a state." (3)日本語の地名を含む例 (4)異なる漢字だけど同じエンティティの例 (5)OCRから抽出した表形式データの例 [6]最後に [1]はじめに 本記事では、Googleが提供しているCloud Natural Language API を利用したエンティティ分析(Entity Analysis)を取り上げます。 ここで、「エンティティ分析って何なの?」については、Googleのドキュメントに以下のように書かれています。 エンティティ分析は、指定されたテキストに既知のエンティティ(著名人、ランドマークなどの固有名詞)が含まれていないかどうかを調べて、それらのエンティティに関する情報を返します。 詳しくは以下のドキュメントを参照して下さい。 エンティティ分析 https://cloud.google.com/natural-language/docs/analyzing-entities そもそも、「これは何に使えるのかな?」という素朴な疑問については、テキストからの情報抽出や情報検索などに...