投稿

9月, 2021の投稿を表示しています

Google AutoML Tables の機械学習を使ってカード利用明細から家計簿の勘定科目を予測する(2)トレーニング

イメージ
教師付きの機械学習サービスである Google AutoML Tables を使って、クレジットカードの利用明細(CSVファイル)から家計簿の勘定科目を予測してみます。第2回目の本記事では、前回作成したトレーニングデータを用いて機械学習モデルを作成します。 【目次】 [1]はじめに [2]AutoML Tables で機械学習モデルを作るまでの流れ [3]GCPプロジェクトの準備 [4]データセットの作成 [5]データセットにトレーニングデータをインポート (1)トレーニングデータのインポート方法 (2)データセットと連携するCloud Storage バケットの準備 (3)トレーニングデータのインポート (4)インポートに失敗する例など [6]機械学習モデルの作成(トレーニング) (1)トレーニングの開始方法 (2)データ型とその関連情報 (3)データセットの分割 (4)モデルアーキテクチャ (5)トレーニングエラーの例 [7]作成した機械学習モデルの評価 [8]再トレーニング、データの削除など [9]引き続き… [1]はじめに 本記事は、前回の記事『 Google AutoML Tables の機械学習を使ってカード利用明細から家計簿の勘定科目を予測する(1)準備 』の続き(第2回)です。 前回の記事で、過去のクレジットカード会社のサイトからダウンロードしたCSVファイルと対応する家計簿の勘定科目から、勘定科目を予測するためのトレーニングデータを作成しました。 本記事では、このトレーニングデータを使って、Google AutoML Tables でトレーニングを行い、勘定科目を予測するための機械学習モデルを作成します。 AutoML Tables の使い方はとても簡単なので操作説明だけならすぐに終わるのですが、関連することを少し書くと長くなりましたので、今回作成するモデルを使った予測やその後の試行錯誤については、以降の記事で書きます。 第1回 準備 第2回 トレーニング 第3回 AutoML Tables 環境を利用したバッチ予測、オンライン予測 第4回 モデルをエクスポートしてローカルDocker環境で予測 第5回 モデルの評価と改良 [2]AutoML Tables で機械学習モデルを作るまでの流れ Google

Google AutoML Tables の機械学習を使ってカード利用明細から家計簿の勘定科目を予測する(1)準備

イメージ
教師付きの機械学習サービスである Google AutoML Tables を使って、クレジットカードの利用明細(CSVファイル)から家計簿の勘定科目を予測してみます。 本記事では、AutoML Tables の概要をみて、トレーニングデータの準備を行います。 【目次】 [1]はじめに [2]AutoML Tables を利用した機械学習の基本的な流れ (1)アプリ制作と対比して機械学習の流れを考えてみる (2)AutoML Tables で機械学習モデルを作るまでの流れ [3]課題の設定:今回試してみること [4]トレーニングデータの収集(作成) (1)目的やデータ項目など (2)CSVファイルのレイアウトなど (3)データの作成 引き続き… [1]はじめに 少し前までAIブーム(機械学習ブーム)といった感じだったのが、機械学習はもはやブームというより、(進化は続いてますが)定着した技術分野といった感じになってきました。 とはいっても、今でも機械学習の基礎的な理論から勉強しようとすると敷居の高さを感じます。一方で、機械学習を利用する立場で考えると、分かりやすい書籍、セミナー、サンプルなどもいっぱいありますし、充実したツール群や実行環境も揃ってきて、敷居がとても低くなりました。 つまり、理論的なことはあまり考えなくても、ツールが使えれば、何らかの結果が出せる時代が来つつあるように思えます。(少し違うかもしれませんが、電卓の内部的な仕組みは理解してなくても、電卓を使って計算ができるのと似てきた感じです。) ところで、scikit-lerrn、TensorFlow、PyTorchなど有名な機械学習ツールを使った書籍を読んでサンプルデータを試してみると、その結果に凄さを感じたり、納得するものはあるのですが、自分で機械学習を使った課題に取り組んでみると、以下のような素朴な疑問に突き当たります。 データの前処理が重要といわれるけど、自分の知識範囲の対応で大丈夫なのか? 最良そうなアルゴリズムをちゃんと選択できているのか? トレーニングからデプロイまでの環境構築が面倒なのでは? 予測したい問題について、一般的にどの程度の精度が出せるべき問題なのか?といった指標が無いと、自分が作ったモデルの良し悪しが判断し難い? 具体的には、仮に、専門家が作るモデルと、