【6日目成果】英語版Udemy講座で学ぶ！SparkとpythonでBig Data解析: Udemyで技術習得！気の向くままにのんびりと

2019年09月18日

【6日目成果】英語版Udemy講座で学ぶ！SparkとpythonでBig Data解析

進捗65%(+7%)

Logistic Regressionの学習を終えてDecision とRandomForestsのセクションに突入。

Logistic Regressionの学習ではPipeLineのところで躓いた。
PipleLineに渡すのリストを文字列と勘違いして、しばらく悩んでしまった。
後から考えてみるとエラーメッセージも正しく出ていたし、普通に考えて、関数を1つずつ実行するのだから、リストが文字列になる訳がないのだが。。。
何とかプロジェクト練習問題も終えることができた。

Decision とRandomForestsは、スラスラ進んでいる。
コーディングは特に問題ないが実行結果の評価方法の理解が若干怪しい。
いろいろ評価パラメータが出てくるので何で評価をしているのかを深く理解したい。

機械学習のアルゴリズムだが、

１、データ読み込み
２、データ準備
３、トレーニング
４、テスト
５、評価

の流れで進むので処理がほとんど同じようコーディングの流れになっているので覚えやすい。
普通に考えて、１，２，５はアルゴリズムによらず、だいたい一緒だし、強いて言うなら、入力データの文字列をインデックスに変換する処理が必要になるくらいだ。
また、機械学習の要の３，４も結局は関数に入力データを入れて、計算するだけなので、どれもこれも一緒になってしまうのだろう。

できれば、今週末には受講を完了したい。

このコースへのリンク
Spark and Python for Big Data with PySpark