新規記事の投稿を行うことで、非表示にすることが可能です。
2019年09月16日
【4日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
進捗55%(+8%)
まあまあ順調。
達成感があり、楽しい。
LinearRegressionの学習。
一通り理論の説明とコードの説明を受講した後、自分で0から機械学習のコードが再現できるように時間をかけて練習を重ねた。
再現をする際にpyspark.mlとpyspark.mllibの2つが出てきてmllibを選択するとRDD用のAPIのため、現在勉強しているDataFrameの場合はその後必要なAPIが出てこなくなり、うまくコード化ができない罠に引っかかってしまった。
自動補完に頼りきりになったり、大体感覚で覚えているのではだめで、実際に自分で0からコードを書いて練習することが良いことを再認識した。
この章の最後は模擬プロジェクトでの練習問題だ。
この部分はリアル感があり、非常に面白い。背景説明から入り、データを与えられて、機械学習のモデルを作るのだ。
0からのLinearRegressionの機械学習のコードをかけるようにしてから臨んだため、スラスラ解くことができ、非常に達成感がある。
Logistic Regressionの学習。
LinearRegressionと違い、分類をするための機械学習だ。
ただし、LinearRegressionのコードと似ている所もあるので、とっつきやすい。タイタニックを題材とした問題をスタートするところで本日の学習は終わりとした。
このコースへのリンク
Spark and Python for Big Data with PySpark
全般ランキング