新規記事の投稿を行うことで、非表示にすることが可能です。
2019年09月19日
【7日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析
進捗70%(+5%)
Decision Tree&RandomForestsのプロジェクト演習完了。
できたはできたが、模範解答とは違ったが。そろそろ、習ったことだけでなく、
それをきっかけに、ライブラリの詳細をドキュメントで見ていく必要があるのかなあ。
理論の知識も充実していく必要がありそう。
K-means Clusteringのセクションへ入った。
K-means Clustring(K平均法)はクラスタリングのアルゴリズムだ。与えられたK個にクラスタへ分類を行う。
処理の流れは
1、featureの取り出し
2、シード設定
3、クラスタリング実行
4、コスト計算、中心計算
といった流れだ。
教師なしのアルゴリズムであるため、クラスタリング実行の際は、元データを学習データ、テストデータへ振り分ける処理は必要がない。
この部分が今まで習った機械学習と大きく異なる点だ。
また、距離の概念が入るため、扱うのは数値になるので、StringIndexerとかは必要なさそうだ。
その分、コードもシンプルになるので、簡単に感じる。
このコースへのリンク
Spark and Python for Big Data with PySpark
全般ランキング
タグ:機械学習