【8日目成果】英語版Udemy講座で学ぶ！SparkとpythonでBig Data解析: Udemyで技術習得！気の向くままにのんびりと

2019年09月20日

【8日目成果】英語版Udemy講座で学ぶ！SparkとpythonでBig Data解析

進捗81%(+11%)

K-means Clusteringのプロジェクト演習まで来た。
いつもの通り、サマリを作っておき、ゼロから自分でコードを再生できるところまで練習した状態で状態でプロジェクト演習を行う。

サマリ：
・データの読み込み
・KMeans宣言
・入力データ作成
・スケール適用
・入力データをスケール結果に置換
・KMeans適用
・wssse
・クラスタリングのセンター
・分類確認

プロジェクト演習は何の問題もなく完了。

次にRecommender Systemのセクションに入る。
このセクションはプロジェクト演習なし。

リコメンダーシステムは大きく分けて2つあるとのこと。
①コンテンツベース
②CF(コラボレーティブフィルタリング）

pyspark.mlライブラリでは、ALSという②のコラボレーティブフィルタリングを
サポートしている。

サクッと終わらせてNLPに入る。

Natural Language Processing(NLP)とはテキストをクラスタリングしたり、比較することにより、おすすめの本を表示したり、Spamメールを摘出をしたり、ドキュメントの分類や解析を行ったりすることができる。
アルゴリズムとしては、ＴＦ－ＩＤＦ(Term Frequency Inverse Document Frequency)が真っ先に挙げれる。
テキスト解析するためには、テキストを単語単位に分解したり、解析に不要な単語（aとかtheとか）を取り除くような処理が必要になる。
pysparkにはこれの機能が備わっているので、一通りの動作をコーディングしながら確認した。

このコースへのリンク
Spark and Python for Big Data with PySpark