アフィリエイト広告を利用しています

広告

posted by fanblog

2019年09月20日

【8日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析





進捗81%(+11%)

K-means Clusteringのプロジェクト演習まで来た。
いつもの通り、サマリを作っておき、ゼロから自分でコードを再生できるところまで練習した状態で状態でプロジェクト演習を行う。

サマリ:
・データの読み込み
・KMeans宣言
・入力データ作成
・スケール適用
・入力データをスケール結果に置換
・KMeans適用
・wssse
・クラスタリングのセンター
・分類確認


プロジェクト演習は何の問題もなく完了。

次にRecommender Systemのセクションに入る。
このセクションはプロジェクト演習なし。

リコメンダーシステムは大きく分けて2つあるとのこと。
@コンテンツベース
ACF(コラボレーティブフィルタリング)

pyspark.mlライブラリでは、ALSというAのコラボレーティブフィルタリングを
サポートしている。

サクッと終わらせてNLPに入る。

Natural Language Processing(NLP)とはテキストをクラスタリングしたり、比較することにより、おすすめの本を表示したり、Spamメールを摘出をしたり、ドキュメントの分類や解析を行ったりすることができる。
アルゴリズムとしては、TF−IDF(Term Frequency Inverse Document Frequency)が真っ先に挙げれる。
テキスト解析するためには、テキストを単語単位に分解したり、解析に不要な単語(aとかtheとか)を取り除くような処理が必要になる。
pysparkにはこれの機能が備わっているので、一通りの動作をコーディングしながら確認した。


このコースへのリンク
Spark and Python for Big Data with PySpark






全般ランキング

この記事へのコメント
コメントを書く

お名前: 必須項目

メールアドレス:


ホームページアドレス:

コメント: 必須項目

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/9219899
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
検索
<< 2021年12月 >>
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
最新記事
タグクラウド
カテゴリーアーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。
プロフィール
×

この広告は30日以上新しい記事の更新がないブログに表示されております。