アフィリエイト広告を利用しています

広告

posted by fanblog

2019年09月15日

【3日目成果】 英語版Udemy講座で学ぶ!SparkとpythonでBig Data解析





進捗47%(+13%)

順調ではあるが苦労した。

知識の定着が十分でなかったため、DataFrameの章の最後の練習問題に非常に時間がかかった。
原因を考えるといろいろ思い当たることがある。
・進捗を優先したために理解が不十分
・英語講義を理解せずに聞き流していた
・コマンド自体は簡単なので使うときに調ればいいや、と思い覚えなかった
・多数のコマンドを短時間にあてもなく説明されるのでストーリー立てて思い出すのが難しい
・勉強するにあたり目的意識が低い(仕事に直結するわけではない)

結局、問題の半分くらいで自力で解くことは中断し、DataFrameの章の復習をして自分なりにまとめてみた。そして、練習問題をやり直したがそれでもちょこちょこ確認が必要になった。
自分で重要と思って覚えているところと実際に手を動かして解く際に引っかかる場所が違っている感じだ。
まだ自分の頭の中でpysparkの勘所と整理ができていないのだろう。
時間がたったら、練習問題をやり直すことにして、次の機械学習の章に突入した。
これから1つの講義が終わったら、自分なりに何を学んだかメモをするようにする。
(ただし、概要のみ。これをトリガーに詳細を思い出せるようなメモ程度)

●DataFrameの章で学んだことのメモ
・pysparkの初期化/修了
・データのロード
 ・read.csv, read.json
 ・オプション指定
・データの基本情報
 ・describe,printSchema
・データの表示
 ・show, head
・データタイプの確認、設定
 ・type
・データ操作
 ・列選択、表示
  ["列名"], Select(["列名"])
 ・列追加
  withColumn
  withColumnRenamed
 ・sqlコマンド使用
  ・createOrReplaceTempView("名前")
  ・spark.sql("コマンド")
 ・行選択、表示
  ・filter
  ・グループ化
   ・groupBy
 ・行の辞書変換
  ・asDict()
・計算
 ・max,min,count,mean,sum(列),selectと組み合わせて使う。
 ・agg({列:上の関数})

・関数
 ・準備
  functions,
 ・関数
  countDistinct,avg,stddev
  alias
 ・数値フォーマット
  ・準備
   ・format_number
 ・ソート
  ・orderBy
   ・desc()

・日付処理
 ・関数
  dayofmonth,hour,dayofyear,month,year,weekofyear,data_format

・データなしの処理
 ・カラムで、個数で、どれか、すべて
  ・na.drop(how=any|all,thresh=None,subset=None)
 ・データ補完
  ・na.fill()
  ・中央値で補完mean




このコースへのリンク
Spark and Python for Big Data with PySpark






全般ランキング

タグ:Python SPARK
この記事へのコメント
コメントを書く

お名前: 必須項目

メールアドレス:


ホームページアドレス:

コメント: 必須項目

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/9201073
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
検索
<< 2021年12月 >>
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
最新記事
タグクラウド
カテゴリーアーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。
プロフィール
×

この広告は30日以上新しい記事の更新がないブログに表示されております。