アフィリエイト広告を利用しています

広告

この広告は30日以上更新がないブログに表示されております。
新規記事の投稿を行うことで、非表示にすることが可能です。
posted by fanblog

2019年10月27日

【3日目】Udemy講座で学ぶ!実践 Python データサイエンス





進捗 29%
順調に進めている。

■セクション4:Pandas入門

Series, Frameの基本の勉強。
相変わらず、2倍速で講義は聞いて、概要をメモしてそれをjupyter notebookで再現する作業を繰り返している。
講義を聞いた時はできる!と思っても、いざ、手を動かすとまったくイメージが違い、エラーが出まくる。自分で書くので習得している感覚があるのが良い。

それにしても、Series, DataFrameはたくさん機能がある。実際どのぐらいの違いがあるのか?
ということでこれらのattribute, methodsを抽出するプログラムを書いてみた。


import bs4
import requests
from pandas import Series

infolist =[]
infolist.append({
'url':'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html',
'name':"DataFrame",
'index':[1,2]
})
infolist.append({
'url':'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html',
'name':"Series",
'index':[1,3] #Seriesのページはemptyの表があるのでそれをスキップするため、1,3とした
})

for info in infolist:
print(info['url'])
result = requests.get(info['url'])
c = result.content
processed =bs4.BeautifulSoup(c,'lxml')

print(info['name'])
id_name = 'pandas-' + info['name'].lower()

summary = processed.find_all('div',{'class':'section','id':id_name})

tables = summary[0].find_all('table')

cat = Series(info['index'], index={"Attribute", "Methods"})

for index in cat.index:
rows = tables[cat[index]].find_all('tr')

data = []

for row in rows:
cells = row.find_all('td')
t = cells[0].find(text=True)
data.append(t)

print("{} : count:{}".format(index,len(data)))
for i in data:
print(i)

print("")



なるほど、Seriesのほうが属性がちょっと多くて、メソッドは同じ数だけあるのか。
Webスクレイピングの復習になるし、ちょっと無理やりだがSeriesも使ってみた。

Series:
属性:34
メソッド:201

DataFrame:
属性:19
メソッド:201

■次は

 セクション4:Pandas入門のつづきを学ぶ。


このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス







全般ランキング

2019年10月26日

【2日目】Udemy講座で学ぶ!実践 Python データサイエンス





進捗 22%
順調に進めている。
先に周辺知識の確認ということで付録のところをだいたい終わらせてしまう。

■セクション11:付録A:Pythonの基礎

pythonの基礎の復習。math関数やら、文字列、リスト、レンジ...一通り、この講座で扱う基本的なものを抑えてあるそうだ。特に問題なく確認完了。このレベルならpython自体で詰まることはなさそう。

■セクション12:付録B:統計入門

”入門”という割にはいきなり、確率分布から入るのか!と敷居が高い感じ。とりあえず、後回しにして、他の付録を行う。

■セクション13:付録C:SQLとPython

SQLに関しては"The Complete SQL Bootcamp"で以前勉強済である。ただし、pythonとの組み合わせはpsycopg2を使って勉強した。
今回はsqlite3との組み合わせということで少し違った感じでpythonでのsqlの使い方を学ぶ。

■セクション14:付録D:Webスクレイピング

勢い余って最後の付録も勉強してしまう。pythonを使ったWebスクレイピング。BeautifulSoup, reqestsなどのモジュールは今のjupyter notebookでは予めインストールされているようで追加で作業がないので楽だ。
ふむふむ、こうやるのか、と動画を2倍速で見て全体像のイメージをつかみながら、概要をメモしておき、見終わったら、notebookの手本を見ながら、自分でコーディングをしてみる、という流れで進める。

■次は

 セクション4:Pandas入門、統計入門を学ぶ。


このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス






全般ランキング

タグ:Python SQL

2019年10月25日

【1日目】Udemy講座で学ぶ!実践 Python データサイエンス





進捗 13%
順調に進めている。
このコースの山場はセクション9,10の実践データ解析と機械学習の所だろう。

■セクション2:準備

特に何もない。Anaconda,jupyter notebookを使う。

■セクション3:numpyを知ろう

numpy自体は前回のopencvのコースの際に一部、勉強済ではある。
numpyは機能が豊富なのでいろいろなことができる。
行列の生成、計算、スライス、転置、exp,sqrtなどの科学系計算、リスト内包表記、合計、平均、分散などの統計計算...

https://docs.scipy.org/doc/numpy/reference/?v=20191025053208

講義の聞きながらただ手を動かしただけでは、十分習得できない。なので習ったことの概要をメモにまとめ、メモを見ながらコマンドが書けるかを練習。

このセクションではnumpyに加えて、matplotlibでの可視化の部分まで勉強した。

■次は

pandasの勉強に入る。付録A(python基礎),B(統計入門),C(SQLとpython)も着手する予定。


このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス







全般ランキング


タグ:numpy

2019年10月24日

Udemy講座で学ぶ!実践 Python データサイエンス





はじめに
Pythonを用いて、データサイエンスを学ぶ。


講座名:【世界で5万人が受講】実践 Python データサイエンス


このコースの受講動機
ビックデータ、機械学習、python...データサイエンスは注目分野であり、急速な技術の広がりを見せている。最近は、普段の仕事でもデータを基にしてビジネス上の判断を行うことが多くなっており、その際に大量のデータを迅速に正しく解析することが求められるようになっている。
この講座では、pythonを使ってこれらの技術を学ぶコースで、受講者数2.7万人と多くの人々が学んでいる実績のあるコースである。このコースを学んでpythonを使ったデータ分析を学びたい。

このコース完了の際のゴールイメージ
・python,numpy,pandasを使って配列を使った数値計算、データ解析が自由にできる
・matplotlibとseabornを使って美しいデータの可視化ができる
・機械学習の基礎知識を復習して、その説明ができる
・実際のデータを解析する方法論を学び、データ解析ができる
・統計の基礎の復習を行い、データ解析の際に活用できる





コース詳細の紹介
・レクチャー数と時間
 ・104レクチャー、17.5時間のビデオ

・言語
 ・日本語

・内容要約
 ・Pythonを使った基本的なプログラミング
 ・IPython notebookを使ったPythonプログラミング
 ・numpyを使ったベクトルや行列の操作
 ・pandasを使ったデータ処理
 ・JSON、HTML、Excelシートなどのデータ形式をPythonで扱う
 ・matplotlib、seabornを使ったデータの可視化
 ・応用範囲の広いデータ解析のスキル

・受講に際しての前提条件
 ・基礎的な数学のスキル
 ・パソコン(OSは、Mac、Windows、Linuxどれでも可)
 ・あとは、やる気

計画
・15日程度で完了するつもりで受講をする。


このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス







全般ランキング
検索
<< 2021年12月 >>
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
最新記事
タグクラウド
カテゴリーアーカイブ
プロフィール
peter3qさんの画像
peter3q
エンジニアとして働いている40代の会社員です。 仕事でメインに使用している言語はC/C++です。 プライベートでは、大学生の息子と中学生の娘がいて、 週末、料理をし、毎年、梅シロップを付けています。
プロフィール
×

この広告は30日以上新しい記事の更新がないブログに表示されております。