新規記事の投稿を行うことで、非表示にすることが可能です。
2019年10月31日
【7日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 45%
粛々と進めている。今回の講義は1つ1つが短く比較的短時間に終わった。
■セクション6:データ解析の基礎 その2(つづき)
DataFrame, Seriesの変換が、インデックスなどを指定して簡単にできる。違う切り口としてピボットテーブルのさわりを学んだ。また、重複データの検出や削除とマッピングによるデータ追加やデータの置換に関して学んだ。■次は
セクション6:データ解析の基礎 その2を完了させる。
新しいPCがようやく来るのでそのセットアップと環境意向を行う。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
タグ:pandas
2019年10月30日
【6日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 40%
疲れで睡眠量多めだが、少しずつ進めている。
そろそろ、新しいPCが来る頃。来たら、そのセットアップを行い、すぐに移行したい。
■セクション6:データ解析の基礎 その2
このセクションでは、データのマージ、ピボットテーブルなどを勉強する。
array, Series, DataFrameを水平方向、垂直方向、取捨選択するデータなどの様々な設定でマージを行う。また、マージの際のNanデータに対する処理に関しても学ぶ。
array, Series, DataFrameの生成やaxis指定に関しては何度もやっているので、いい加減慣れてきた。
SQLのマージ機能とやっていることは似ているが、多層構造のインデックスに対するマージなど非常にいろいろなことができて知って使いこなせていれば仕事際に便利に使えそうだ。
■次は
セクション6:データ解析の基礎 その2を続ける。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
タグ:pandas
2019年10月29日
【5日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 36%
何とか進めている。
■セクション4:Pandas入門
インデックスの階層構造の部分。インデックスやカラムのリストを多重にすることにより、多重階層のSeries, DataFrameが可能になる。そして、その階層構造の変更も簡単にできる。
これは便利。
■セクション5:データ解析の基礎 その1
このセクションではcsv, json,html, excel形式などの様々なフォーマットのファイルからデータを読み込む方法を勉強する。
このセクションはファイルの読み込みなので簡単に終了した。
■次は
セクション6:データ解析の基礎 その2、データのマージ、ピボットテーブルなどに続く
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
2019年10月28日
【4日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 30%
失速。疲れか、やたらと週末寝てしまった。
■セクション4:Pandas入門
統計量の一括計算、describe。
ん、これはやった気がする。pysparkのところで多用した気がする。
Pandas, pyspark共にDataFrameがある。位置づけ的には同じ感じだ。
微妙にmethodやできることは違うようだ。
今度調べてみたい。
欠損値の取り扱いに関して。削除したり、指定した値で埋めたりすることができる。この辺りは、実際のデータ解析でもプレ処理のデータクレンジングの際に使いそうだ。地味に面白い。
■次は
セクション4:Pandas入門のつづきを学ぶ。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
2019年10月27日
【3日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 29%
順調に進めている。
■セクション4:Pandas入門
Series, Frameの基本の勉強。
相変わらず、2倍速で講義は聞いて、概要をメモしてそれをjupyter notebookで再現する作業を繰り返している。
講義を聞いた時はできる!と思っても、いざ、手を動かすとまったくイメージが違い、エラーが出まくる。自分で書くので習得している感覚があるのが良い。
それにしても、Series, DataFrameはたくさん機能がある。実際どのぐらいの違いがあるのか?
ということでこれらのattribute, methodsを抽出するプログラムを書いてみた。
import bs4
import requests
from pandas import Series
infolist =[]
infolist.append({
'url':'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html',
'name':"DataFrame",
'index':[1,2]
})
infolist.append({
'url':'https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html',
'name':"Series",
'index':[1,3] #Seriesのページはemptyの表があるのでそれをスキップするため、1,3とした
})
for info in infolist:
print(info['url'])
result = requests.get(info['url'])
c = result.content
processed =bs4.BeautifulSoup(c,'lxml')
print(info['name'])
id_name = 'pandas-' + info['name'].lower()
summary = processed.find_all('div',{'class':'section','id':id_name})
tables = summary[0].find_all('table')
cat = Series(info['index'], index={"Attribute", "Methods"})
for index in cat.index:
rows = tables[cat[index]].find_all('tr')
data = []
for row in rows:
cells = row.find_all('td')
t = cells[0].find(text=True)
data.append(t)
print("{} : count:{}".format(index,len(data)))
for i in data:
print(i)
print("")
なるほど、Seriesのほうが属性がちょっと多くて、メソッドは同じ数だけあるのか。
Webスクレイピングの復習になるし、ちょっと無理やりだがSeriesも使ってみた。
Series:
属性:34
メソッド:201
DataFrame:
属性:19
メソッド:201
■次は
セクション4:Pandas入門のつづきを学ぶ。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
2019年10月26日
【2日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 22%
順調に進めている。
先に周辺知識の確認ということで付録のところをだいたい終わらせてしまう。
■セクション11:付録A:Pythonの基礎
pythonの基礎の復習。math関数やら、文字列、リスト、レンジ...一通り、この講座で扱う基本的なものを抑えてあるそうだ。特に問題なく確認完了。このレベルならpython自体で詰まることはなさそう。
■セクション12:付録B:統計入門
”入門”という割にはいきなり、確率分布から入るのか!と敷居が高い感じ。とりあえず、後回しにして、他の付録を行う。
■セクション13:付録C:SQLとPython
SQLに関しては"The Complete SQL Bootcamp"で以前勉強済である。ただし、pythonとの組み合わせはpsycopg2を使って勉強した。
今回はsqlite3との組み合わせということで少し違った感じでpythonでのsqlの使い方を学ぶ。
■セクション14:付録D:Webスクレイピング
勢い余って最後の付録も勉強してしまう。pythonを使ったWebスクレイピング。BeautifulSoup, reqestsなどのモジュールは今のjupyter notebookでは予めインストールされているようで追加で作業がないので楽だ。
ふむふむ、こうやるのか、と動画を2倍速で見て全体像のイメージをつかみながら、概要をメモしておき、見終わったら、notebookの手本を見ながら、自分でコーディングをしてみる、という流れで進める。
■次は
セクション4:Pandas入門、統計入門を学ぶ。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
2019年10月25日
【1日目】Udemy講座で学ぶ!実践 Python データサイエンス
進捗 13%
順調に進めている。
このコースの山場はセクション9,10の実践データ解析と機械学習の所だろう。
■セクション2:準備
特に何もない。Anaconda,jupyter notebookを使う。
■セクション3:numpyを知ろう
numpy自体は前回のopencvのコースの際に一部、勉強済ではある。
numpyは機能が豊富なのでいろいろなことができる。
行列の生成、計算、スライス、転置、exp,sqrtなどの科学系計算、リスト内包表記、合計、平均、分散などの統計計算...
https://docs.scipy.org/doc/numpy/reference/?v=20191025053208
講義の聞きながらただ手を動かしただけでは、十分習得できない。なので習ったことの概要をメモにまとめ、メモを見ながらコマンドが書けるかを練習。
このセクションではnumpyに加えて、matplotlibでの可視化の部分まで勉強した。
■次は
pandasの勉強に入る。付録A(python基礎),B(統計入門),C(SQLとpython)も着手する予定。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
タグ:numpy
2019年10月24日
Udemy講座で学ぶ!実践 Python データサイエンス
はじめに
Pythonを用いて、データサイエンスを学ぶ。
講座名:【世界で5万人が受講】実践 Python データサイエンス
このコースの受講動機
ビックデータ、機械学習、python...データサイエンスは注目分野であり、急速な技術の広がりを見せている。最近は、普段の仕事でもデータを基にしてビジネス上の判断を行うことが多くなっており、その際に大量のデータを迅速に正しく解析することが求められるようになっている。
この講座では、pythonを使ってこれらの技術を学ぶコースで、受講者数2.7万人と多くの人々が学んでいる実績のあるコースである。このコースを学んでpythonを使ったデータ分析を学びたい。
このコース完了の際のゴールイメージ
・python,numpy,pandasを使って配列を使った数値計算、データ解析が自由にできる
・matplotlibとseabornを使って美しいデータの可視化ができる
・機械学習の基礎知識を復習して、その説明ができる
・実際のデータを解析する方法論を学び、データ解析ができる
・統計の基礎の復習を行い、データ解析の際に活用できる
コース詳細の紹介
・レクチャー数と時間
・104レクチャー、17.5時間のビデオ
・言語
・日本語
・内容要約
・Pythonを使った基本的なプログラミング
・IPython notebookを使ったPythonプログラミング
・numpyを使ったベクトルや行列の操作
・pandasを使ったデータ処理
・JSON、HTML、Excelシートなどのデータ形式をPythonで扱う
・matplotlib、seabornを使ったデータの可視化
・応用範囲の広いデータ解析のスキル
・受講に際しての前提条件
・基礎的な数学のスキル
・パソコン(OSは、Mac、Windows、Linuxどれでも可)
・あとは、やる気
計画
・15日程度で完了するつもりで受講をする。
このコースへのリンク
【世界で5万人が受講】実践 Python データサイエンス
全般ランキング
2019年10月23日
【まとめ】 英語版Udemy講座で学ぶ!OpenCV、ディープラーニングを使ってpythonで画像認識
英語版のUdemy講座、"Python for Computer Vision with OpenCV and Deep Learning"の受講を完了したので最初に立てた目標の達成具合、自己評価や、コースをやり終えての感想をまとめる。
目次
1、受講前のゴールイメージとスケジュールの確認2、講義に関して
3、次回に受講に生かしたいこと。教訓とか
受講前のゴールイメージとスケジュールの確認
■受講前のゴールイメージとスケジュールの確認
・NumPyを用いた画像のハンドリングができる 〇
・OpenCVを用いた画像処理ができる 〇
・顔認識技術を実装できる 〇
・オブジェクトトラッキングが実装できる 〇
・ディープラーニングのフレームワークKerasでの実装ができる 〇
・カスタマイズしたCNNのディープラーニングの実装ができる 〇
・処理速度を重視したYOLOネットワークのディープラーニングでの実装ができる △
全体としては、OpenCV2を利用した画像処理や、Kerasを用いたディープラーニングを学ぶことができた。今後に向けて、技術の引き出しを増やすことができた。
■スケジュール
- 15日程度で完了するつもりで受講をする。→11日で完了
大体、10%を目標に進められた。全体の動画数が100に近いため、一日、10動画と考えながら、目標をもって進められたのが良かった。
■講義に関して
・英語
・特に問題なし。聴きやすい。
・良かった点
・OpenCVの画像処理の説明の部分が充実しててよい。
・動画に関する処理の説明あるのがよい。また、WebCamがなくとも講義を進めることができる。
(スマホで動画を保存してそれを使用するのもよい)
・Kerasなどのディープラーニングに関しても、カスタムイメージを使った学習方法などもあり実用性が高い
・セクションの最後のアセスメントが定着の確認になるので良い。
・難しかった点:
・ディープラーニングの学習がうまく動作しなくて多少の試行錯誤があった。
(自分のPC環境の問題が大きいと思う。CPUがAMDの古い奴だから?)
■次回に受講に生かしたいこと。教訓とか
・PCはちゃんとしたものを用意しておく(11月到着予定)
・講義だけでなく、自分自身の知識をテストして定着を図る。
・完了後も知識を忘れないようにメンテナンスする。
このコースへのリンク
Python for Computer Vision with OpenCV and Deep Learning
全般ランキング
2019年10月22日
今後の受講候補リスト
今後の受講候補リスト:
順番は気分で決める。
機械学習:
Machine Learning A-Z™: Hands-On Python & R In Data Science,41.5h
深層学習(Deep Learning):
Deep Learning A-Z™: Hands-On Artificial Neural Networks,22.5h
クラウド:
これだけでOK! AWS 認定ソリューションアーキテクト – アソシエイト試験突破講座(初心者向け21時間完全コース),21h
AWS Lambda & Serverless Architecture Bootcamp (Build 5 Apps),25.5h
Step by Step Alexa Skill Development (Updated March 2019),6h
Python:
現役シリコンバレーエンジニアが教えるPython 3 入門 + 応用 +アメリカのシリコンバレー流コードスタイル,28.5h
Python 3 Complete Masterclass - Make Your Job Tasks Easier!,20h
Docker & Kubernetes:
Docker and Kubernetes: The Complete Guide,21.5h
受講済リスト:
2019/12/08 完了:
Complete C# Masterclass,29h
2019/11/04 完了:
【世界で5万人が受講】実践 Python データサイエンス
2019/10/22 完了:
Python for Computer Vision with OpenCV and Deep Learning,14h
2019/10/9 完了:
Build a Blockchain & Cryptocurrency | Full-Stack Edition
2019/09/22 完了:
Spark and Python for Big Data with PySpark
2019/09/10 完了:
The Complete SQL Bootcamp
2019/09/03 完了:git
Git: もう怖くないGit!チーム開発で必要なGitを完全マスター
全般ランキング