ゼロからはじめるシステム開発

■研究室
・システム開発研究室／ソフトウェア研究室／ハードウェア研究室／データベース研究室／プログラミング研究室／仮想技術研究室／ネットワーク研究室／人工知能研究室／セキュリティ研究室／デザイン研究室／システム監査研究室／先端技術研究室
■関連サイト
YouTube／システムエンジニアが目指す中小企業診断士／システムエンジニアから見た社会／Twitter(EVE)／Twitter(EVE2)／Facebook

検索

<< 2023年04月 >>
日	月	火	水	木	金	土
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

タグクラウド

カテゴリーアーカイブ

YouTubeでの稼ぎ方研究室(23)
システム開発研究室(114)
セキュリティ研究室(40)
システム監査研究室(13)
ハードウェア研究室(17)
ネットワーク研究室(6)
ソフトウェア研究室(76)
プログラミング研究室(97)
デザイン研究室(1)
データベース研究室(3)
先端技術研究室(3)
株式投資研究室(35)
人工知能研究室(6)
Coffee Time(67)
ゼロからはじめるシステム開発(1)

月別アーカイブ

2024年11月(18)
2024年10月(16)
2024年09月(14)
2024年08月(20)
2024年04月(6)
2024年03月(12)
2024年02月(9)
2024年01月(10)
2023年12月(15)
2023年11月(12)
2023年10月(16)
2023年09月(12)
2023年08月(10)
2023年07月(14)
2023年06月(30)
2023年05月(18)
2023年04月(27)
2023年03月(28)
2023年02月(21)
2023年01月(30)

日別アーカイブ

ファン

2023年04月08日

Yahooの出来高ページクローニングプログラム製造　[プログラム研究室]

　こんにちは！
　ナビゲータのEVEです。

　プログラムを作るうえで心配な点がなくなったので、本日から本格的なプログラミングに入っています。まずは、Yahooのページをまじまじと見ています。

[Yahooのページソース]
　Yahooのページを久しぶりにまじまじと見ました。私のページと違っていろいろなタグが入っているので見にくい印象です。
　Yahooのサイトが他の多くのサイトと違うのは、動的に作成した部分が、明らかにプログラムで作りましたと分かるところ！それは、改行処理が入っておらずベタ打ちです。実は、私のサイトも同じようにつくっています。

　他のサイトはというと、人間がHTMLを作っているかのように整形しています。この情報は、すべてのサイトを見ているわけではないので、正確性が欠いている点についてはご承知ください。

　多くのブラウザは、HTMLの一部が欠損していても忖度して、きれいに表示してくれるため、HTMLがおかしくなっていたとしても、気づきにくいです。そのため、きれいに整形しておいたほうが、そのミスに気づきやすいということがあるからかもしれません。ただ、それでも人間が作るプロラムであるため、必ずと言っていいほどミスがあります。だから、正直言ってそれは無駄な努力のような気がします。
　その労力があるなら、もっと重要な所に力を入れたほうがいいというのが私の考え方です。

[クローニング処理概要]
　以上は余談なのですが、改行処理が入っていないため、Yahooのサイトは、非常にクローニングしやすいというメリットがあります。
　それは、私のほしい情報が1行におさまっているからです。その1行を読み込み、以下の流れで情報を抽出します。

当該テーブルを特定　＝＞　当該行を特定　＝＞　当該セルを特定　＝＞　データ抽出

　株式市場には、4,000銘柄ぐらいの商品があり、1ページあたり約50銘柄掲載されているため、約90ページをダウンロードすればすべての銘柄を取得できそうです。

[クローニング項目]
　クローニングする流れは、2023年4月6日のブログに記載した通りです。

❶Yahooの出来高から本日取引があった企業及び商品の一覧を取得します。
❷❶情報に基づき、本日取引があった企業の株価情報を取得します。

　❶からは、

・商品名
・証券コード
・市場

だけでいいでしょう？出来高も取得することは可能ですが、処理の一貫性からして、しっくりしません。やはり、❷で実施するのが、いいでしょう！

　なんてことを考えながら、プログラムを製造中です。

[あとがき]
　明日からまたしばらく恒例の休暇に入ります。また、帰ってきたらブログを書きますので、よろしく！

　では、また！！！

タグ：クローニング Yahoo php

posted by ゼロから始めるシステム開発 at 17:08 | Comment(0) | TrackBack(0) | プログラミング研究室

ゼロからはじめるシステム開発

2023年04月08日

Yahooの出来高ページクローニングプログラム製造 [プログラム研究室]

Yahooの出来高ページクローニングプログラム製造　[プログラム研究室]