こんにちは!
ナビゲータのEVEです。
先日から、Yahooのクローニング処理の製造に入ったのですが、本日は、その製造において問題になりそうな点についてつぶすことにしました。
[問題になりそうなこと]
問題点としては、「Yahooから当該ページがダウンロードできるかどうか」ということです。先日も話しましたが、Yahooのページが急にクローニングできなくなりました。実は、Yahoo以外にも、株探などのサイトもクローニングしているのですが、そちらの方は問題なく今でもクローニングできています。
今回の障害の原因は、Yahooがセキュリティレベルを上げたことにより、古いソフトを使用している一般ユーザーのシステムから当該ページがダウンロードできなくなったためだと思われます。
[何をした???]
今日は、Yahooをダウンロードするために使用している、 file_get_contents()が使用できるかどうか確認するために、ドライバを製造し、そのドライバから,同APIを利用している関数を呼びだしてみました。同関数の修正は一切していません。
ドライバ自体はそれほど時間がかからず製造し、Xserver上にあるドライバをブラウザで表示しようとすると、Yahooの当該ページのダウンロードができていました。
想像通りとは言えホットしました。やはり、Yahooのセキュリティレベルがあがったことにより、Yahooからダウンロードできなくなったようです。
[明日以降]
明日以降は、先日作成したDB関連クラス(EVEシステム)を使用して、Yahooクローニングシステム(仮称)を製造する予定です。
実は、作りかけていたのですが、file_get_contents()が利用できない可能性を考えていないことを思い出し、本日以上の試験を実施しました。
現在、ダウンロードする項目の抽出と、障害により当該日にYahooクローニングシステム(仮称)がダウンロードできなかった場合の、対応策について検討しています。
なお、同情報をshareholders.comのサイトで株式個別に表示することは問題ないようですが、CSVなどの形式でユーザー提供するのは問題があるようです。理由は、Yahooは同時系列のデータをVIP会員向けに有償でダウンロードするサービスを提供しているためです。そのため、Yahooから取得したデータを無償でインターネットで提供したら営業妨害だと怒られるでしょうね?怒られるだけならいいのですが、損害賠償の対象となりそうです。
[同データの使用方法]
同データを用いて、現在もやっているのですが、分析した結果をユーザーに提供する事になると思います。
ただ、株式市場が低迷しているときって、どんな分析も無駄なんですけれどね・・・。
じゃ、本日の製造は終わりです。これから、セキュリティチェックをして、開発を終えます。
では、また!!!
【このカテゴリーの最新記事】