アフィリエイト広告を利用しています

広告

posted by fanblog

2017年10月08日

徒然〜HTML解析〜

本日はHTML解析の手順を徒然と記載していきます。
昨日までの流れはこちら

今回の目的としては、文章の自動生成を目的とし、方針は定型文と
内容を自由に変更できるorその場に合わせて変更できる語句を"自由語"と
ここでは定義し、主に"自由語"を変更させることで、文章の作成を
行っていきますという方針で書いてきました。

さて、本日は"自由語"の選択方式の1つとしてあげました、HTMLの解析を
扱っていきたいと思います。

いちばんやさしいHTML5&CSS3の教本 人気講師が教える本格Webサイトの書き方【電子書籍】[ 赤間公太郎 ]

価格:1,944円
(2017/10/8 10:27時点)
感想(0件)




まずHTMLとは何ぞや・・・
HyperText Markup Language(HTML)はざっくりいうとWebページ表示用のマークアップ言語。
文章構造(段落)やフォントなどの変換が行えるものです。

タグ(属性?[文章定義見直します])によってで囲われた要素がブラウザー上では表示されます。

簡単にHTMLの例を見てみると
<head>
 <title>TEST</title>
</head>
<body>
 本文
</body>

かなりざっくり書くと
・<head>:タイトルやCSS/JSなどWebページの構成を記載
・<body>:本文を記載
の2つの要素に分かれていることが多いです。
(一概にこれが正しいわけではないです)



さて、ここで今日の本題に戻りますと、HTML解析にはbody要素を基本的には考えていくこととなります。
実例として今回は「日経平均」と「売買高」の情報を収集したいと思います。

注意事項として、スクレイピングの問題があるため、使い方には注意してください。
Webスクレイピングの注意事項一覧 - Qiitaなどを参考にして、使い方には注意を。

具体的なプログラム言語などはまた別途記載していきます。



posted by もけ at 10:19 | TrackBack(0) | 日記

この記事へのトラックバックURL
https://fanblogs.jp/tb/6787712
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
ファン
検索
<< 2021年12月 >>
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
最新記事
最新コメント
タグクラウド
カテゴリーアーカイブ
プロフィール
×

この広告は30日以上新しい記事の更新がないブログに表示されております。