徒然～HTML解析～: 趣味の徒然

2017年10月08日

徒然～HTML解析～

本日はHTML解析の手順を徒然と記載していきます。
昨日までの流れはこちら。

今回の目的としては、文章の自動生成を目的とし、方針は定型文と
内容を自由に変更できるorその場に合わせて変更できる語句を"自由語"と
ここでは定義し、主に"自由語"を変更させることで、文章の作成を
行っていきますという方針で書いてきました。

さて、本日は"自由語"の選択方式の1つとしてあげました、HTMLの解析を
扱っていきたいと思います。

いちばんやさしいHTML5＆CSS3の教本人気講師が教える本格Webサイトの書き方【電子書籍】[ 赤間公太郎 ]

価格:1,944円
(2017/10/8 10:27時点)
感想(0件)

まずHTMLとは何ぞや・・・
HyperText Markup Language（HTML）はざっくりいうとWebページ表示用のマークアップ言語。
文章構造（段落）やフォントなどの変換が行えるものです。

タグ（属性？[文章定義見直します]）によってで囲われた要素がブラウザー上では表示されます。

簡単にHTMLの例を見てみると

<head>
　<title>TEST</title>
</head>
<body>
　本文
</body>

かなりざっくり書くと
・<head>：タイトルやCSS/JSなどWebページの構成を記載
・<body>：本文を記載
の2つの要素に分かれていることが多いです。
（一概にこれが正しいわけではないです）

さて、ここで今日の本題に戻りますと、HTML解析にはbody要素を基本的には考えていくこととなります。
実例として今回は「日経平均」と「売買高」の情報を収集したいと思います。

注意事項として、スクレイピングの問題があるため、使い方には注意してください。
Webスクレイピングの注意事項一覧 - Qiitaなどを参考にして、使い方には注意を。

具体的なプログラム言語などはまた別途記載していきます。

タグ：徒然日記解析 html

【このカテゴリーの最新記事】

posted by もけ at 10:19 | TrackBack(0) | 日記

この記事へのトラックバックURL
https://fanblogs.jp/tb/6787712
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック

日	月	火	水	木	金	土
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31