2017年10月07日
森鴎外の「佐橋甚五郎」のデータベース化とバラツキによる分析3
3 簡単な統計処理
3.1 データのバラツキ
5、5、5、5、5(グループa)と3、4、5、6、7(グループb)と1、3、5、7、9(グループc)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全て5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。
次に、1、1、4、7、7(グループd)と1、4、4、4、7(グループe)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7−1=6で、グループeは7−1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。
3.2 標準偏差
標準偏差は、グループの全ての値によってバラツキを決めていく。グループの個々の値から算術平均がどれだけ離れているのかによって、バラツキの大きさが決まる。
グループd(1、1、4、7、7)の算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、1−4=−3、4−4=0、7−4=3、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、−3、0、3、3を全部足すと0になるため、さらに工夫が必要になる。
例えば、絶対値をとる方法とか値を2乗してマイナスの記号を取る方法が考えられる。2乗した場合、9、9、0、9、9となり、平均値を求めると、5で割って7.2となる。但し、元の単位がcmのときに2乗すれば、cm2となるため、7.2を開いて元に戻せば、√7.2cm2≒2.68cmというバラツキの大きさになる。
(1) 標準偏差の公式
σ=√Σ(Xi−X)2/n
次にグループe(1、4、4、4、7)について見てみよう。算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、4−4=0、4−4=0、4−4=0、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、0、0、0、3を全部足すと0になるため、それぞれを2乗して、9、0、0、0、9として平均値を求め、5で割って3.6を求める。但し、元の単位がcmのときに2乗すれば、cm2となるため、3.6を開いて元に戻せば、√3.6cm2≒1.89cmというバラツキの大きさになる。従って、グループdの方がグループeよりもバラつきが大きいことになる。
以下では、標準偏差(1)の公式を使用して、作成した「佐橋甚五郎」のデータに関するバラツキから見えてくる特徴を考察していく。
花村嘉英(2017)「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで」より
3.1 データのバラツキ
5、5、5、5、5(グループa)と3、4、5、6、7(グループb)と1、3、5、7、9(グループc)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全て5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。
次に、1、1、4、7、7(グループd)と1、4、4、4、7(グループe)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7−1=6で、グループeは7−1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。
3.2 標準偏差
標準偏差は、グループの全ての値によってバラツキを決めていく。グループの個々の値から算術平均がどれだけ離れているのかによって、バラツキの大きさが決まる。
グループd(1、1、4、7、7)の算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、1−4=−3、4−4=0、7−4=3、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、−3、0、3、3を全部足すと0になるため、さらに工夫が必要になる。
例えば、絶対値をとる方法とか値を2乗してマイナスの記号を取る方法が考えられる。2乗した場合、9、9、0、9、9となり、平均値を求めると、5で割って7.2となる。但し、元の単位がcmのときに2乗すれば、cm2となるため、7.2を開いて元に戻せば、√7.2cm2≒2.68cmというバラツキの大きさになる。
(1) 標準偏差の公式
σ=√Σ(Xi−X)2/n
次にグループe(1、4、4、4、7)について見てみよう。算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、4−4=0、4−4=0、4−4=0、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、0、0、0、3を全部足すと0になるため、それぞれを2乗して、9、0、0、0、9として平均値を求め、5で割って3.6を求める。但し、元の単位がcmのときに2乗すれば、cm2となるため、3.6を開いて元に戻せば、√3.6cm2≒1.89cmというバラツキの大きさになる。従って、グループdの方がグループeよりもバラつきが大きいことになる。
以下では、標準偏差(1)の公式を使用して、作成した「佐橋甚五郎」のデータに関するバラツキから見えてくる特徴を考察していく。
花村嘉英(2017)「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで」より
【このカテゴリーの最新記事】
-
no image
-
no image
-
no image
-
no image
-
no image
この記事へのコメント
コメントを書く
この記事へのトラックバックURL
https://fanblogs.jp/tb/6783193
※ブログオーナーが承認したトラックバックのみ表示されます。
この記事へのトラックバック