アフィリエイト広告を利用しています

広告

posted by fanblog

2017年10月07日

森鴎外の「佐橋甚五郎」のデータベース化とバラツキによる分析3

3 簡単な統計処理

3.1 データのバラツキ

 5、5、5、5、5(グループa)と3、4、5、6、7(グループb)と1、3、5、7、9(グループc)は、算術平均がいずれも5であり、また中央値(メジアン)も同様に5である。算術平均やメジアンを代表値としている限り、この3つのグループは差がないことになる。しかし、バラツキを考えると明らかに違いがある。グループaは、全て5のため全くバラツキがない。グループbは、5が中心にあり3から7までばらついている。グループcは、1から9までの広範囲に渡ってバラツキが見られる。グループbのバラツキは、グループcのバラツキよりも小さい。 
 次に、1、1、4、7、7(グループd)と1、4、4、4、7(グループe)だと、どちらのバラツキが大きいことになるのだろうか。グループdは、中心の4から3も離れた所に4つの値がある。グループeは、中心に3つの値があって、そこから3離れたところに値が2つある。
 バラツキの大きさを定義する方法で最も有名なのが、レンジと標準偏差である。レンジはグループの最大値から最小値を引くことにより求めることができる。グループdは、7−1=6で、グループeは7−1=6となる。レンジだけでバラツキを定義すれば、グループdとグループeは同じことになるが、グループ内の最大値と最小値だけを問題にするため、他の値が疎かになっている。そこでもう一つのバラツキに関する定義、標準偏差について見てみよう。

3.2 標準偏差

 標準偏差は、グループの全ての値によってバラツキを決めていく。グループの個々の値から算術平均がどれだけ離れているのかによって、バラツキの大きさが決まる。
グループd(1、1、4、7、7)の算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、1−4=−3、4−4=0、7−4=3、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、−3、0、3、3を全部足すと0になるため、さらに工夫が必要になる。
 例えば、絶対値をとる方法とか値を2乗してマイナスの記号を取る方法が考えられる。2乗した場合、9、9、0、9、9となり、平均値を求めると、5で割って7.2となる。但し、元の単位がcmのときに2乗すれば、cm2となるため、7.2を開いて元に戻せば、√7.2cm2≒2.68cmというバラツキの大きさになる。
 
(1) 標準偏差の公式
σ=√Σ(Xi−X)2/n

 次にグループe(1、4、4、4、7)について見てみよう。算術平均は4である。それぞれの値から算術平均を引くと、1−4=−3、4−4=0、4−4=0、4−4=0、7−4=3となる。この算術平均から離れている大きさを平均してやると、バラツキの目安が求められる。しかし、−3、0、0、0、3を全部足すと0になるため、それぞれを2乗して、9、0、0、0、9として平均値を求め、5で割って3.6を求める。但し、元の単位がcmのときに2乗すれば、cm2となるため、3.6を開いて元に戻せば、√3.6cm2≒1.89cmというバラツキの大きさになる。従って、グループdの方がグループeよりもバラつきが大きいことになる。
 以下では、標準偏差(1)の公式を使用して、作成した「佐橋甚五郎」のデータに関するバラツキから見えてくる特徴を考察していく。 

花村嘉英(2017)「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで」より
この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/6783193
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
ファン
検索
<< 2024年09月 >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
最新記事
写真ギャラリー
最新コメント
タグクラウド
カテゴリーアーカイブ
プロフィール
花村嘉英さんの画像
花村嘉英
花村嘉英(はなむら よしひさ) 1961年生まれ、立教大学大学院文学研究科博士後期課程(ドイツ語学専攻)在学中に渡独。 1989年からドイツ・チュービンゲン大学に留学し、同大大学院新文献学部博士課程でドイツ語学・言語学(意味論)を専攻。帰国後、技術文(ドイツ語、英語)の機械翻訳に従事する。 2009年より中国の大学で日本語を教える傍ら、比較言語学(ドイツ語、英語、中国語、日本語)、文体論、シナジー論、翻訳学の研究を進める。テーマは、データベースを作成するテキスト共生に基づいたマクロの文学分析である。 著書に「計算文学入門−Thomas Mannのイロニーはファジィ推論といえるのか?」(新風舎:出版証明書付)、「从认知语言学的角度浅析鲁迅作品−魯迅をシナジーで読む」(華東理工大学出版社)、「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで(日语教育计划书−面向中国人的日语教学法与森鸥外小说的数据库应用)」南京東南大学出版社、「从认知语言学的角度浅析纳丁・戈迪默-ナディン・ゴーディマと意欲」華東理工大学出版社、「計算文学入門(改訂版)−シナジーのメタファーの原点を探る」(V2ソリューション)、「小説をシナジーで読む 魯迅から莫言へーシナジーのメタファーのために」(V2ソリューション)がある。 論文には「論理文法の基礎−主要部駆動句構造文法のドイツ語への適用」、「人文科学から見た技術文の翻訳技法」、「サピアの『言語』と魯迅の『阿Q正伝』−魯迅とカオス」などがある。 学術関連表彰 栄誉証書 文献学 南京農業大学(2017年)、大連外国語大学(2017年)
プロフィール
日別アーカイブ
×

この広告は30日以上新しい記事の更新がないブログに表示されております。