アフィリエイト広告を利用しています

広告

posted by fanblog

2017年12月20日

ラフ集合からThomas Mannの「魔の山」を考える3

2 ラフ集合

 津本(2001)に基づき平易なラフ集合の考え方を紹介する。津本論文は、データベース(DB)の中にある集合体の近似的な表現とそれに必要な最小限の属性集合(縮約と呼ばれる)の求め方を説明している。

2.1 近似

 「魔の山」の登場人物が患っている病気の症状(表1)について考えてみる。

表1 登場人物の病気の症状
No. (名前または
ニックネーム)     年代   性別  病名     症状     喫煙  クラス(療養所の滞在期間)
1.
Claudia Chauchat   20-29  女   持病    軽い(慢性)  なし    中位
2.
Hans Castorp     20-29  男  持病(カタル) 軽い(慢性) あり    長い
3.
Joachim Ziemßen   20-29  男  発熱(肺痛) 重い(慢性)  なし   長い
4.
爪を噛む青年     10-19   男   発熱      重い(慢性) なし    長い
5.
Barbara Hujus     20-29  女   持病     重い(急性) なし    短い
6.
Tou-les-deuxの長男   10-19  男  チフス    重い(急性)  なし    短い

この表は、1から6までのレコードを持っている。そして、内容は、属性の集合{年代、性別、病名、症状、喫煙}と所属クラス(サナトリウムの滞在期間)である。それぞれ属性には、値の集合がある。例えば、病名に関して大きく分類すると、{持病、発熱、チフス}がそれに当たる。
周知のように、ラフ集合は、各属性がデータの集合{1,2,3,4,5,6}の分割を与えるところに原点がある。[病名=持病]、[病名=発熱]、[病名=チフス]を満たすデータの部分集合は、{1,2,5}、{3,4}、{6}である。表1は、他の属性についても同様の分割を与えている。次に、レコードのラベル付けを考える。ここでは、クラスをそのラベルと仮定する。[クラス=中位]に注目すると、これを満たすデータは、{1}である。これらをまとめると、表2となる。

表2 分割の例
病名による分割  クラスによる分割
持病 {1,2,5}    短い {5,6}
発熱 {3,4}     中位 {1}
チフス{6}     長い {2,3,4,}

病名による分割とクラスによる分割から何が言えるであろうか。一番簡単なことは、[病名=チフス]を満たす分割が、[クラス=短い]を満たす分割の部分集合となっていることである。古典論理によれば、こうした関係は、次のように表記される。

(1)[病名=チフス]⇒[クラス=短い]

ラフ集合では、[病名=チフス]を満たす分割を[クラス=短い]の下近似と呼ぶ。[病名=チフス]を満たせば、クラスは短いが確定するためである。 次に、[クラス=短い]のすべてをカバーする分割について考えてみよう。上述の例では、[病名=持病]を満たす集合と[病名=チフス]を満たす集合の和集合が{1,2,5,6}となり、[クラス=短い]を部分集合とすることができる。これらの集合間の関係は、古典論理を用いると、次のように表すことができる。ラフ集合では、これらの病名に関するデータの分割をそれぞれのクラスの上近似と呼ぶ。

(2)[クラス=短い]⇒[病名=持病]∨[病名=チフス]

この結果、[クラス=短い]の下近似は、[病名=チフス]を満たす集合、上近似は、[病名=持病]または[病名=チフス]を満たす集合で与えられる。これらの関係は、表3にまとめられる。

表3 病名よる上近似と下近似
クラス 分割 上近似 下近似
短い {5,6} {6} {1,2,5,6}
中位 {1}   { } {1,2,5}
長い {2,3,4} { } {1,2,3,4,5}

ラフ集合は、近似の質をcard(下近似)/card(上近似)により定義する。例えば、[クラス=短い]の場合、近似の質は、1/4 =0.25である。一方、症状であれば、表4のような近似が得られる。

表4 症状よる上近似と下近似
クラス 分割  上近似 下近似
短い {5,6}  {6} {1,2,5,6}
中位 {1}    { } {1,2,5}
長い {2,3,4}  { } {1,2,3,4,5}

この表から分かるように、例えば、[クラス=短い]の場合、近似の質は、2/2 =1.0である。
ラフ集合では、各属性がデータ集合の分割を構成し、その分割によってクラスや決定属性といったデータのラベルと属性との関係について、近似とその質が測定されていく。その際、ラベルを上近似と下近似で押さえるということが、ラフ集合の特徴として上げられる。

花村嘉英 (2017)「ラフ集合でThomas Mannの「魔の山」を考える−テキストマイニングのトレーニング」より

この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/7109107
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
ファン
検索
<< 2024年09月 >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
最新記事
写真ギャラリー
最新コメント
タグクラウド
カテゴリーアーカイブ
プロフィール
花村嘉英さんの画像
花村嘉英
花村嘉英(はなむら よしひさ) 1961年生まれ、立教大学大学院文学研究科博士後期課程(ドイツ語学専攻)在学中に渡独。 1989年からドイツ・チュービンゲン大学に留学し、同大大学院新文献学部博士課程でドイツ語学・言語学(意味論)を専攻。帰国後、技術文(ドイツ語、英語)の機械翻訳に従事する。 2009年より中国の大学で日本語を教える傍ら、比較言語学(ドイツ語、英語、中国語、日本語)、文体論、シナジー論、翻訳学の研究を進める。テーマは、データベースを作成するテキスト共生に基づいたマクロの文学分析である。 著書に「計算文学入門−Thomas Mannのイロニーはファジィ推論といえるのか?」(新風舎:出版証明書付)、「从认知语言学的角度浅析鲁迅作品−魯迅をシナジーで読む」(華東理工大学出版社)、「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで(日语教育计划书−面向中国人的日语教学法与森鸥外小说的数据库应用)」南京東南大学出版社、「从认知语言学的角度浅析纳丁・戈迪默-ナディン・ゴーディマと意欲」華東理工大学出版社、「計算文学入門(改訂版)−シナジーのメタファーの原点を探る」(V2ソリューション)、「小説をシナジーで読む 魯迅から莫言へーシナジーのメタファーのために」(V2ソリューション)がある。 論文には「論理文法の基礎−主要部駆動句構造文法のドイツ語への適用」、「人文科学から見た技術文の翻訳技法」、「サピアの『言語』と魯迅の『阿Q正伝』−魯迅とカオス」などがある。 学術関連表彰 栄誉証書 文献学 南京農業大学(2017年)、大連外国語大学(2017年)
プロフィール
×

この広告は30日以上新しい記事の更新がないブログに表示されております。