アフィリエイト広告を利用しています

2017年12月20日

ラフ集合からThomas Mannの「魔の山」を考える4

2.2 縮約

 データからパターンを抽出する際、最も簡単なルールを求めたい。ラフ集合の場合は、下近似の部分集合がルールを与えることから、属性の集合を満たす集合により下近似の部分集合を与え、属性数が最小のものを求めることによりルールが生成される。
 前節は、属性が一つの場合を扱ったが、実際に下近似を生成するには、複数の[属性=値]の連言による分割を考える必要がある。例えば、症状と喫煙の連言を考えてみよう。{{1},{2},{3,4},{5,6}}という分割が生成され、クラスの分割に一致した下近似と上近似が求められる。
 必要最小限の属性のみを抽出することは、簡略化と呼ばれる。また、ラベルの下近似を与える最小限の属性集合は、縮約と呼ばれる。{症状と喫煙}は、縮約の一例となる。最小限の[属性=値]の対を持つ規則は、必要最小限の属性数を持つ縮約から求めることができる。例えば、表1の場合、{症状と喫煙}という縮約から、以下のルールを求めることができる。

(3)[症状=重い(慢性)]⇒[クラス=長い]、[症状=重い(急性)]⇒[クラス=短い]、[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]、[症状=軽い]∧[喫煙=する]⇒[クラス=長い]

 次に、[クラス=中位]を満たす集合{1}について考えてみよう。この{1}が、他のクラスを満たす集合{2},{3,4},{5,6}から特定できるような属性の集合を求める。レコード1と属性年代により特定できないレコードの集合を[1]年代と表記すると、属性年代、性別、病名、症状、喫煙に対して、以下のことが定義できる。

(4)
[1]年代=[1,2,3]
[1]性別=[1,5] [1]病名=[1,2,5] [1]症状=[1,2]
[1]喫煙=[1,3,4,5,6]

{1}の部分集合となるものは存在しないので、一つの属性だけで[クラス=中位]を分類することができる情報はない。そこで、これらの属性間の連言を考えてみる。[年代=20-29]∧[性別=女]を満たす集合は、[1]年代∩[1]性別として表記される。この場合、縮約の候補は、以下のようになる。

(5)
[1]性別∩[1]症状=[1]
[1]症状∩[1]喫煙=[1]

{性別,症状}、{症状,喫煙}あたりが候補となりそうだ。{2},{3,4},{5,6}についてもこの方法を適用すると、{症状,喫煙}が縮約となることがわかる。ここまでが、属性数2の縮約である。
次に、属性が3つある縮約を求めてみよう。これまでの議論からわかるように、この縮約は、属性数3となる候補のうち{性別,症状}を包含する属性の集合から生成される。この場合は、{1}ではなく{2},{3,4},{5,6}に関して計算しなければならない。例えば、

(6)
[2]性別∩[2]症状=[2]
[3]性別∩[3]症状=[3,4]
[4]性別∩[4]症状=[3,4]
[5]性別∩[5]症状=[5]
[6]性別∩[6]症状=[6]

となるので、3番目のレコードに着目すれば、

(7)
[3]性別∩[3]症状∩[3]年代=[3]
[3]性別∩[3]症状∩[3]病名=[3,4]
[3]性別∩[3]症状∩[3]喫煙=[3,4]

が得られる。{性別,症状、喫煙}は、{症状,喫煙}を部分集合として含むので、{性別,症状、年代}、{性別,症状、病名}が縮約となる。同様にして、4番目のレコードに着目すれば、

(8)
[4]性別∩[4]症状∩[4]
年代=[4] [4]性別∩[4]症状∩[4]病名=[3,4]
[4]性別∩[4]症状∩[4]喫煙=[3,4]

が得られ、3番目のレコードと同じ結果となる。以上のことから 表1のクラスに関する縮約は、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}となる。 ここまで述べてきた計算方法は、一つずつ属性を追加していくことにより縮約にたどりつくボトムアップ型であるが、ラフ集合にはこれとは別に、決定ルールから出発するトップダウン型の計算方法がある。例えば、1番目のレコードは、次のような形式によって記述される。

(8)[年代=20-29]∧[性別=女]∧[病名=持病]∧[症状=軽い]∧[喫煙=しない]⇒[クラス=中位]

これらの属性のうち何が削除されると矛盾が生じるだろうか。例えば、症状と喫煙を削除すると、次のような二つの決定ルールが生成される。

(9)a [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=中位]
(9)b [年代=20-29]∧[性別=女]∧[病名=持病]⇒[クラス=短い]

 ラフ集合では、このことを矛盾が発生したと言う。つまり、{症状,喫煙}は、ルールの記述になくてはならない属性の集合を与えている。この手続きを残りの{2,3,4,5,6}に関しても適用すると、最終的に、{症状,喫煙}、{性別,症状,年代}、{性別,症状、病名}が表1の分類に不可欠な属性の集合となり、これらが縮約となる。

花村嘉英 (2017)「ラフ集合でThomas Mannの「魔の山」を考える−テキストマイニングのトレーニング」より
この記事へのコメント
コメントを書く

お名前:

メールアドレス:


ホームページアドレス:

コメント:

※ブログオーナーが承認したコメントのみ表示されます。

この記事へのトラックバックURL
https://fanblogs.jp/tb/7109167
※ブログオーナーが承認したトラックバックのみ表示されます。

この記事へのトラックバック
ファン
検索
<< 2024年09月 >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
最新記事
写真ギャラリー
最新コメント
タグクラウド
カテゴリーアーカイブ
プロフィール
花村嘉英さんの画像
花村嘉英
花村嘉英(はなむら よしひさ) 1961年生まれ、立教大学大学院文学研究科博士後期課程(ドイツ語学専攻)在学中に渡独。 1989年からドイツ・チュービンゲン大学に留学し、同大大学院新文献学部博士課程でドイツ語学・言語学(意味論)を専攻。帰国後、技術文(ドイツ語、英語)の機械翻訳に従事する。 2009年より中国の大学で日本語を教える傍ら、比較言語学(ドイツ語、英語、中国語、日本語)、文体論、シナジー論、翻訳学の研究を進める。テーマは、データベースを作成するテキスト共生に基づいたマクロの文学分析である。 著書に「計算文学入門−Thomas Mannのイロニーはファジィ推論といえるのか?」(新風舎:出版証明書付)、「从认知语言学的角度浅析鲁迅作品−魯迅をシナジーで読む」(華東理工大学出版社)、「日本語教育のためのプログラム−中国語話者向けの教授法から森鴎外のデータベースまで(日语教育计划书−面向中国人的日语教学法与森鸥外小说的数据库应用)」南京東南大学出版社、「从认知语言学的角度浅析纳丁・戈迪默-ナディン・ゴーディマと意欲」華東理工大学出版社、「計算文学入門(改訂版)−シナジーのメタファーの原点を探る」(V2ソリューション)、「小説をシナジーで読む 魯迅から莫言へーシナジーのメタファーのために」(V2ソリューション)がある。 論文には「論理文法の基礎−主要部駆動句構造文法のドイツ語への適用」、「人文科学から見た技術文の翻訳技法」、「サピアの『言語』と魯迅の『阿Q正伝』−魯迅とカオス」などがある。 学術関連表彰 栄誉証書 文献学 南京農業大学(2017年)、大連外国語大学(2017年)
プロフィール