3.判別分析
2群以上の母集団から抽出した標本データを得て、いまどの母集団に属するか不明のサンプルデータがあるとする。このサンプルデータがどの母集団に属するか調べる方法に、判別分析がある。判別分析を実施するには、集めた標本がどの母集団に属しているのかをあらかじめ区分けしておく必要がある。区分けする方法に、線形判別式を使用する方法と、マハラノビスの距離を用いる方法がある。
3.1 線形判別式を使用する方法
多変量データx1・x2…xn があるとする。この説明変量x1・x2…xn はいずれも量的データであり、この変量に適当な重みa1・a2…an をつけ目的変量Zを得る。
Z=a1・x1+a2・x2+…+an・xn+a0
この時得られる目的変量Zが区分わけを示す質的データであるとき、この式を線形判別式という。重回帰式では、説明変量も目的変量も量的データを扱ったが、判別分析においては、説明変量は量的データであるが、得られる目的変量はどの母集団に属するのか示す質的データを扱う。
いま、A中学校の8人の生徒の英語(x1)と数学(x2)の評価があり、この8人の生徒がB高校を受験してその合否結果(Z)が分かっているとする。すると、ここに2つの母集団、合格群と不合格群があることになる。
|
NO |
説明変量 英語(x1) 数学(x2) |
目的変量(Z) 合 否 |
|
1 2 3 4 5 6 7 8 |
5 8 5 5 7 4 8 5 7 2 4 3 8 7 4 6 |
合 否 合 合 否 否 合 否 |
|
平均 |
6 5 |
|

合格した群(1・3・4・7)と不合格の群(2・5・6・8)を区分わけする直線を1本考える。
この直線が、線形判別式となる。この線形判別式が判明すれば、どの母集団に付属するのか不明のサンプルデータの所属を得ることができる。
3.1.1 線形判別式を求める。
説明変量が2つあるのでこれをx1・x2 とすると、この判別式を
Z=a1・x1+a2・x2+a0 とする。
合格した群をA群、不合格の群をB群とすると、この判別式Zは、2群(A群とB群)から最も遠い位置に引かれる必要がある。2群から最も遠い位置に引かれることにより、この判別式は、2群A・Bを区分けする最も良い基準線となる。

(1)判別得点を求める
判別得点は、各標本データ点から判別式までの距離で表される。
もとの標本を合格した群と不合格の群に分けて整理すると
|
NO |
説明変量 英語(x1) 数学(x2) |
目的変量(Z) 合 否 |
|
|
1 3 4 7 |
5 8 7 4 8 5 8 7 |
合 合 合 合 |
A 群 |
|
平 均 |
7 6 |
|
|
|
2 5 6 8 |
5 5 7 2 4 3 4 6 |
否 否 否 否 |
B 群 |
|
平 均 |
5 4 |
|
|
|
全平均 |
6 5 |
|
|
説明変量x1・x2は量的データであり、目的変量Zは区分を示す質的データである。
通常量的データ間の関係を表すものとしては相関係数があるが、量的データと質的データの関係を表すものとして相関比(η)がある。相関比(η)は
η2=級間変動÷全変動
で与えられる。
それぞれの標本について判別得点を求める。

2群を最もよく分けるには、全変動をST 級間変動をSBとするとき、相関比(η2)を最大にするようにする。
全変動STは、全平均Zから各々のデータがどれ位散らばっているかである。

級間変動SBは、A群の平均が全平均からどの位散らばっているかと、B群の平均が全平均からどの位散らばっているかを合計したものである。
(2)相関比を求める

t=1.381,−1 で相関比η2は最大値または最小値を持つ。このtの値を相関比η2に代入するとt=−1の時 η2=0 となり最小となる。t=1.381の時 η2=0.71556 となり最大となる。つまり相関比η2は、a1÷a2=−1の時最小となり、a1÷a2=1.381の時最大となる。いま求めようとしているのは、相関比η2を最大とするa1・a2であるから、1.381を採用する。


これより求める線形判別式は、Z=1.381x1+x2−13.286 となる。この線形判別式を使用することにより、データを2群に分けることができる。
実際に判別得点を求めて表にしてみると

判別得点を見ると、合格群は+ 不合格群は−に群分けされていることが分かる。
以上から、グラフを描いてみると

判別直線を境にして、右側に合格群、左側に不合格群があることが分かる。
また全平均(6、5)を通り判別直線に直行する直線を1本引き、その直線上に各点から降ろした点を見ると、全平均(6、5)を新たな原点と考えると上側(+側)に合格群、下側(−側)に不合格群がありその距離が判別得点となっていることが分かる。
3.1.2 分散・共分散行列を用いて判別式を求める。(不偏分散を使用する)
(1)説明変数が2個の時
判別式
Z=a1・x1+a2・x2+a0 を求めるのに分散共分散行列を利用して求める方法がある。いま説明変量がx1・x2と2つあり、A群・B群の2群に分かれている。

いまA群・B群が上の様になっているとき

(2)説明変量がp個ある時に2A群・Bに分けるとき

この時、A群の分散共分散行列をSA、B群の分散共分散行列をSB
プール後の分散共分散行列をSとすると


3.2 ボックスM検定
線形判別式を使用して2群を区分わけできるのは、母分散共分散行列が等しい時に限られる。2群の母分散が等しい時には、その判別式は直線になるが、等しくない時には判別式は曲線となる。母分散共分散行列が等しくない時には、マハラノビスの距離による判別を行う必要がある。母分散共分散行列が等しいかどうかの検定に「ボックスM検定」がある。
「ボックスM検定」
A群・B群のそれぞれの分散共分散行列をSA・SBとする。またSA・SBのプール後の分散共分散行列をSとすると

p:説明変量の個数 nA:A群の標本数 nB:B群の標本数
自由度 p(p+1)/2のχ2 分布に漸近的に従う。これを利用して検定を行う。
(1)仮説をたてる
帰無仮説 H0 :2群の母分散共分散行列は等しい
対立仮説 H1 :2群の母分散共分散行列は等しくない
(2)検定統計量χ2は自由度p(p+1)/2のχ2 分布に従う。
(3)有為水準をαとすると
χ2 > χ2p(p+1)/2(α)であれば仮説を棄却する。つまり、2群の母分散共分散行列は等しくない。よってマハラノビスの距離による判別処理をする方が望ましい。
3.3 マハラノビスの距離による判別
3.3.1 マハラノビスの距離
(1)1変量時のマハラノビスの距離

1変量のデータA群とB群が上の様に分布しているとする。A群のデータは分散の大きいデータ群、B群のデータは分散の小さいデータ群である。この時所属不明のデータxpがある時、この所属不明のデータxpがA群、B群のどちらに所属するデータであるか調べる
単純にxpからそれぞれの群の中心までの距離を見ると、明らかにこのxpはB群の中心に近い。
となっていので、このxpはB群のデータであるように思える。しかしA群は分散の大きいデータ群であり、B群は分散の小さいデータ群である。この分散を考慮しないで、単純に距離だけでどちらの群に所属するのかを判断することはできない。この分散を考慮した距離に「マハラノビスの距離」がある。
1変量時のマハラノビスの距離をD2とすると、
![]()
このように分散を考慮すれば、分散の大きいデータほどマハラノビスの距離は小さくなり、 逆に分散の小さいデータほどマハラノビスの距離は大きくなる。
DA2<DB2 であればxpは、A群に近い。DA2>DB2であればxpは、B群に近い。
(2)2変量時のマハラノビスの距離
2変量のデータがA群・B群の2群に分かれているとする。
A群は分散の小さいデータ群、B群は分散の大きいデータ群とする。この時所属不明のデータxp(x1,x2)がある時、このデータxpはA群・B群のどちらに所属するデータであるか調べる。
単純な距離を考えると、xpからA群への距離は
であり、xpからB群への距離は
である。一見してこのデータxpは、A群に近そうである。しかしA群は分散の小さいデータ群であり、B群は分散の大きいデータ群であるので、分散を考慮しない単純な距離だけでは判断することはできない。次に、分散を考慮したマハラノビスの距離を考えると
これを2変量について考えと、 1変量から2変量になったので

同様にして変量p個の時のマハラノビスの距離は
マハラノビスの距離は、各群の中心からその標本への分散を考慮した距離を示すので、その標本はマハラノビス距離の小さい方の群に所属する標本であるとする。
3.4 多変量における2群の母平均の差に関する検定
3.4.1 2群間の母平均に差があるかどうか検定を行う。
いま2群がそれぞれN(μ1,σ2)・N(μ2,σ2)に従うとき、ここからn1個・n2個の標本を得たとする。この時2群の母平均μ1=μ2であるかどうか検定は
検定統計量をFとすると
![]()
ただしp:説明変量の個数 D2:2群の中心間のマハラノビスの汎距離
は自由度p,n1+n2−p−1のF分布に従う。これを利用してp変量の2群の母平均の差の検定を行う
(1)仮説をたてる
帰無仮説
H0:μ1=μ2 (2群の母平均は等しい)
対立仮説
H1:μ1≠μ2 (2群の母平均は等しくない)
(2)検定統計量Fは自由度p,n1+n2−p−1のF分布に従う
(3)有為水準αで検定をおこなう

F>Fp,n1+n2−p−1(α)であれば仮説H0を棄却する。つまり2群の母平均に差があるとする。
3.4.2 ウィルクスのΛ(ラムダ)統計量
多変量時の群間の変動を示す量として、ウィルクスのΛ統計量がある。
2群の多変量データが下の表のようにあるとすると
|
群 |
変量 標本 |
X1 X2 … Xp |
|
A 群 |
1 2 … n1 |
X11A X21A … Xp1A X12A X22A … Xp2A … X1・n1A
X2・n1A … Xp・n1A |