マハラビノス距離が導出できる
「マハラビノス距離って何かわからない」などと困っていませんか?
こういう疑問に答えます。
本記事のテーマ
おさえておきたいポイント
- ①マハラビノス距離のベースは主成分分析!
- ➁マハラビノス距離の定義を理解する
- ➂マハラビノス距離を導出する(2次元)
- ➃マハラビノス距離の導出過程(2次元)
マハラビノス距離は、定義式より主成分分析から入ろう!
Excelや公式は暗記不要!
自力で導出できるぜ!
①マハラビノス距離のベースは主成分分析!
マハラビノス距離だけでは理解できない
多変量解析をしていると、必ず出て来るのが「マハラビノス距離」ですね。
意味や式を理解しようとしても
なので、わかりやすく解説します。
先に主成分分析の導出過程を理解しよう
マハラビノス距離を理解するには、主成分分析の導出を理解しておく必要があります。関連記事でまとめていますので、先に確認ください。
【まとめ】主成分分析を究める 主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。 |
前置きは以上で、ここから本題に入ります。
➁マハラビノス距離の定義を理解する
マハラビノス距離とは
定義と式を書くと
多変数間の相関に基づく「普通の距離を一般化したもの」
●定義式
\(D_M=\sqrt{(x-μ)^T ∑^{-1}(x-μ)}\)
・\(x\)=\((x_1,x_2,…,x_n)\)
・\(μ\)=\((μ_1, μ_2,…, μ_n)\)
となりますが、
マハラビノス距離を2次元表示する
定義式から2次元の場合を書いてみると
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
(ここで、\(S_{ij}\)は標本分散=平方和/データ数と見てください)
ちょっと、わかりやすいけど、まだ難しいですよね。
マハラビノス距離を1次元表示する
1次元まで限定すると、
\(D_M^2\)=\((x_1-\bar{x_1}) s_{11}^{-1} (x_1-\bar{x_1})\)
=\(\frac{(x_1 -\bar{x_1})^2}{s_{11}}\)
平方根にすると
\(D_M\)=\(\frac{|x_1 -\bar{x_1}|}{σ_{11}}\)
距離の差を標準偏差で割った、標準化した距離になりますね。
ここまで来て、少し理解できた感じですよね。
式を具体的に書き出しても
本質はわかりません。
主成分分析を座標にした距離
というわかりにくい定義だからです
➂マハラビノス距離を導出する(2次元)
マハラビノス距離を導出しやすい定義から入る
ユークリッド座標で定義した\(x_1,x_2\)から
主成分分析座標に変換した\(X_1,X_2\)
と平均値座標間の距離
下図でわかりやすく説明しますね。
基本は、
●平均との差分の距離を考えるので、
ユークリッド座標(いつも使っている座標)から
\((x_1,x_2)\)~\((\bar{x_1},\bar{x_2})\)間の距離を考えます。
ただし、変数が増えると、\(x_1\),\(x_2\)間に相関関係が入る可能性があり、
ユークリッド座標では適切な距離として評価できない場合があります。
そこで、ユークリッド座標から、相関関係を考えた主成分分析方向に変換した距離を考える必要があることからマハラビノス距離ができました。
マハラビノス距離\(D_M^2\)は主成分分析方向で変換した長さですが、
標準化するために主成分分析方向の平方和で割ります。
しかも、主成分分析方向の平方和は固有値でしたね。
主成分分析方向の平方和は固有値になる理由は関連記事で解説しています。ご確認ください。
主成分方向の平方和と固有値が一致する理由がわかる 主成分の平方和と固有値が一致する理由が説明できますか?本記事では主成分分析を導出する過程で主成分方向の平方和と固有値が一致する理由をわかりやすく解説します。シンプルに証明できるので、た |
ここで、ややこしい話をしますが、
主成分分析するときに、データを標準化する場合としない場合があります。
●データを標準化してから分析する場合→標本分散
●データを標準化せず、そのまま分析する場合→平方和
で、関連記事では「データを標準化しない」場合で解説してます。
本記事は、「データを標準化する」場合で解説しているので、
平方和→標本分散に変えて説明します。
標準化したいから一旦、主成分分析方向の標本分散で割ります。
\(D_M^2\)=\(\frac{X_1^2}{S_1}+\frac{X_2^2}{S_2}\)
各主成分分析方向の標本分散は固有値に一致するので、
\( S _1=λ_1\),\( S _2=λ_2\)を代入すると
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
この式を変形すると
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
になります。
という解釈ですが、少しわかった感じになった程度ですよね。ここから先は数式を見ながらマハラビノス距離に慣れていきましょう。
マハラビノス距離の式を導出する
本記事の定義から、マハラビノス距離は
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
と定義しましたが、これが教科書で書いている
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
になることを証明しましょう。
導出過程は3ステップで行きます。
- 行列表記にして (ベクトル横)(行列)-1(ベクトル縦)の形を作る
- \((X_1,X_2)\)を\((x_1,x_2)\)で表現する
- 式をまとめる
導出過程の隠し味は、「固有方程式」の
行列とベクトルの積がベクトルの固有値倍に簡略化できるところです。
では、ポイントを知った上で、導出しましょう。
➃マハラビノス距離の導出過程(2次元)
行列表記にする
本記事の定義から、マハラビノス距離は
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
と変形して、行列表記できます。
次に、逆行列表記します。
逆行列表記
あえて、
\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)
\)
の逆行列を求めます。これは高校数学レベルなので、公式通り解くと、
\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)^{-1}
\)=\(λ_1 λ_2\)\(\left(\begin{array}{cccc}
\frac{1}{λ_2} & 0 \\
0 & \frac{1}{λ_1}
\end{array}
\right)
\)
=\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)
となります。シンプルな逆行列ができましたね。
マハラビノス距離をまとめると
=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
=(式1)
と書けます。
\((X_1,X_2)\)を\((x_1,x_2)\)で表現する
図を再掲して、\(X_1,X_2\)を、内積を使って\(x_1,x_2\)で表現します。
\(X_1\)=\( \overrightarrow{AP} \)・\( \vec{e_1} \)
=|\( \overrightarrow{AP} \)||\( \vec{e_1} \)|cosθ
=\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)・\(\left(
\begin{array}{c}
a_1\\
b_1
\end{array}
\right)
\)
=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
となります。
同様に、
\(X_2\)=\( \overrightarrow{AP} \)・\( \vec{e_2} \)
=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)
よって、
●\(X_1\)=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
●\(X_2\)=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)
の関係式から
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)
=(式2a)
と、縦横を入れ替えて
●\((X_1, X_2)\)=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)
=(式2b)
両方表現できます。両方とも後で使います。
式をまとめる
マハラビノス距離を再掲します。
=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
=(式1)
(式1)に(式2a),(式2b)を代入します。
\(D_M^2\)=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)
マハラビノス距離の式
\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
の左右が一致しましたね。
図で見ると、あとは、
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)
を証明すれば完成です。
やってみましょう。
行列の式の証明
ここで、2次の固有方程式を思い出しましょう。
\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)
\)\(\left(
\begin{array}{c}
a_j\\
b_j
\end{array}
\right)
\)=\(λ_j\)\(\left(
\begin{array}{c}
a_j\\
b_j
\end{array}
\right)
\)
(\(j\)=1,2)
でしたね。
主成分分析の関連記事で解説していますが、\(j=1,2\)をまとめて行列表記すると
\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)
\)
と表現でき、行列表記として、
●SH=HΛ
と書くことができますね。
なお、証明したい式を行列表記すると、
\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)
を行列表記すると
●HΛ-1HT=S-1
が証明したい式です。
●SH=HΛ
に両辺に逆行列S-1をかけると
● S-1SH= S-1HΛ
● H= S-1HΛ
また、両辺に逆行列Λ-1をかけると
● HΛ-1= S-1HΛΛ-1
● HΛ-1= S-1H
さらに、両辺に転置行列H Tをかけると
● HΛ-1 H T= S-1H H T
=(式4)
ここで、積HTHは
●HTH=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)
=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1^2+b_1^2 & a_1 a_2 + b_1 b_2 \\
a_1 a_2 + b_1 b_2 & a_2^2+b_2^2
\end{array}
\right)
\)
となります。
単位ベクトルでかつ、内積が0(直交性)があるため、
・\( a_1^2+b_1^2\)=1
・\( a_2^2+b_2^2\)=1
・\( a_1 a_2 + b_1 b_2 \)=0
から
●HTH=\(\left(\begin{array}{cccc}
1 & 0 \\
0 & 1
\end{array}
\right)
\)
=E
となります。
よって、(式4)は
● HΛ-1 H T= S-1H H T
= S-1
が成り立ちました。
よって、すべてまとめると、
=\((x_1-\bar{x_1},x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1-\bar{x_1}\\
x_2-\bar{x_2}
\end{array}
\right)
\)
できましたね!
主成分分析から入るとマハラビノス距離は理解しやすいですね。
まとめ
「マハラビノス距離が導出できる」を解説しました。
- ①マハラビノス距離のベースは主成分分析!
- ➁マハラビノス距離の定義を理解する
- ➂マハラビノス距離を導出する(2次元)
- ➃マハラビノス距離の導出過程(2次元)
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119