マハラビノス距離が導出できる

「マハラビノス距離って何かわからない」などと困っていませんか？

こういう疑問に答えます。

本記事のテーマ

マハラビノス距離が導出できる

おさえておきたいポイント

①マハラビノス距離のベースは主成分分析！
➁マハラビノス距離の定義を理解する
➂マハラビノス距離を導出する(2次元)
➃マハラビノス距離の導出過程(2次元)

[themoneytizer id=”105233-2″]

【QC検定®１級合格】多変量解析問題集を販売します！

QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。

【QC検定®合格】「多変量解析」問題集を販売します！内容は、①回帰分析単回帰分析・重回帰分析の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の５章全４２題を演習できる問題集です。

マハラビノス距離は主成分分析！
マハラビノス距離は、定義式より主成分分析から入ろう！

判別分析は自分で解けます！
Excelや公式は暗記不要！
自力で導出できるぜ！

2次元でしっかり導出過程を理解しましょう。

①マハラビノス距離のベースは主成分分析！

マハラビノス距離だけでは理解できない

多変量解析をしていると、必ず出て来るのが「マハラビノス距離」ですね。
意味や式を理解しようとしても

でも、マハラビノス距離の意味や式は理解しにくいですよね。

なので、わかりやすく解説します。

先に主成分分析の導出過程を理解しよう

マハラビノス距離を理解するには、主成分分析の導出を理解しておく必要があります。関連記事でまとめていますので、先に確認ください。

【まとめ】主成分分析を究める
主成分分析は解けますか？主成分分析は何をやる手法か説明できますか？本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

前置きは以上で、ここから本題に入ります。

➁マハラビノス距離の定義を理解する

マハラビノス距離とは

定義と式を書くと

●定義
多変数間の相関に基づく「普通の距離を一般化したもの」
●定義式
\(D_M=\sqrt{(x-μ)^T ∑^{-1}(x-μ)}\)
・\(x\)=\((x_1,x_2,…,x_n)\)
・\(μ\)=\((μ_1, μ_2,…, μ_n)\)

となりますが、

よくわからないですよね。

マハラビノス距離を2次元表示する

定義式から２次元の場合を書いてみると
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
(ここで、\(S_{ij}\)は標本分散=平方和/データ数と見てください)

ちょっと、わかりやすいけど、まだ難しいですよね。

マハラビノス距離を1次元表示する

1次元まで限定すると、
\(D_M^2\)=\((x_1-\bar{x_1}) s_{11}^{-1} (x_1-\bar{x_1})\)
=\(\frac{(x_1 -\bar{x_1})^2}{s_{11}}\)
平方根にすると
\(D_M\)=\(\frac{|x_1 -\bar{x_1}|}{σ_{11}}\)
距離の差を標準偏差で割った、標準化した距離になりますね。

ここまで来て、少し理解できた感じですよね。

マハラビノス距離は、
式を具体的に書き出しても
本質はわかりません。
主成分分析を座標にした距離
というわかりにくい定義だからです

➂マハラビノス距離を導出する(2次元)

マハラビノス距離を導出しやすい定義から入る

マハラビノス距離は、
ユークリッド座標で定義した\(x_1,x_2\)から
主成分分析座標に変換した\(X_1,X_2\)
と平均値座標間の距離

下図でわかりやすく説明しますね。

マハラビノス距離

基本は、
●平均との差分の距離を考えるので、
ユークリッド座標(いつも使っている座標)から
\((x_1,x_2)\)～\((\bar{x_1},\bar{x_2})\)間の距離を考えます。

ただし、変数が増えると、\(x_1\),\(x_2\)間に相関関係が入る可能性があり、
ユークリッド座標では適切な距離として評価できない場合があります。

そこで、ユークリッド座標から、相関関係を考えた主成分分析方向に変換した距離を考える必要があることからマハラビノス距離ができました。

マハラビノス距離\(D_M^2\)は主成分分析方向で変換した長さですが、
標準化するために主成分分析方向の平方和で割ります。
しかも、主成分分析方向の平方和は固有値でしたね。

主成分分析方向の平方和は固有値になる理由は関連記事で解説しています。ご確認ください。

主成分方向の平方和と固有値が一致する理由がわかる
主成分の平方和と固有値が一致する理由が説明できますか？本記事では主成分分析を導出する過程で主成分方向の平方和と固有値が一致する理由をわかりやすく解説します。シンプルに証明できるので、た

ここで、ややこしい話をしますが、
主成分分析するときに、データを標準化する場合としない場合があります。
●データを標準化してから分析する場合→標本分散
●データを標準化せず、そのまま分析する場合→平方和
で、関連記事では「データを標準化しない」場合で解説してます。
本記事は、「データを標準化する」場合で解説しているので、
平方和→標本分散に変えて説明します。

マハラビノス距離\(D_M^2\)=\(X_1^2+X_2^2\)のイメージで
標準化したいから一旦、主成分分析方向の標本分散で割ります。
\(D_M^2\)=\(\frac{X_1^2}{S_1}+\frac{X_2^2}{S_2}\)
各主成分分析方向の標本分散は固有値に一致するので、
\( S _1=λ_1\),\( S _2=λ_2\)を代入すると
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
この式を変形すると
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
になります。

という解釈ですが、少しわかった感じになった程度ですよね。ここから先は数式を見ながらマハラビノス距離に慣れていきましょう。

マハラビノス距離の式を導出する

本記事の定義から、マハラビノス距離は
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
と定義しましたが、これが教科書で書いている
\(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
になることを証明しましょう。

導出過程は３ステップで行きます。

行列表記にして (ベクトル横)(行列)^-1(ベクトル縦)の形を作る
\((X_1,X_2)\)を\((x_1,x_2)\)で表現する
式をまとめる

導出過程の隠し味は、「固有方程式」の
行列とベクトルの積がベクトルの固有値倍に簡略化できるところです。

では、ポイントを知った上で、導出しましょう。

➃マハラビノス距離の導出過程(2次元)

行列表記にする

本記事の定義から、マハラビノス距離は
\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
と変形して、行列表記できます。

次に、逆行列表記します。

逆行列表記

あえて、
\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)
\)
の逆行列を求めます。これは高校数学レベルなので、公式通り解くと、

\(\left(\begin{array}{cccc}
\frac{1}{λ_1} & 0 \\
0 & \frac{1}{λ_2}
\end{array}
\right)^{-1}
\)=\(λ_1 λ_2\)\(\left(\begin{array}{cccc}
\frac{1}{λ_2} & 0 \\
0 & \frac{1}{λ_1}
\end{array}
\right)
\)
=\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)
となります。シンプルな逆行列ができましたね。

マハラビノス距離をまとめると

\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
=(式1)
と書けます。

\((X_1,X_2)\)を\((x_1,x_2)\)で表現する

図を再掲して、\(X_1,X_2\)を、内積を使って\(x_1,x_2\)で表現します。

マハラビノス距離

\(X_1\)=\( \overrightarrow{AP} \)・\( \vec{e_1} \)
=|\( \overrightarrow{AP} \)||\( \vec{e_1} \)|cosθ
=\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)・\(\left(
\begin{array}{c}
a_1\\
b_1
\end{array}
\right)
\)
=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
となります。

同様に、

\(X_2\)=\( \overrightarrow{AP} \)・\( \vec{e_2} \)
=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)

よって、
●\(X_1\)=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
●\(X_2\)=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)
の関係式から

●\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)
=(式2a)
と、縦横を入れ替えて
●\((X_1, X_2)\)=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)
=(式2b)

両方表現できます。両方とも後で使います。

式をまとめる

マハラビノス距離を再掲します。

(式1)に(式2a),(式2b)を代入します。

\(D_M^2\)=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
X_1\\
X_2
\end{array}
\right)
\)
=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(
\begin{array}{c}
x_{1i}-\bar{x_1}\\
x_{2i}-\bar{x_2}
\end{array}
\right)
\)

マハラビノス距離の式
\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1 -\bar{x_1}\\
X_2 -\bar{x_2}
\end{array}
\right)
\)
の左右が一致しましたね。

線形判別関数

図で見ると、あとは、

\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)
を証明すれば完成です。

やってみましょう。　

行列の式の証明

ここで、2次の固有方程式を思い出しましょう。

●固有方程式
\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)
\)\(\left(
\begin{array}{c}
a_j\\
b_j
\end{array}
\right)
\)=\(λ_j\)\(\left(
\begin{array}{c}
a_j\\
b_j
\end{array}
\right)
\)
(\(j\)=1,2)
でしたね。

主成分分析の関連記事で解説していますが、\(j=1,2\)をまとめて行列表記すると
\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)
\)
と表現でき、行列表記として、
●SH=HΛ
と書くことができますね。

なお、証明したい式を行列表記すると、
\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
λ_1 & 0 \\
0 & λ_2
\end{array}
\right)^{-1}
\)\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)=\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{21} & s_{22}
\end{array}
\right)^{-1}
\)
を行列表記すると
●HΛ^-1H^T=S^-1
が証明したい式です。

●SH=HΛ
に両辺に逆行列S^-1をかけると
● S^-1SH= S^-1HΛ
● H= S^-1HΛ

また、両辺に逆行列Λ^-1をかけると
● HΛ^-1= S^-1HΛΛ^-1
● HΛ^-1= S^-1H

さらに、両辺に転置行列H ^Tをかけると
● HΛ^-1 H ^T= S^-1H H ^T
=(式4)

ここで、積H^THは
●H^TH=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1 & a_2 \\
b_1 & b_2
\end{array}
\right)
\)
=\(\left(\begin{array}{cccc}
a_1 & b_1 \\
a_2 & b_2
\end{array}
\right)
\)\(\left(\begin{array}{cccc}
a_1^2+b_1^2 & a_1 a_2 + b_1 b_2 \\
a_1 a_2 + b_1 b_2 & a_2^2+b_2^2
\end{array}
\right)
\)
となります。

単位ベクトルでかつ、内積が0（直交性）があるため、
・\( a_1^2+b_1^2\)=1
・\( a_2^2+b_2^2\)=1
・\( a_1 a_2 + b_1 b_2 \)=0
から

●H^TH=\(\left(\begin{array}{cccc}
1 & 0 \\
0 & 1
\end{array}
\right)
\)
=E
となります。

よって、(式4)は
● HΛ^-1 H ^T= S^-1H H ^T
= S^-1

HΛ^-1 H ^T= S^-1
が成り立ちました。

よって、すべてまとめると、

\(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
=\((x_1-\bar{x_1},x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
s_{11} & s_{12} \\
s_{12} & s_{22}
\end{array}
\right)^{-1}
\)\(\left(
\begin{array}{c}
x_1-\bar{x_1}\\
x_2-\bar{x_2}
\end{array}
\right)
\)

できましたね！
主成分分析から入るとマハラビノス距離は理解しやすいですね。

まとめ

「マハラビノス距離が導出できる」を解説しました。

①マハラビノス距離のベースは主成分分析！

➁マハラビノス距離の定義を理解する

➂マハラビノス距離を導出する(2次元)

➃マハラビノス距離の導出過程(2次元)

多変量解析

マハラビノス距離が導出できる