カテゴリー: 手法

  • 因子分析の2因子モデルが導出できる

    因子分析の2因子モデルが導出できる

    「因子分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    因子分析の2因子モデルが導出できる

    おさえておきたいポイント

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算
    • ⑥因子分析を解析する際の注意点
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    1因子モデル導出過程をベースに本記事を解説します。1因子モデルの導出過程は関連記事で解説しています。先に確認ください。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ①2因子モデルを式で表現

    下表のように、例えば、あるデータがあり、変数x,y,zがあるとしましょう。

    No \(x\) \(y\) \(z\)
    1 \(x_{1}\) \(y_{1}\) \(z_{1}\)
    2 \(x_{2}\) \(y_{2}\) \(z_{2}\)
    n \(x_{n}\) \(y_{n}\) \(z_{n}\)

    このデータを、
    主成分分析のように、2つの共通変数F、Gに集約できなか?
    を考えます。

    つまり式と図で表現すると、
    \(
    \left(
    \begin{array}{c}
    x_i \\
    y_i \\
    z_i
    \end{array}
    \right)
    \)=\(F_i\)\(
    \left(
    \begin{array}{c}
    a_{x}\\
    a_{y}\\
    a_{z}
    \end{array}
    \right)
    \)+\(G_i\)\(
    \left(
    \begin{array}{c}
    b_{x}\\
    b_{y}\\
    b_{z}
    \end{array}
    \right)
    \)+\(
    \left(
    \begin{array}{c}
    e_{xi}\\
    e_{yi}\\
    e_{zi}
    \end{array}
    \right)
    \)

    各値を共通因子と誤差に相当する独自因子に分割します。

    因子分析

    式と図から、

    因子分析

    ●定数である因子負荷量\(a,b\)
    ●変数である共通因子F,G
    ●変数である誤差でもある独自因子e
    にわけて、
    ●変数である共通因子F,Gに意味を持たせる
    をやるのが因子分析です。

    数式を使って、わかりやすく因子分析を導出していきます。

    ➁モデル式から分散・共分散を導出

    モデル式から分散・共分散を導出

    3変数\(x,y,z\)で、次の分散
    \(s_x^2\),\(s_y^2\),\(s_z^2\)
    と共分散
    \(s_{xy}\),\(s_{xz}\),\(s_{yz}\)
    を考えます。

    分散\(s_x^2\)

    \(s_x^2\),\(s_y^2\),\(s_z^2\)のうち、\(s_x^2\)を代表として計算します。
    \(s_x^2\)=\(V(a_x F+b_x G+ e_x)\)
    分散の加法性から
    =\(a_x^2 V(F)+b_x^2 V(G)+V(e_x)\)
    +2\(a_x b_x Cov(F,G)\)+ 2\(a_x Cov(F,e_x)\)+ 2\(b_x Cov(G,e_x)\)
    と計算できます。

    \(s_y^2\),\(s_z^2\)は同様に計算すると、
    \(s_y^2\)=\(a_y^2 V(F)+b_y^2 V(G)+V(e_y)\)
    +2\(a_y b_y Cov(F,G)\)+ 2\(a_y Cov(F,e_y)\)+ 2\(b_y Cov(G,e_y)\)
    \(s_z^2\)=\(a_z^2 V(F)+b_z^2 V(G)+V(e_z)\)
    +2\(a_z b_z Cov(F,G)\)+ 2\(a_z Cov(F,e_z)\)+ 2\(b_z Cov(G,e_z)\)
    ですね。式は1因子モデルより長くなりましたが、機械的に計算できます。

    共分散\(s_{xy}\)

    \(s_{xy}\),\(s_{yz}\),\(s_{xz}\)のうち、\(s_{xy}\)を代表として計算します。
    \(s_{xy}\)=\(Cov(a_x F+b_x G+e_x, a_y F+b_y G+e_y)\)
    分散の加法性から
    =\(a_x a_y V(F)+a_x b_y Cov(F,G)+a_x Cov(F,e_y)\)
    +\(a_y b_x Cov(G,F)+b_x b_y V(G)+b_x Cov(G,e_y)\)
    +\(a_y Cov(e_x,F)+b_y Cov(e_x,G)+Cov(e_x,e_y)\)
    と計算できます。

    \(s_{yz}\),\(s_{xz}\)も同様に計算すると、
    \(s_{yz}\)=\(Cov(a_y F+b_y G+e_y, a_z F+b_z G+e_z)\)
    =\(a_y a_z V(F)+a_y b_z Cov(F,G)+a_y Cov(F,e_z)\)
    +\(a_z b_y Cov(G,F)+b_y b_z V(G)+b_y Cov(G,e_z)\)
    +\(a_z Cov(e_y,F)+b_z Cov(e_y,G)+Cov(e_y,e_z)\)

    \(s_{xz}\)=\(Cov(a_x F+b_x G+e_x, a_z F+b_z G+e_z)\)
    =\(a_x a_z V(F)+a_x b_z Cov(F,G)+a_x Cov(F,e_z)\)
    +\(a_z b_x Cov(G,F)+b_x b_z V(G)+b_x Cov(G,e_z)\)
    +\(a_z Cov(e_x,F)+b_z Cov(e_x,G)+Cov(e_x,e_z)\)
    と計算できます。

    ➂仮定を入れて式を簡略化

    式を簡略化するため仮定を入れる

    分散の式と共分散の式
    が長い式なので、仮定を入れて式を簡略化
    します。

    1. 因子間は独立とする
    2. 変数を標準化(平均0,標準偏差1)とする

    つまり、

    1. 独立⇒\(Cov(●,□\))=0
    2. 標準化⇒\(S_x^2\)、\(S_y^2\)、\(S_z^2\)、\(V(F)\), \(V(G)\)はすべて1

    では簡略化してみます。

    分散を簡略化

    ●分散の式
    \(s_x^2\)=1
    =\(a_x^2\)\(V(F)\)(1)+\(b_x^2\)\(V(G) \)(1)+\(V(e_x)\)
    +2\(a_x b_x Cov(F,G)\)+ 2\(a_x Cov(F,e_x)\)+ 2\(b_x Cov(G,e_x)\)
    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    と簡略化できます。

    \(s_y^2\),\(s_z^2\)は同様に計算すると、
    ●\(s_y^2\)⇒
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    ●\(s_z^2\)⇒
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1
    と簡略化できます。

    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1

    共分散を簡略化

    ●共分散の式

    \(s_{xy}\)=\(\frac{s_{xy}}{1×1}\)=
    \(\frac{s_{xy}}{ s_x^2 s_y^2}\)=\(r_{xy}\)(相関係数)として、
    \(s_{xy}\)=\(r_{xy}\)
    =\(a_x a_y\)\(V(F)\)(1)+\(a_x b_y Cov(F,G)+a_x Cov(F,e_y)\)
    +\(a_y b_x Cov(G,F)\)+\(b_x b_y\)\(V(G)\)(1)+\(b_x Cov(G,e_y)\)
    +\(a_y Cov(e_x,F)+b_y Cov(e_x,G)+Cov(e_x,e_y)\)
    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    と計算できます。

    \(s_{yz}\),\(s_{xz}\)も同様に計算すると、
    ●\(s_{yz}\)⇒
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    ●\(s_{xz}\)⇒
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)
    と計算できます。

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    ➃因子負荷量を計算

    因子負荷量を求める方程式

    先の結果をまとめると、

    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    から、\(a_○\),\(b_○\)を計算すればOKですが、

    1因子モデルと違って
    手計算はかなりキツイ。。。

    なので、最小二乗法を活用してExcelで計算します。

    SMC法から因子負荷量の2乗和を計算

    相関係数行列\(R\)の逆行列の\(ii\)要素を\(r^{ii}\)として、
    \(h_i^2\)=1-\(\frac{1}{r^{ii}}\)
    \(h_i^2\)=\(a_i^2\)+\(b_i^2\)
    \(V(e_i)\)=1-\(h_i^2\)
    の関係式を使って計算する方法です。この理論の背景は現在調査中です。分かり次第報告します。

    因子負荷量を最小二乗法から計算

    SMC法を使って
    ●\(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    ●\(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    ●\(h_z^2\)=\(a_z^2\)+\(b_z^2\)
    から、求めます。

    \(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    \(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    \(h_z^2\)=\(a_z^2\)+\(b_z^2\)

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    ここで、\(Q\)を
    \(Q\)=\(((a_x^2+b_x^2)-h_x^2)^2\)
    +\(((a_y^2+b_y^2)-h_y^2)^2\)
    +\(((a_z^2+b_z^2)-h_z^2)^2\)
    +2\((( a_x a_y+ b_x b_y)- r_{xy}^2)^2\)
    +2\((( a_y a_z+ b_y b_z)- r_{yz}^2)^2\)
    +2\((( a_x a_z+ b_x b_z)- r_{xz}^2)^2\)
    と定義して、この\(Q\)が最小値(なるべく0)となる場合を
    Excelで計算してもらいます。

    最小二乗法の計算をExcelに託す

    \(Q\)の式を行列表記します。

    \(Q\)=\((\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{xy} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)\)
    -\(\left(
    \begin{array}{cccc}
    a_x^2+b_x^2 & a_x a_y+ b_x b_y & a_x a_z+ b_x b_z \\
    a_x a_y+ b_x b_y & a_y^2+b_y^2 & a_y a_z+ b_y b_z \\
    a_x a_z+ b_x b_z & a_y a_z+ b_y b_z & h_z^2
    \end{array}
    \right))^2
    \)

    上の式を満たすように、
    \(a_○\),\(b_○\)の値を数値計算から求めます。

    因子分析

    具体的な計算は、関連記事の計算編で解説します。

    因子負荷量
    \(a_○\),\(b_□\)が求まります。
    ただし、注意してほしいのは、
    因子負荷量\(a_○\),\(b_□\)
    求める方程式は自由度が残るので、
    因子負荷量は1組ではありませんし、
    数値解析の誤差が残ります。

    ➄共通因子と誤差を計算

    あとは、誤差と共通因子を計算すれば、因子分析の一連の流れが計算できます。

    誤差を計算

    誤差\(V(e_x)\), \(V(e_y)\), \(V(e_z)\)は関係式から計算できます。

    誤差はSMC法から求められます。
    ●\(V(e_x)\)=1-\(h_x^2\)
    ●\(V(e_y)\)=1-\(h_y^2\)
    ●\(V(e_z)\)=1-\(h_z^2\)

    計算はできるのですが、1つ問題があります。

    誤差の分散は計算できるが、個別の誤差の値は別の方法で計算が必要。

    実は共通因子Fの各値を計算してから、個別の誤差の値を計算します。

    共通因子Fを計算

    実は、推定方法から計算します。この推定方法の導出はQCプラネッツで調査中です。

    共通因子Fの計算方法

    共通因子\(F\)=\(ZR^{-1} A\)
    ただし、
    ●\(Z\):標準化データ行列(\(x_i,y_i,z_i\)は標準化対応済が前提)
    ●\(R\):相関係数行列
    ●\(A\):因子負荷量ベクトル
    (1因子モデルはベクトル、2因子以上なら行列)

    3変数、2因子モデルの場合、具体的に記述すると

    \(
    \left(
    \begin{array}{c}
    F_1 & G_1\\
    F_2 & G_2\\
    \vdots \\
    F_n & G_2
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    x_{1} & y_{1} & z_{1} \\
    x_{2} & y_{2} & z_{2} \\
    \vdots & \vdots & \vdots \\
    x_{n} & y_{n} & z_{n}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{yz} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    a_x & b_x \\
    a_y & b_y \\
    a_z & b_z
    \end{array}
    \right)
    \)
    で計算できます。

    誤差Eを計算

    誤差Eは残りなので、上の式を使うと、

    \(\left(
    \begin{array}{cccc}
    x_1 & y_1 & z_1 \\
    x_2 & y_2 & z_2 \\
    \vdots & \vdots & \vdots \\
    x_n & y_n & z_n
    \end{array}
    \right)
    \)
    =\(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    a_x & a_y & a_z
    \end{array}
    \right)
    \)
    +\(
    \left(
    \begin{array}{c}
    G_1 \\
    G_2 \\
    \vdots \\
    G_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    b_x & b_y & b_z
    \end{array}
    \right)
    \)
    +\(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)

    から、誤差行列
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)
    の個々の値が計算できます。

    ここまで、各値を計算した上で、共通因子F,Gの意味を考えて、因子分析ができたといえます。

    ⑥因子分析を解析する際の注意点

    注意点

    一連の流れを解説してきましたが、どうでしょうか?

    おそらく、以下の点が因子分析するとき注意が必要です。

    1. 因子分析という割に、自分で因子が設定できない(ならば主成分分析でいいじゃん!)
    2. 因子負荷量を求める方程式は自由度が残るため、解は1つではない
    3. SMC法などの手法を借りて解くので、精度は低下する
    4. 数値解析解から因子F,Gの意味を考えても、結果の精度は低い
    5. 2因子モデルで精度が高くないので、多因子になると何を解析しているかがわからなくなる
    因子分析は何をやっているのか?よくわからない
    難しい手法の割に得るものが少ないと
    QCプラネッツは思います。
    因子分析の解析フローを理解して
    分析から何を得たいのかはよく考えて使う必要があります。

    まとめ

    「因子分析の2因子モデルが導出できる」を解説しました。

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算
    • ⑥因子分析を解析する際の注意点

  • 因子分析の1因子モデルが計算できる

    因子分析の1因子モデルが計算できる

    「因子分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    因子分析の1因子モデルが計算できる

    おさえておきたいポイント

    • ①データ事例
    • ➁モデル式から分散・共分散を導出
    • ➂因子負荷量を計算
    • ➃共通因子と誤差を計算
    [themoneytizer id=”105233-2″]
    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    この記事では、導出過程はすでに関連記事で解説しています。先に確認ください。導出過程を見ながら本記事では実際に計算して解いていきます。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ①データ事例

    データ事例

    下表のように、例えば、あるデータがあり、変数x,y,zがあるとしましょう。

    No A B C
    1 30 48 54
    2 60 50 60
    3 40 42 55
    4 80 70 68
    5 56 54 71
    6 65 70 76
    7 22 28 30
    8 100 72 96
    9 65 70 88
    10 32 46 52
    合計 550 550 650
    平均 55 55 65
    標準偏差 23.11 14.21 18.15

    このデータを、
    主成分分析のように、ある共通変数Fに集約できなか?
    を考えます。

    1因子モデルを式で表現

    つまり式と図で表現すると、
    \(
    \left(
    \begin{array}{c}
    x_i \\
    y_i \\
    z_i
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    a F_i\\
    b F_i\\
    z F_i
    \end{array}
    \right)
    \)+\(
    \left(
    \begin{array}{c}
    e_{xi}\\
    e_{yi}\\
    e_{zi}
    \end{array}
    \right)
    \)

    各値を共通因子と誤差に相当する独自因子に分割します。

    因子分析

    式と図から、

    ●定数である因子負荷量
    ●変数である共通因子F
    ●変数である誤差でもある独自因子e
    にわけて、
    ●変数である共通因子Fに意味を持たせる
    をやるのが因子分析です。

    数式を使って、わかりやすく因子分析を導出していきます。

    データを標準化

    因子分析はモデル式から分散・共分散を導出するときに、データの標準化が必須です。先にデータを標準化しましょう。

    標準化は\(z\)=\(\frac{x-\bar{x}}{σ}\)です。

    No A B C
    1 -1.08 -0.49 -0.61
    2 0.22 -0.35 -0.28
    3 -0.65 -0.92 -0.55
    4 1.08 1.06 0.17
    5 0.04 -0.07 0.33
    6 0.43 1.06 0.61
    7 -1.43 -1.9 -1.93
    8 1.95 1.2 1.71
    9 0.43 1.06 1.27
    10 -0.99 -0.63 -0.72
    sum 0 0 0
    ave 0 0 0
    sig 1 1 1

    また、分散・共分散も計算すると以下のとおりです。

    \(s_x\) \(s_y\) \(s_z\)
    分散 1 1 1
    \(s_{xy}\) \(s_{yz}\) \(s_{xz}\)
    共分散 0.878 0.874 0.919

    ➁モデル式から分散・共分散を導出

    詳細な導出は関連記事で

    分散・共分散の導出過程も関連記事で解説しています。先にご確認ください。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    結果まとめ

    分散と共分散の結果は以下のとおりになります。

    ●1=\(a^2+V(e_x)\)
    ●1=\(b^2+V(e_y)\)
    ●1=\(c^2+V(e_z)\)
    ●\(s_{xy}\)=\(ab\)
    ●\(s_{yz}\)=\(bc\)
    ●\(s_{xz}\)=\(ac\)

    ➃因子負荷量を計算

    因子負荷量を計算

    しかも、共分散\(s_{xy}\),\(s_{yz}\),\(s_{xz}\)は
    実データから計算できるので、
    \(a,b,c\)が計算できますね。

    実データから
    \(s_{xy}\)×\(s_{yz}\)×\(s_{xz}\)=\(a^2 b^2 c^2\)
    この平方根は\(abc\)ですから、
    \(abc\)と\(s_{xy}\),\(s_{yz}\),\(s_{xz}\)の比が
    \(a,b,c\)となり、因子負荷量を計算することができます。

    実際に、

    ●\(s_{xy}\)=\(ab\)=0.878
    ●\(s_{yz}\)=\(bc\)=0.874
    ●\(s_{xz}\)=\(ac\)=0.919

    全部掛けると
    \(a^2 b^2 c^2\)=0.878×0.874×0.919=0.840
    \(abc\)=0.840

    ●\(a\)=\(abc/s_{yz}\)=0.840/0.919=0.914
    ●\(b\)=\(abc/s_{xz}\)=0.840/0.875=0.960
    ●\(c\)=\(abc/s_{xy}\)=0.840/0.878=0.957
    となります。

    ➄共通因子と誤差を計算

    あとは、誤差と共通因子を計算すれば、因子分析の一連の流れが計算できます。

    誤差を計算

    誤差\(V(e_x)\), \(V(e_y)\), \(V(e_z)\)は関係式から計算できます。

    ●\(V(e_x)\)=1-\(a^2\)=1-0.9142=0.165
    ●\(V(e_y)\)=1-\(b^2\)=1-0.9602=0.078
    ●\(V(e_z)\)=1-\(c^2\)=1-0.9572=0.084

    計算はできるのですが、1つ問題があります。

    誤差の分散は計算できるが、個別の誤差の値は別の方法で計算が必要。

    実は共通因子Fの各値を計算してから、個別の誤差の値を計算します。

    ここから

    共通因子Fを計算

    実は、推定方法から計算します。この推定方法の導出はQCプラネッツで調査中です。

    共通因子Fの計算方法

    共通因子\(F\)=\(ZR^{-1} A\)
    ただし、
    ●\(Z\):標準化データ行列
    ●\(R\):相関係数行列
    ●\(A\):因子負荷量ベクトル
    (1因子モデルはベクトル、2因子以上なら行列)

    3変数、1因子モデルの場合、具体的に記述すると

    \(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    x_{1} & y_{1} & z_{1} \\
    x_{2} & y_{2} & z_{2} \\
    \vdots & \vdots & \vdots \\
    x_{n} & y_{n} & z_{n}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    1 & r_{xy} & r_{xz} \\
    r_{xy} & 1 & r_{yz} \\
    r_{xz} & r_{xy} & 1
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    a \\
    b \\
    c
    \end{array}
    \right)
    \)
    で計算できます。

    実際に計算してみましょう。

    \(\left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    F_3 \\
    F_4 \\
    F_5 \\
    F_6 \\
    F_7 \\
    F_8 \\
    F_9 \\
    F_{10} \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    -1.08 &-0.49 &-0.61 \\
    0.22 &-0.35 &-0.28 \\
    -0.65 &-0.92 &-0.55 \\
    1.08 &1.06 &0.17 \\
    0.04 &-0.07 &0.33 \\
    0.43 &1.06 &0.61 \\
    -1.43 &-1.9 &-1.93 \\
    1.95 &1.2 &1.71 \\
    0.43 &1.06 &1.27 \\
    -0.99 &-0.63 &-0.72 \\
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    1 & 0.3715 & 0.8745 \\
    0.3715 & 1 & 0.7316 \\
    0.8745 & 0.7316 & 1
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    0.914 \\
    0.960 \\
    0.957\end{array}
    \right)
    \)

    ここで、相関係数行列の逆行列は、
    \(\left(
    \begin{array}{cccc}
    12.44 & 7.18 & -16.13 \\
    7.18 & 6.29 & -10.89 \\
    -16.13 & -10.89 & 23.07
    \end{array}
    \right)^{-1}
    \)
    を使います。

    計算結果は、
    \(\left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    F_3 \\
    F_4 \\
    F_5 \\
    F_6 \\
    F_7 \\
    F_8 \\
    F_9 \\
    F_10 \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{c}
    -2.248 \\
    0.699 \\
    -2.123 \\
    4.857 \\
    -1.063 \\
    1.648 \\
    -2.189 \\
    2.801 \\
    -0.414 \\
    -1.968 \\
    \end{array}
    \right)
    \)

    誤差Eを計算

    誤差Eは残りなので、上の式を使うと、

    \(\left(
    \begin{array}{cccc}
    x_1 & y_1 & z_1 \\
    x_2 & y_2 & z_2 \\
    \vdots & \vdots & \vdots \\
    x_n & y_n & z_n
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    a & b & c
    \end{array}
    \right)
    \)+
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)

    から、誤差行列
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)
    の個々の値が計算できます。

    実際に計算すると、下表になります。

    ei A B C
    1 0.973 1.666 1.545
    2 -0.423 -1.023 -0.944
    3 1.291 1.123 1.48
    4 -3.357 -3.609 -4.483
    5 1.015 0.95 1.348
    6 -1.073 -0.527 -0.971
    7 0.573 0.201 0.167
    8 -0.613 -1.493 -0.972
    9 0.811 1.454 1.663
    10 0.804 1.257 1.167

    因子分析結果をまとめると、下図になります。

    因子分析

    ここまで、各値を計算した上で、共通因子Fの意味を考えて、因子分析ができたといえます。

    まとめ

    「因子分析の1因子モデルが計算できる」を解説しました。

    • ①データ事例
    • ➁モデル式から分散・共分散を導出
    • ➂因子負荷量を計算
    • ➃共通因子と誤差を計算

  • 因子分析の1因子モデルが導出できる

    因子分析の1因子モデルが導出できる

    「因子分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    因子分析の1因子モデルが導出できる

    おさえておきたいポイント

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①1因子モデルを式で表現

    下表のように、例えば、あるデータがあり、変数x,y,zがあるとしましょう。

    No \(x\) \(y\) \(z\)
    1 \(x_{1}\) \(y_{1}\) \(z_{1}\)
    2 \(x_{2}\) \(y_{2}\) \(z_{2}\)
    n \(x_{n}\) \(y_{n}\) \(z_{n}\)

    このデータを、
    主成分分析のように、ある共通変数Fに集約できなか?
    を考えます。

    つまり式と図で表現すると、
    \(
    \left(
    \begin{array}{c}
    x_i \\
    y_i \\
    z_i
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    a F_i\\
    b F_i\\
    c F_i
    \end{array}
    \right)
    \)+\(
    \left(
    \begin{array}{c}
    e_{xi}\\
    e_{yi}\\
    e_{zi}
    \end{array}
    \right)
    \)

    因子分析

    各値を共通因子と誤差に相当する独自因子に分割します。

    因子分析

    式と図から、

    ●定数である因子負荷量
    ●変数である共通因子F
    ●変数である誤差でもある独自因子e
    にわけて、
    ●変数である共通因子Fに意味を持たせる
    をやるのが因子分析です。

    数式を使って、わかりやすく因子分析を導出していきます。

    ➁モデル式から分散・共分散を導出

    モデル式から分散・共分散を導出

    3変数\(x,y,z\)で、次の分散
    \(s_x^2\),\(s_y^2\),\(s_z^2\)
    と共分散
    \(s_{xy}\),\(s_{xz}\),\(s_{yz}\)
    を考えます。

    分散\(s_x^2\)

    \(s_x^2\),\(s_y^2\),\(s_z^2\)のうち、\(s_x^2\)を代表として計算します。
    \(s_x^2\)=\(V(aF+e_x)\)
    分散の加法性から
    =\(a^2V(F)+2aCov(F,e_x)+V(e_x)\)
    と計算できます。

    \(s_y^2\),\(s_z^2\)は同様に計算すると、
    \(s_y^2\)=\(a^2V(F)+2aCov(F,e_y)+V(e_y)\)
    \(s_z^2\)=\(a^2V(F)+2aCov(F,e_z)+V(e_z)\)
    ですね。

    共分散\(s_{xy}\)

    \(s_{xy}\),\(s_{yz}\),\(s_{xz}\)のうち、\(s_{xy}\)を代表として計算します。
    \(s_{xy}\)=\(Cov(aF+e_x,bF+e_y)\)
    分散の加法性から
    =\(ab Cov(F,F)+aCov(F,e_y)+bCov(e_x,)+Cov(e_x,e_y)\)
    =\(ab V(F)+aCov(F,e_y)+bCov(e_x,F)+Cov(e_x,e_y)\)
    と計算できます。

    \(s_{yz}\),\(s_{xz}\)も同様に計算すると、
    \(s_{yz}\)=\(bc V(F)+bCov(F,e_z)+cCov(e_y,F)+Cov(e_y,e_z)\)
    \(s_{xz}\)=\(ac V(F)+aCov(F,e_z)+cCov(e_x,F)+Cov(e_x,e_z)\)
    となります。

    ➂仮定を入れて式を簡略化

    式を簡略化するため仮定を入れる

    ●分散の式
    \(s_x^2\)=\(a^2V(F)+2aCov(F,e_x)+V(e_x)\)
    ●共分散の式
    \(s_{xy}\)=\(ab V(F)+aCov(F,e_y)+bCov(e_x,F)+Cov(e_x,e_y)\)
    が長い式なので、仮定を入れて式を簡略化します。

    1. 因子間は独立とする
    2. 変数を標準化(平均0,標準偏差1)とする

    つまり、

    1. 独立⇒\(Cov(●,□\))=0
    2. 標準化⇒\(S_x^2\)、\(S_y^2\)、\(S_z^2\)、\(V(F)\)はすべて1

    では簡略化してみます。

    分散を簡略化

    ●分散の式
    \(s_x^2\)=\(a^2V(F)+2aCov(F,e_x)+V(e_x)\)
    1=\(a^2+V(e_x)\)
    となり、同様に計算して結果をまとめると、

    ●1=\(a^2+V(e_x)\)
    ●1=\(b^2+V(e_y)\)
    ●1=\(c^2+V(e_z)\)
    と簡単になりましたね。

    共分散を簡略化

    ●共分散の式
    \(s_{xy}\)=\(ab\)
    となり、同様に計算して結果をまとめると、

    ●\(s_{xy}\)=\(ab\)
    ●\(s_{yz}\)=\(bc\)
    ●\(s_{xz}\)=\(ac\)
    と簡単になりましたね。

    ➃因子負荷量を計算

    因子負荷量を計算

    しかも、共分散\(s_{xy}\),\(s_{yz}\),\(s_{xz}\)は
    実データから計算できるので、
    \(a,b,c\)が計算できますね。

    実データから
    \(s_{xy}\)×\(s_{yz}\)×\(s_{xz}\)=\(a^2 b^2 c^2\)
    この平方根は\(abc\)ですから、
    \(abc\)と\(s_{xy}\),\(s_{yz}\),\(s_{xz}\)の比が
    \(a,b,c\)となり、因子負荷量を計算することができます。

    ➄共通因子と誤差を計算

    あとは、誤差と共通因子を計算すれば、因子分析の一連の流れが計算できます。

    誤差を計算

    誤差\(V(e_x)\), \(V(e_y)\), \(V(e_z)\)は関係式から計算できます。

    ●\(V(e_x)\)=1-\(a^2\)
    ●\(V(e_y)\)=1-\(b^2\)
    ●\(V(e_z)\)=1-\(c^2\)

    計算はできるのですが、1つ問題があります。

    誤差の分散は計算できるが、個別の誤差の値は別の方法で計算が必要。

    実は共通因子Fの各値を計算してから、個別の誤差の値を計算します。

    共通因子Fを計算

    実は、推定方法から計算します。この推定方法の導出はQCプラネッツで調査中です。

    共通因子Fの計算方法

    共通因子\(F\)=\(ZR^{-1} A\)
    ただし、
    ●\(Z\):標準化データ行列
    ●\(R\):相関係数行列
    ●\(A\):因子負荷量ベクトル
    (1因子モデルはベクトル、2因子以上なら行列)

    3変数、1因子モデルの場合、具体的に記述すると

    \(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    x_{1} & y_{1} & z_{1} \\
    x_{2} & y_{2} & z_{2} \\
    \vdots & \vdots & \vdots \\
    x_{n} & y_{n} & z_{n}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    1 & r_{xy} & r_{xz} \\
    r_{xy} & 1 & r_{yz} \\
    r_{xz} & r_{xy} & 1
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    a \\
    b \\
    c
    \end{array}
    \right)
    \)
    で計算できます。

    誤差Eを計算

    誤差Eは残りなので、上の式を使うと、

    \(\left(
    \begin{array}{cccc}
    x_1 & y_1 & z_1 \\
    x_2 & y_2 & z_2 \\
    \vdots & \vdots & \vdots \\
    x_n & y_n & z_n
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    a & b & c
    \end{array}
    \right)
    \)+
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)

    から、誤差行列
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)
    の個々の値が計算できます。

    ここまで、各値を計算した上で、共通因子Fの意味を考えて、因子分析ができたといえます。

    まとめ

    「因子分析の1因子モデルが導出できる」を解説しました。

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算

  • 【まとめ】判別分析がわかる

    【まとめ】判別分析がわかる

    「判別分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【まとめ】判別分析がわかる

    おさえておきたいポイント

    • ①判別分析に使う2つの手法
    • ➁線形判別関数で判別分析
    • ➂マハラビノス距離で判別分析
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    線形判別関数と
    マハラビノス距離は
    解き方の思想が異なる点を理解しよう!

    ①判別分析に使う2つの手法

    判別分析には、主に2つの手法があります。

    1. 線形判別関数
    2. マハラビノス距離

    そして、変数はn個を想定して判別分析していきますが、
    変数2個の2次元で、解き方をマスターしましょう。
    そして、ツールではなく手計算で解法を習得しましょう。

    線形判別関数もマハラビノス距離も
    データ群から情報量を最大限抜き取って判別する思想は同じだけど
    ●線形判別関数は平方和で評価
    ●マハラビノス距離は主成分分析から評価
    する点が違う。

    最もおさえておきたいポイント

    線形判別関数、マハラビノス距離の思想を理解することが最も大事!
    データ群から情報量を最大限抜き取って判別する思想は両方とも同じだけど
    ●線形判別関数は平方和で評価し、群間変動が最大となる(しっかり群どうしの差を抜き取る)条件で判別する。
    ●マハラビノス距離は情報量を最大限抜き取る主成分分析から評価
    とそれぞれ異なる手法で解いていきます。

    手法ばかり勉強するな!

    線形判別関数もマハラビノス距離の解き方を暗記して
    判別の結果の正誤判定率まで解けるようにして点数を稼ぐことよりも
    判別する思想をよく理解しましょう。ここが一番大事

    なので、解き方も大事ですが、考え方を意識して解説しております!

    線形判別関数について

    線形判別関数のポイント

    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    線形判別関数を解くプロセスでは特に意識しておく必要があります。

    マハラノビス距離について

    マハラノビス距離のポイント

    ●主成分分析方向を座標とした場合の距離がマハラビノス距離。
    ●距離の2乗を標本分散で割るイメージが強いが、それより主成分分析から導出する点が大事

    マハラビノス距離を解くプロセスでは特に意識しておく必要があります。

    ➁線形判別関数で判別分析

    線形判別関数をマスターすべく重要な関連記事を紹介します。
    線形判別関数をマスターするために必要なステップは、

    1. 線形判別関数の正負で判別する
    2. 線形判別関数が導出できる
    3. 線形判別関数が計算できて判別分析ができる

    の3ステップです。それぞれ、重要な関連記事を紹介します。

    線形判別関数の正負で判別する

    まず、線形判別関数を使って判別する基準は正負です。

    線形判別関数の正負がわかる
    判別分析に使う、線形判別関数の正負、0のイメージができますか? 本記事では、最も基本ベースとなる線形判別関数の値とそのイメージを高2数学で十分わかるように丁寧に解説します。簡単だからと思わず、丁寧に理解することが大事です。多変量解析を学ぶ人は必読です。

    線形判別関数が導出できる

    線形判別関数の導出過程を解説します。

    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    大事なポイントを意識しながら導出過程を見ましょう。

    線形判別関数Zの導出がわかる(2次元、平方和の分解)
    線形判別関数は自分で導出できますか? 本記事は線形判別関数を導出するための平方和の計算、平方和の分解を解説します。平方和の分解はQCすべての単元に必須なテクニックです。多変量解析を学ぶ人は必読です。

    線形判別関数が計算できて判別分析ができる

    導出過程が理解できたら、実際に計算しながら理解をさらに深めましょう。
    計算しながら、気になるポイントもまとめて関連記事で紹介します。

    線形判別関数が計算できる

    基本的な計算方法を解説します。2つの関連記事で解説します。

    線形判別関数が計算できる(2次元、その1)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    線形判別関数の傾きの数

    線形判別関数で判別できるようになると、

    何本、線形判別関数の直線が引けるか?

    が疑問になります。調べた結果、

    1. 傾きの数は、データの変数の種類の数が上限
    2. y切片の数は、自分で判別したい分だけ調整できる

    とわかりました。

    傾きの数は、データの変数の種類の数が上限である理由を解説します。

    2次元の線形判別関数の傾きは最大2種類である理由がわかる
    2次元の線形判別直線の傾きを相関比の微分から求める時、相関比は分母分子ともに2次式なので、微分すると分子が3次式にあり、傾きを満たす解が最大3つになるのではないか?と思い、実際計算すると確かに解は最大2個になります。ちょっと疑問に思ったこともブログで解説していきます。

    線形判別関数で多く分割する場合

    y切片の数は自分で調整できますが、数学的に導出・証明されているわけではない点は、やや面白味がたりませんが、多分割する場合の関連記事を紹介します。

    線形判別関数が計算できる(2次元で3群以上分割する場合)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に3分割する線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    ➂マハラビノス距離で判別分析

    次に、線形判別関数と思想が異なるマハラビノス距離の関連記事を紹介します。</p.

    マハラビノス距離は普段使わない!
    普段使いユークリッド距離とどう違うの?

    を特に意識しながら関連記事を読んでいただきたいです。

    関連記事の流れとして次の5つのステップがあります。

    1. マハラビノス距離が導出できる
    2. マハラビノス距離が計算できる
    3. マハラノビス距離と相関係数の関係がわかる
    4. マハラノビス距離から判別できる
    5. マハラノビス距離と線形判別関数を使った判別分析の違いがわかる

    マハラビノス距離が導出できる

    マハラノビス距離の式が難解で理解しにくいですよね。どこから導出されてきたか?を理解するところが最も重要です。

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    マハラビノス距離が計算できる

    導出がわかったら、実際に計算してみましょう。ユークリッド距離と比較しながら、σや相関係数の影響を見ていきましょう。

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    マハラノビス距離と相関係数の関係がわかる

    マハラノビス距離とユークリッド距離の違いはどこにあるか? 相関係数を使えば、違いがよくわかります。

    マハラビノス距離と相関係数の関係がわかる
    マハラビノス距離と相関係数の関係性が説明できますか?本記事では、マハラビノス距離と相関係数の関係、相関係数によるマハラビノス距離とユークリッド距離の差異について、わかりやすく解説します。マハラビノス距離の面白い性質がわかります。多変量解析を学ぶ人は必読です。

    マハラノビス距離から判別できる

    マハラノビス距離をつかって判別分析をしてみましょう。

    マハラビノス距離から判別できる
    マハラノビス距離を計算してデータを判別できますか? 本記事では、実データをもとにマハラノビス距離を使った判別分析をわかりやすく解説しています。座標の見た目と異なる判別結果が出る注意点などが理解できます。多変量解析を学ぶ人は必読です。

    マハラノビス距離と線形判別関数を使った判別分析の違いがわかる

    マハラノビス距離と線形判別関数を使って、同じデータで判別結果の違いを見ていきましょう。手法によって結果に差が出るので、最後は我々が判別するしかなさそうです。

    マハラビノス距離と線形判別関数から判別分析ができる
    判別分析で線形判別関数、マハラビノス距離の結果の違いが説明できますか?本記事は、同じデータを使って、線形判別関数、マハラビノス距離を計算し、判別分析の結果の違いをわかりやすく解説します。多変量解析を学ぶ人は必読です。

    これだけの関連記事を読めば、判別分析はマスターした!といって過言ではないでしょう!

    まとめ

    「【まとめ】判別分析がわかる」を解説しました。

    • ①判別分析に使う2つの手法
    • ➁線形判別関数で判別分析
    • ➂マハラビノス距離で判別分析

  • マハラビノス距離と線形判別関数から判別分析ができる

    マハラビノス距離と線形判別関数から判別分析ができる

    「判別分析はマハラビノス距離と線形判別関数の2つがあるけど、違いがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    マハラビノス距離と線形判別関数から判別分析ができる

    おさえておきたいポイント

    • ①判別分析手法
    • ➁データ事例
    • ➂線形判別関数で判別分析
    • ➃マハラビノス距離で判別分析
    • ➄線形判別関数とマハラビノス距離の分析結果を比較
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①判別分析手法

    線形判別関数について

    線形判別関数については、関連記事で解説していますので、先に確認してください。本記事では、線形判別関数の導出や具体的な計算ができる前提で話を進めていきます。

    線形判別関数が計算できる(2次元、その1)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    線形判別関数のポイント

    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    線形判別関数を解くプロセスでは特に意識しておく必要があります。

    マハラノビス距離について

    マハラノビス距離については、関連記事で解説していますので、先に確認してください。本記事では、マハラノビス距離の導出や具体的な計算ができる前提で話を進めていきます。

    マハラノビス距離の導出

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    マハラノビス距離の計算

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    マハラノビス距離のポイント

    ●主成分分析方向を座標とした場合の距離がマハラビノス距離。
    ●距離の2乗を標本分散で割るイメージが強いが、それより主成分分析から導出する点が大事

    マハラビノス距離を解くプロセスでは特に意識しておく必要があります。

    ➁データ事例

    以下のデータを使って、線形判別関数とマハラビノス距離の両手法で判別分析をします。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 4 8 4 10
    2 6 10
    3 2 12
    2 4 10 16 7.5 13.5
    5 5 10
    6 8 12
    7 7 16
    合計 42 84 全平均 6 12

    グラフは下図のとおりです。

    マハラノビス距離

    ➂線形判別関数で判別分析

    同じデータですでに線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    結果は下図の通りで、2次元のデータから2本の線形判別関数の直線ができますね。

    線形判別関数

    線形判別関数

    ➃マハラビノス距離で判別分析

    同じデータですでに線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    マハラビノス距離による判別分析は下図のようになります。

    マハラノビス距離

    ➄線形判別関数とマハラビノス距離の分析結果を比較

    グラフで確認

    線形判別関数とマハラビノス距離で同じデータをそれぞれ判別分析しました。

    結果をグラフにまとめてみましょう。

    ●線形判別関数Z1: y=x+6の場合とマハラビノス距離

    マハラビノス距離

    ●線形判別関数Z1: y=-13/6x+25の場合とマハラビノス距離

    線形判別関数

    【クイズ】次の4点はどちらの群に属するか?

    ●線形判別関数(Z1,Z2)場合とマハラビノス距離で次の座標は1群、2群のどちらに属するか?
    (i) (2,10)
    (ii) (8,18)
    (iii) (9,13)
    (iv) (6,10)

    マハラビノス距離
    マハラビノス距離

    (i)(ii)は計算しなくても図から明らかですが、
    (iii)(iv)はどうでしょうか?
    線形判別関数とマハラビノス距離の両面から計算して評価しましょう。

    解析結果

    No 座標 線形判別関数1
    y=x+6
    線形判別関数2
    y=-13/6x+25
    マハラビノス距離DM マハラビノス距離DM1 マハラビノス距離DM2
    (i) (2,10) 2群 1群 1群 1.154 2.799
    (ii) (8,18) 2群 2群 2群 6.111 1.867
    (iii) (9,13) 1群 2群 2群 4.041 1.173
    (iv) (6,10) 1群 1群 1群 1.1543 1.173

    各手法で計算すると、所属群が変わることがあります。
    手法で計算したら、あとは、あなたの考えで判別の結論を出すことになります。

    同じデータを線形判別関数・マハラビノス距離の両方を使って結果を比較する面白い内容を解説しました。

    まとめ

    「マハラビノス距離と線形判別関数から判別分析ができる」を解説しました。

    • ①判別分析手法
    • ➁データ事例
    • ➂線形判別関数で判別分析
    • ➃マハラビノス距離で判別分析
    • ➄線形判別関数とマハラビノス距離の分析結果を比較

  • マハラビノス距離から判別できる

    マハラビノス距離から判別できる

    「マハラビノス距離からデータをどうやって判別するかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    マハラビノス距離から判別できる

    おさえておきたいポイント

    • ①データ事例
    • ➁各群のマハラノビス距離を算出
    • ➂各点がどちらの群に属するか?
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    マハラビノス距離を実際に計算してみよう
    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    2次元でしっかり導出過程を理解しましょう。

    ①データ事例

    マハラノビス距離について

    マハラノビス距離については、関連記事で解説していますので、先に確認してください。本記事では、マハラノビス距離の導出や具体的な計算ができる前提で話を進めていきます。

    マハラノビス距離の導出

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    マハラノビス距離の計算

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    データ事例

    下表のように、2つの群に分かれている7個のデータを用意します。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 4 8 4 10
    2 6 10
    3 2 12
    2 4 10 16 7.5 13.5
    5 5 10
    6 8 12
    7 7 16
    合計 42 84 全平均 6 12

    グラフは下図のとおりです。

    マハラノビス距離

    標本分散を計算

    マハラビノス距離の計算に必要な標本分散を計算します。結果は下表のとおりです。

    N0 \(x_1\) \(x_2\) 標本平均
    \(S_{11}\)
    標本平均
    \(S_{22}\)
    標本平均
    \(S_{12}\)
    1 1 4 8 4 4 -2
    2 6 10
    3 2 12
    2 4 10 16 4.33 9 4.33
    5 5 10
    6 8 12
    7 7 16

    ➁各群のマハラノビス距離を算出

    マハラビノス距離を相関係数で表現

    関連記事「」では、2次元のマハラノビス距離を

    \(D_M^2\)=\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)

    と表現できますね。

    上の式を使って、マハラビノス距離を計算します。

    各群のマハラノビス距離を計算

    1群のマハラノビス距離

    1群では、
    \(D_M^2\)=\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    4 & -2 \\
    -2 & 4
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    0.333 & 0.167 \\
    0.167 & 0.333
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_1-\bar{x_1}\\
    x_2-\bar{x_2}
    \end{array}
    \right)
    \)
    より、結果をまとめると
    \(D_M^2\)=\(\frac{1}{3}(x_1-4)^2\)+\(\frac{1}{3}(x_1-4) (x_2-10)\)+ \(\frac{1}{3}(x_2-10)^2\)
    となります。

    2群のマハラノビス距離

    次に、2群では、
    \(D_M^2\)=\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    4.33 & 4.33 \\
    4.33 & 9
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    0.445 & -0.214 \\
    -0.214 & 0.214
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_1-\bar{x_1}\\
    x_2-\bar{x_2}
    \end{array}
    \right)
    \)
    より、結果をまとめると
    \(D_M^2\)=0.445\((x_1-7.5)^2\)-0.214\((x_1-7.5) (x_2-13.5)\)+ 0.214\((x_2-13.5)^2\)
    となります。

    結果をまとめると、

    マハラビノス距離は
    ●1群:\(D_M^2\)=\(\frac{1}{3}(x_1-4)^2\)+\(\frac{1}{3}(x_1-4) (x_2-10)\)+ \(\frac{1}{3}(x_2-10)^2\)
    ●2群:\(D_M^2\)=0.445\((x_1-7.5)^2\)-0.214\((x_1-7.5) (x_2-13.5)\)+ 0.214\((x_2-13.5)^2\)
    となります。
    各座標において、1群、2群のマハラノビス距離を計算して
    マハラノビス距離が短い群に属することを確認しましょう。

    マハラビノス距離を図示

    その前に、マハラノビス距離を図示しましょう。傾いた楕円形になりますね。グラフに描く式は、

    図示するグラフは
    ●1群:\(\frac{1}{3}(x_1-4)^2\)+\(\frac{1}{3}(x_1-4) (x_2-10)\)+ \(\frac{1}{3}(x_2-10)^2\)=\(D_M^2\)
    ●2群:0.445\((x_1-7.5)^2\)-0.214\((x_1-7.5) (x_2-13.5)\)+ 0.214\((x_2-13.5)^2\)=\(D_M^2\)
    として、\(D_M^2\)=\(1^2\),\(2^2\)について図示します。

    マハラノビス距離

    上図の等高線を見ると、
    ●マハラノビス距離がどの程度あるか、
    ●どちらの群に属しているか、

    がはっきりしますね。

    ➂各点がどちらの群に属するか?

    3点を例に、マハラビノス距離から判別

    下図のように3つの赤い点(座標)を用意して、1群、2群どちらに属するかをみましょう。

    マハラノビス距離

    1. (\(x_1,x_2\))=(3,13)
    2. (\(x_1,x_2\))=(9,12)
    3. (\(x_1,x_2\))=(5,12)

    では、実際に計算すると下表のような結果になります。

    データ 座標 DM1 DM2 属する群
    (3,13) 1.53 2.85 2群
    (9,12) 3.61 1.56 1群
    (5,12) 1.53 1.28 2群

    ①➁はあきらかにすぐわかりますが、
    ➂のような、7つのデータからみると
    1群の3つの黒点に近い座標なので、1群に属しやすいかと思いきや、
    マハラノビス距離から評価すると2群に属することが分かりました。

    マハラビノス距離で判別するときの注意点

    マハラノビス距離では、標準偏差で割ったり、相関関係を配慮した値になるので、座標から見て直観的に判別した結果と異なる場合があります。

    各群のばらつき、変数(軸)どうし相関関係に注意してマハラノビス距離を計算しましょう。

    その一方、線形判別関数は直線で引くので、座標からすぐ判別がつきますが、マハラノビス距離からの評価は座標を見ただけでは完璧に判別できない難しさがありますね。

    まとめ

    「マハラビノス距離から判別できる」を解説しました。

    • ①データ事例
    • ➁各群のマハラノビス距離を算出
    • ➂各点がどちらの群に属するか?

  • マハラビノス距離と相関係数の関係がわかる

    マハラビノス距離と相関係数の関係がわかる

    「マハラビノス距離と相関係数の関係がどうなっているのか、わからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    マハラビノス距離と相関係数の関係がわかる

    おさえておきたいポイント

    • ①マハラビノス距離を相関係数で表現する
    • ➁マハラビノス距離とユークリッド距離の関係
    • ➂相関係数とマハラビノス距離の関係
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    マハラビノス距離を実際に計算してみよう
    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    2次元でしっかり導出過程を理解しましょう。

    ①マハラビノス距離を相関係数で表現する

    マハラノビス距離について

    マハラノビス距離については、関連記事で解説していますので、先に確認してください。本記事では、マハラノビス距離の導出や具体的な計算ができる前提で話を進めていきます。

    マハラノビス距離の導出

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    マハラノビス距離の計算

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    相関係数

    相関係数は、定義通り、2変数\(x_1,x_2\)と平方和\(S\)を使うと

    ●相関係数\(r\)=\(\frac{S_{12}}{\sqrt{S_{11} S_{22}}}\)

    で表現できますね。

    マハラビノス距離を相関係数で表現

    関連記事「」では、2次元のマハラノビス距離を

    \(D_M^2\)=\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)

    と表現できますね。
    行列表記を実際に展開しましょう。

    \(D_M^2\)=\((X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\(\frac{1}{S_{xx} S_{yy}-S_{xy}^2}\)\(( X_1, X_2)\)\(\left(\begin{array}{cccc}
    S_{22} & -S_{12} \\
    -S_{12} & S_{11}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\(\frac{1}{S_{11} S_{22}-S_{12}^2}\)(\(S_{22}X_1^2\)-\(2S_{12}X_1 X_2\)+\(S_{11}X_2^2\))
    =(式1)

    ここで、相関係数\(r\)を代入しましょう。
    \(r\)=\(\frac{S_{12}}{\sqrt{S_{11} S_{22}}}\)から
    \(r^2\)=\(\frac{S_{12}^2}{S_{11} S_{22}}\)
    \(r^2 S_{11} S_{22}\)=\( S_{12}^2\)
    として、マハラノビス距離に代入します。

    (式1)
    =\(\frac{1}{S_{11} S_{22} (1-r^2)} X_1^2\)-\(\frac{2r^2}{S_{12}(1-r^2)}X_1 X_2\)+\(\frac{1}{S_{11} S_{22} (1-r^2)} X_2^2\)
    =(式2)

    (式2)
    =\(\frac{ X_1^2}{S_{11} (1-r^2)}\)-\(\frac{2r^2}{S_{12}(1-r^2)}X_1 X_2\)+\(\frac{ X_2^2}{S_{22} (1-r^2)}\)
    =(式3)

    よって

    マハラノビス距離\(D_M^2\)は
    \(D_M^2\)=\(\frac{ X_1^2}{S_{11} (1-r^2)}\)-\(\frac{2r^2}{S_{12}(1-r^2)}X_1 X_2\)+\(\frac{ X_2^2}{S_{22} (1-r^2)}\)
    と表現できる

    ➁マハラビノス距離とユークリッド距離の関係

    ユークリッド距離

    ユークリッド距離って難しい書き方ですが、単純に、
    距離\(D^2\)=\(X_1^2+X_2^2\)
    です。

    ただし、マハラノビス距離と比較するために、
    ここでは、あえて標準化した距離をユークリッド距離として定義します。

    つまり、各方向の長さの2乗を、その方向の標本分散で割ります。
    距離\(D^2\)=\(\frac{ X_1^2}{S_{11}}\)+\(\frac{ X_2^2}{S_{22}}\)

    マハラビノス距離とユークリッド距離が等しい相関係数は0

    マハラビノス距離とユークリッド距離の式を比較しましょう。
    ●マハラビノス距離:\(D_M^2\)=\(\frac{ X_1^2}{S_{11} (1-r^2)}\)-\(\frac{2r^2}{S_{12}(1-r^2)}X_1 X_2\)+\(\frac{ X_2^2}{S_{22} (1-r^2)}\)
    ●ユークリッド距離:\(D^2\)=\(\frac{ X_1^2}{S_{11}}\)+\(\frac{ X_2^2}{S_{22}}\)

    ここで、相関係数\(r\)=0をマハラビノス距離へ代入すると

    ●マハラビノス距離:\(D_M^2\)=\(\frac{ X_1^2}{S_{11} (1-0^2)}\)-\(\frac{2・0^2}{S_{12}(1-0^2)}X_1 X_2\)+\(\frac{ X_2^2}{S_{22} (1-0^2)}\)
    =\(\frac{ X_1^2}{S_{11}}\)+\(\frac{ X_2^2}{S_{22}}\)
    =\(D^2\)
    と、

    相関係数\(r\)=0のときは
    マハラビノス距離とユークリッド距離が等しくなります。

    つまり、

    変数間が無相関と仮定した距離がユークリッド距離
    ともいえますね。

    ➂相関係数とマハラビノス距離の関係

    相関係数が0の場合

    先ほど解説したとおり、

    相関係数\(r\)=0のときは
    マハラビノス距離とユークリッド距離が等しくなります。

    相関係数が1に近づく場合

    マハラビノス距離において、相関係数が1になると、

    ●マハラビノス距離:\(D_M^2\)=\(\frac{ X_1^2}{S_{11} (1-r^2)}\)-\(\frac{2r^2}{S_{12}(1-r^2)}X_1 X_2\)+\(\frac{ X_2^2}{S_{22} (1-r^2)}\)
    の、
    分母が0に近づくので、マハラビノス距離⇒無限大に発散します。

    相関係数\(r\)=1のようなほぼ直線関係のデータでは
    マハラビノス距離は精度が悪いといえます。

    相関係数とマハラビノス距離の関係

    実際に、いろいろな相関係数における、マハラビノス距離とユークリッド距離の関係を調べてみると、次の結果になりました。

    マハラビノス距離

    図における、数値はデータによって変わりますが、伝えたいことは、

    相関係数\(r\)が0に近いと、
    マハラビノス距離とユークリッド距離はほぼ等しいが
    相関係数が増えると、マハラビノス距離がだんだん長くなり
    相関係数が1に近づくと発散する

    面白い性質ですね。

    距離といっても
    いろいろな距離が定義できます。
    その定義した距離の特性をよく知った上で
    活用しましょう。

    まとめ

    「マハラビノス距離が計算できる」を解説しました。

    • ①マハラビノス距離を相関係数で表現する
    • ➁マハラビノス距離とユークリッド距離の関係
    • ➂相関係数とマハラビノス距離の関係

  • マハラビノス距離が計算できる

    マハラビノス距離が計算できる

    「マハラビノス距離が計算できない、何で傾いた楕円形で考えるの?」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    マハラビノス距離が計算できる

    おさえておきたいポイント

    • ①(復習)マハラビノス距離とは
    • ➁傾いた楕円形でマハラビノス距離を表現する理由
    • ➂マハラビノス距離を計算する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    ss=”pre”>マハラビノス距離を実際に計算してみよう

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    2次元でしっかり導出過程を理解しましょう。

    ①(復習)マハラビノス距離とは

    1. マハラビノス距離とは何か?
    2. マハラビノス距離はなぜ主成分分析から考えるのか?
    3. マハラビノス距離の導出方法

    がわからない人は、関連記事で解説していますので、ご確認ください。

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    ➁傾いた楕円形でマハラビノス距離を表現する理由

    傾いた楕円形の方程式

    よく、マハラビノス距離は傾いた楕円形で表現されますが、その理由を解説しますね。

    まず、高校数学にも出て来る、傾いていない楕円の方程式は、
    \(\frac{x^2}{a^2}+\frac{y^2}{b^2}\)=1
    ですね。

    この楕円上の点(\(x,y\))を原点中心に角度θ回転させた
    座標を(\(X,Y\))とします。

    マハラノビス距離

    ここで、

    回転といえば
    複素数平面!

    ド・モアブルの定理から、
    \(X+Yi\)=\((x+yi)(cosθ+isinθ)\)
    が成り立つので、実部、虚部に分けると
    ●\(X\)=\(xcosθ-ysinθ\)
    ●\(Y\)=\(xsinθ+ycosθ\)
    となるので、

    (\(x,y\))を(\(X,Y\))で表現すると
    \(x\)=\(Xcosθ+Ysinθ\)
    \(y\)=\(-Xsinθ+Ycosθ\)
    となります。

    先ほどの楕円の式に代入すると
    ●\(\frac{x^2}{a^2}+\frac{y^2}{b^2}\)=1
    \(\frac{( Xcosθ+Ysinθ)^2}{a^2}+\frac{(-Xsinθ+Ycosθ)^2}{b^2}\)=1
    \((\frac{cos^2θ}{a^2}+\frac{sin^2θ}{b^2})X^2\)+2\(sinθcosθ(\frac{1}{a^2}-\frac{1}{b^2})XY\)+\((\frac{sin^2θ}{a^2}+\frac{cos^2θ}{b^2})Y^2\)=1
    となり、簡略して書くと

    ●傾いた楕円の式は
    \(AX^2+2BXY+CY^2\)=1
    で表現できる

    傾いた楕円を図で描きます。

    マハラノビス距離

    マハラビノス距離を展開する

    マハラビノス距離(2次元)の場合、関連記事から
    \(D_M^2\)=\((x_1 -\bar{x_1}, x_2 -\bar{x_2})\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{21} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    x_2 -\bar{x_2}
    \end{array}
    \right)
    \)

    と書けます。

    簡略化のため
    ●\( x-\bar{x}\)=\(X\)
    ●\(y-\bar{y}\)=\(Y\)
    ●\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)=\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)
    と書き直します。

    書き直したマハラビノス距離は
    \(D_M^2\)=\((X, Y)\)\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    X\\
    Y
    \end{array}
    \right)
    \)
    となり、展開すると
    \(D_M^2\)=\(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)
    となります。

    マハラビノス距離は傾いた楕円の式と同じ

    比較すると

    ●傾いた楕円の式: \(AX^2+2BXY+CY^2\)=1
    ●マハラビノス距離: \(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)=\(D_M^2\)
    と同じ式ですね。

    また、楕円の式の(右辺)は1ですが、
    マハラビノス距離はいろいろ変わるため、距離の値によって楕円の大きさが変化します。

    何となく
    マハラビノス距離は楕円で表現ではなく
    数式を使って、楕円で表現する理由を理解しましょう。

    ➂マハラビノス距離を計算する

    実際計算しましょう。理解を増すために、ユークリッド距離(\(x^2+y^2\))と比較します。

    データ事例

    N0 x y A=
    \(x-\bar{x}\)
    B=
    \(y-\bar{y}\)
    A2 B2 AB
    1 4 8 -2 -4 4 16 8
    2 6 10 0 -2 0 4 0
    3 2 12 -4 0 16 0 0
    4 10 16 4 4 16 16 16
    5 5 10 -1 -2 1 4 2
    6 8 12 2 0 4 0 0
    7 7 16 1 4 1 16 4
    合計 42 84 合計(平方和) 42 56 30
    平均 6 12 (標本分散) \(S_{11}\)
    =7
    \(S_{12}\)
    =9.33
    \(S_{22}\)
    =5

    ここで、
    ●\(S_{ij}\)は標本分散=(平方和)/(n-1)である点に注意しましょう。

    マハラビノス距離とユークリッド距離の比較

    マハラノビス距離は、
    \(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)=\(D_M^2\)
    の形をしています。実際に係数を計算すると

    ●\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{21} & S_{22}
    \end{array}
    \right)^{-1}
    \)=\(\left(\begin{array}{cccc}
    7 & 5 \\
    5 & 9.33
    \end{array}
    \right)^{-1}
    \)
    =\(\left(\begin{array}{cccc}
    0.231 & -0.124 \\
    -0.124 & 0.174
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)
    となります。

    つまり、マハラノビス距離は、
    \(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)
    で表現できます。

    いろいろな点について、マハラノビス距離とユークリッド距離を計算した結果を下表で比較しましょう。

    No x y マハラビノス
    距離
    ユークリッド
    距離
    1 6 12 0 0
    2 8 11.855 1.00 0.757
    3 5 6.57 2.00 1.82
    4 0 3 3.00 3.72

    ここで、ユークリッド距離はx,y方向をそれぞれの標本分散で割った値として、表にいれました。
    Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)
    です。

    標本分散で割った理由は、マハラビノス距離において、相関係数が0の場合、
    ●マハラビノス距離=●ユークリッド距離
    とするためです。

    結果を図にしましょう。

    マハラノビス距離

    マハラノビス距離とユークリッド距離は若干値が異なるし、
    マハラノビス距離は傾いた楕円分布になっていることがわかりますね。

    データの平均からマハラノビス距離を取ると、ユークリッド距離と同様に距離は0です。当然ですよね。
    なお、上表はマハラノビス距離が1,2,3となる1点を探しました。

    マハラノビス距離Dmが
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=0
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=1
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=2
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=3
    とそれぞれ満たす点の集合を線で引くと、傾いた楕円形になります。

    一方ユークリッド距離は、
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=0
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=1
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=2
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=3
    とそれぞれ満たす点の集合を線で引くと、円になりますね。

    まとめ

    「マハラビノス距離が計算できる」を解説しました。

    • ①(復習)マハラビノス距離とは
    • ➁傾いた楕円形でマハラビノス距離を表現する理由
    • ➂マハラビノス距離を計算する

  • マハラビノス距離が導出できる

    マハラビノス距離が導出できる

    「マハラビノス距離って何かわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    マハラビノス距離が導出できる

    おさえておきたいポイント

    • ①マハラビノス距離のベースは主成分分析!
    • ➁マハラビノス距離の定義を理解する
    • ➂マハラビノス距離を導出する(2次元)
    • ➃マハラビノス距離の導出過程(2次元)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    マハラビノス距離は主成分分析!
    マハラビノス距離は、定義式より主成分分析から入ろう!
    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    2次元でしっかり導出過程を理解しましょう。

    ①マハラビノス距離のベースは主成分分析!

    マハラビノス距離だけでは理解できない

    多変量解析をしていると、必ず出て来るのが「マハラビノス距離」ですね。
    意味や式を理解しようとしても

    でも、マハラビノス距離の意味や式は理解しにくいですよね。

    なので、わかりやすく解説します。

    先に主成分分析の導出過程を理解しよう

    マハラビノス距離を理解するには、主成分分析の導出を理解しておく必要があります。関連記事でまとめていますので、先に確認ください。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    前置きは以上で、ここから本題に入ります。

    ➁マハラビノス距離の定義を理解する

    マハラビノス距離とは

    定義と式を書くと

    ●定義
    多変数間の相関に基づく「普通の距離を一般化したもの」
    ●定義式
    \(D_M=\sqrt{(x-μ)^T ∑^{-1}(x-μ)}\)
    ・\(x\)=\((x_1,x_2,…,x_n)\)
    ・\(μ\)=\((μ_1, μ_2,…, μ_n)\)

    となりますが、

    よくわからないですよね。

    マハラビノス距離を2次元表示する

    定義式から2次元の場合を書いてみると
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    (ここで、\(S_{ij}\)は標本分散=平方和/データ数と見てください)

    ちょっと、わかりやすいけど、まだ難しいですよね。

    マハラビノス距離を1次元表示する

    1次元まで限定すると、
    \(D_M^2\)=\((x_1-\bar{x_1}) s_{11}^{-1} (x_1-\bar{x_1})\)
    =\(\frac{(x_1 -\bar{x_1})^2}{s_{11}}\)
    平方根にすると
    \(D_M\)=\(\frac{|x_1 -\bar{x_1}|}{σ_{11}}\)
    距離の差を標準偏差で割った、標準化した距離になりますね。

    ここまで来て、少し理解できた感じですよね。

    マハラビノス距離は、
    式を具体的に書き出しても
    本質はわかりません。
    主成分分析を座標にした距離
    というわかりにくい定義だからです

    ➂マハラビノス距離を導出する(2次元)

    マハラビノス距離を導出しやすい定義から入る

    マハラビノス距離は、
    ユークリッド座標で定義した\(x_1,x_2\)から
    主成分分析座標に変換した\(X_1,X_2\)
    と平均値座標間の距離

    下図でわかりやすく説明しますね。

    マハラビノス距離

    基本は、
    平均との差分の距離を考えるので、
    ユークリッド座標(いつも使っている座標)から
    \((x_1,x_2)\)~\((\bar{x_1},\bar{x_2})\)間の距離を考えます。

    ただし、変数が増えると、\(x_1\),\(x_2\)間に相関関係が入る可能性があり、
    ユークリッド座標では適切な距離として評価できない場合があります。

    そこで、ユークリッド座標から、相関関係を考えた主成分分析方向に変換した距離を考える必要があることからマハラビノス距離ができました。

    マハラビノス距離\(D_M^2\)は主成分分析方向で変換した長さですが、
    標準化するために主成分分析方向の平方和で割ります。
    しかも、主成分分析方向の平方和は固有値でしたね。

    主成分分析方向の平方和は固有値になる理由は関連記事で解説しています。ご確認ください。

    主成分方向の平方和と固有値が一致する理由がわかる
    主成分の平方和と固有値が一致する理由が説明できますか?本記事では主成分分析を導出する過程で主成分方向の平方和と固有値が一致する理由をわかりやすく解説します。シンプルに証明できるので、た

    ここで、ややこしい話をしますが、
    主成分分析するときに、データを標準化する場合としない場合があります。
    ●データを標準化してから分析する場合→標本分散
    ●データを標準化せず、そのまま分析する場合→平方和
    で、関連記事では「データを標準化しない」場合で解説してます。
    本記事は、「データを標準化する」場合で解説しているので、
    平方和→標本分散に変えて説明します。

    マハラビノス距離\(D_M^2\)=\(X_1^2+X_2^2\)のイメージで
    標準化したいから一旦、主成分分析方向の標本分散で割ります。
    \(D_M^2\)=\(\frac{X_1^2}{S_1}+\frac{X_2^2}{S_2}\)
    各主成分分析方向の標本分散は固有値に一致するので、
    \( S _1=λ_1\),\( S _2=λ_2\)を代入すると
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    この式を変形すると
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    になります。

    という解釈ですが、少しわかった感じになった程度ですよね。ここから先は数式を見ながらマハラビノス距離に慣れていきましょう。

    マハラビノス距離の式を導出する

    本記事の定義から、マハラビノス距離は
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    と定義しましたが、これが教科書で書いている
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    になることを証明しましょう。

    導出過程は3ステップで行きます。

    1. 行列表記にして (ベクトル横)(行列)-1(ベクトル縦)の形を作る
    2. \((X_1,X_2)\)を\((x_1,x_2)\)で表現する
    3. 式をまとめる

    導出過程の隠し味は、「固有方程式」の
    行列とベクトルの積がベクトルの固有値倍に簡略化できるところです。

    では、ポイントを知った上で、導出しましょう。

    ➃マハラビノス距離の導出過程(2次元)

    行列表記にする

    本記事の定義から、マハラビノス距離は
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    と変形して、行列表記できます。

    次に、逆行列表記します。

    逆行列表記

    あえて、
    \(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)
    \)
    の逆行列を求めます。これは高校数学レベルなので、公式通り解くと、

    \(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)^{-1}
    \)=\(λ_1 λ_2\)\(\left(\begin{array}{cccc}
    \frac{1}{λ_2} & 0 \\
    0 & \frac{1}{λ_1}
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    となります。シンプルな逆行列ができましたね。

    マハラビノス距離をまとめると

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =(式1)
    と書けます。

    \((X_1,X_2)\)を\((x_1,x_2)\)で表現する

    図を再掲して、\(X_1,X_2\)を、内積を使って\(x_1,x_2\)で表現します。

    マハラビノス距離

    \(X_1\)=\( \overrightarrow{AP} \)・\( \vec{e_1} \)
    =|\( \overrightarrow{AP} \)||\( \vec{e_1} \)|cosθ
    =\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)・\(\left(
    \begin{array}{c}
    a_1\\
    b_1
    \end{array}
    \right)
    \)
    =\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
    となります。

    同様に、

    \(X_2\)=\( \overrightarrow{AP} \)・\( \vec{e_2} \)
    =\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)

    よって、
    ●\(X_1\)=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
    ●\(X_2\)=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)
    の関係式から

    \(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)

    =(式2a)
    と、縦横を入れ替えて
    \((X_1, X_2)\)=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)

    =(式2b)

    両方表現できます。両方とも後で使います。

    式をまとめる

    マハラビノス距離を再掲します。

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =(式1)

    (式1)に(式2a),(式2b)を代入します。

    \(D_M^2\)=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)
    \(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    \(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)

    マハラビノス距離の式
    \((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    の左右が一致しましたね。

    線形判別関数

    図で見ると、あとは、

    \(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    \(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)
    を証明すれば完成です。

    やってみましょう。 

    行列の式の証明

    ここで、2次の固有方程式を思い出しましょう。

    ●固有方程式
    \(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    a_j\\
    b_j
    \end{array}
    \right)
    \)=\(λ_j\)\(\left(
    \begin{array}{c}
    a_j\\
    b_j
    \end{array}
    \right)
    \)
    (\(j\)=1,2)
    でしたね。

    主成分分析の関連記事で解説していますが、\(j=1,2\)をまとめて行列表記すると
    \(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)
    \)
    と表現でき、行列表記として、
    SH=
    と書くことができますね。

    なお、証明したい式を行列表記すると、
    \(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)

    を行列表記すると
    -1HT=S-1
    が証明したい式です。

    SH=
    に両辺に逆行列S-1をかけると
    S-1SH= S-1
    H= S-1

    また、両辺に逆行列Λ-1をかけると
    -1= S-1HΛΛ-1
    -1= S-1H

    さらに、両辺に転置行列H Tをかけると
    -1 H T= S-1H H T
    =(式4)

    ここで、積HTH
    HTH=\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1^2+b_1^2 & a_1 a_2 + b_1 b_2 \\
    a_1 a_2 + b_1 b_2 & a_2^2+b_2^2
    \end{array}
    \right)
    \)
    となります。

    単位ベクトルでかつ、内積が0(直交性)があるため、
    ・\( a_1^2+b_1^2\)=1
    ・\( a_2^2+b_2^2\)=1
    ・\( a_1 a_2 + b_1 b_2 \)=0
    から

    HTH=\(\left(\begin{array}{cccc}
    1 & 0 \\
    0 & 1
    \end{array}
    \right)
    \)
    =E
    となります。

    よって、(式4)は
    -1 H T= S-1H H T
    = S-1

    -1 H T= S-1
    が成り立ちました。

    よって、すべてまとめると、

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((x_1-\bar{x_1},x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1-\bar{x_1}\\
    x_2-\bar{x_2}
    \end{array}
    \right)
    \)

    できましたね!
    主成分分析から入るとマハラビノス距離は理解しやすいですね。

    まとめ

    「マハラビノス距離が導出できる」を解説しました。

    • ①マハラビノス距離のベースは主成分分析!
    • ➁マハラビノス距離の定義を理解する
    • ➂マハラビノス距離を導出する(2次元)
    • ➃マハラビノス距離の導出過程(2次元)

  • 線形判別関数が計算できる(2次元で3群以上分割する場合)

    線形判別関数が計算できる(2次元で3群以上分割する場合)

    「線形判別関数Zが作れない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    線形判別関数が計算できる(2次元で3群以上分割する場合)

    おさえておきたいポイント

    • ①データを用意する
    • ➁線形判別関数\(Z\)=0の条件を求める
    • ➂線形判別関数を求める
    • ➃データ判別正誤率で評価する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!
    2次元でしっかり導出過程を理解しましょう。

    ①データを用意する

    関連記事で2次元の線形判別関数の導出を解説

    まず、線形判別関数をマスターすべく、2次元の線形判別関数を導出する関連記事を確認してください。

    線形判別関数が計算できる(2次元、その1)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    データを用意する

    本記事では、変数が2つ(2次元)で3群に分ける方法を解説します。

    データを以下とします。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1群 1 4 11 6 12
    2 9 13
    3 5 12
    2群 4 10 14 8 14.5
    5 7 14
    6 8 14
    7 7 16
    3群 8 7 17 10 12
    9 11 8
    10 12 11
    全体平均 8 13

    グラフで描くと下図のイメージになります。

    線形判別関数

    ➁線形判別関数\(Z\)=0の条件を求める

    全変動と群間変動を導出

    線形判別関数\(Z\)=\(a_1 x_1+a_2 x_2\)と置いて、各データを下表のように表現します。

    No \(Z_i\) 群平均 全変動
    \((Z_i-\bar{Z})^2\)
    群間変動
    \(n_k(\bar{Z_k}-\bar{Z})^2\)
    1群 1 4\(a_1\)+11\(a_2\) 6\(a_1\)+12\(a_2\) (-4\(a_1\)-2\(a_2\))2 3(-2\(a_1\)-\(a_2\))2
    2 9\(a_1\)+13\(a_2\) \(a_1^2\)
    3 5\(a_1\)+12\(a_2\) (-3\(a_1\)-\(a_2\))2
    2群 4 10\(a_1\)+14\(a_2\) 8\(a_1\)+14.5\(a_2\) (2\(a_1\)+\(a_2\))2 4(1.5\(a_2^2\))
    5 7\(a_1\)+14\(a_2\) (-\(a_1\)+\(a_2\))2
    6 8\(a_1\)+14\(a_2\) \(a_2^2\)
    7 7\(a_1\)+16\(a_2\) (-\(a_1\)+3\(a_2\))2
    3群 8 7\(a_1\)+17\(a_2\) 10\(a_1\)+12\(a_2\) (-\(a_1\)+4\(a_2\))2 3(2\(a_1\)-\(a_2\))2
    9 11\(a_1\)+8\(a_2\) (3\(a_1\)-5\(a_2\))2
    10 12\(a_1\)+11\(a_2\) (4\(a_1\)-2\(a_2\))2
    平均 8\(a_1\)+13\(a_2\) 合計 58\(a_1^2\)-36\(a_1 a_2\)+62\(a_2^2\) 24\(a_1^2\)+15\(a_2^2\)

    ここで、
    ●全変動\(S_T\)=58\(a_1^2\)-36\(a_1 a_2\)+62\(a_2^2\)
    ●群間変動\(S_B\)=24\(a_1^2\)+15\(a_2^2\)

    全変動から、線形判別関数の係数\(a_1,a_2\)の比が計算できますが、2次元の場合は関連記事のとおり2通り解法があります。それぞれ解説します。

    1. 相関比が最大になる条件を計算
    2. ラグランジュの未定乗数を使って計算

    相関比から傾きの比を導出

    相関比\(F\)=\(\frac{S_B}{S_T}\)
    =\(\frac{24a_1^2+15a_2^2}{58a_1^2-36a_1 a_2 +62a_2^2}\)
    とおき、

    \(k\)=\(\frac{a_1}{a_2}\)として、
    \(F(k)\)= \(\frac{24k^2+15}{58k^2-36k +62}\)
    と変形して、この関数のグラフを描きましょう。

    \(F(k)\)を微分すると
    \(F’(k)\)= \(\frac{-12(72k^2-103k-45)}{(58k^2-36k +62)^2}\)
    ●\(F’(k)\)=0は
    \(72k^2-103k-45\)=0より
    \(k\)=\(\frac{103±\sqrt{23569}}{144}\)
    =-0.351,1.781

    グラフを描くと下図のとおりです。

    線形判別関数

    ラグランジュの未定乗数法から傾きの比を導出

    \(58a_1^2-36a_1 a_2 +62a_2^2\)=1とした条件で、\(24a_1^2+15a_2^2\)の最大値を求める方法でしたね。
    ●\(F(a_1,a_2,λ\)=\(24a_1^2+15a_2^2\)-λ(\(58a_1^2-36a_1 a_2 +62a_2^2\))
    として、固有方程式
    ●\(\displaystyle \frac{\partial F}{\partial a_1} \)=0
    ●\(\displaystyle \frac{\partial F}{\partial a_2} \)=0
    を解いて、固有値解λ、固有ベクトルを計算します。

    相関比を微分して得られた結果と一致します。(計算してみてくださいね)

    ➂線形判別関数を求める

    線形判別関数の傾き

    結果は2つ出て来て、
    \(\frac{a_1}{a_2}\)=-0.351,1.781
    ですから、

    ●(i)\(a_1\)= -0.351,\(a_2\)=1
    ●(ii)\(a_1\)= 1.781,\(a_2\)=1
    として、線形判別関数の切片を計算しましょう。

    線形判別関数の切片

    ここで思うのは、

    ●傾きはしっかり数学するけど
    ●切片は帳尻合わせって感じです。

    要は、

    3群に分けるので、
    ●1つは「1群の平均」と「2群平均」の平均を通る線形判別関数
    ●もう1つは「2群の平均」と「3群平均」の平均を通る線形判別関数
    を考えます。
    どこか1点を通る条件が帳尻合わせって感じなんですよね。

    平均点を求める

    各群の平均はそれぞれ、
    ●1群:(\(x,y\))=(6,12)
    ●2群:(\(x,y\))=(8,14.5)
    ●3群:(\(x,y\))=(10,12)
    なので、

    ●(a)「1群の平均」と「2群平均」の平均は(\(x,y\))=(7,13.25)
    ●(b)「2群の平均」と「3群平均」の平均は(\(x,y\))=(9,13.25)
    となり、そこを通る線形判別関数を作ります。

    線形判別関数を求める

    傾きは
    ●(i)\(a_1\)= -0.351,\(a_2\)=1
    ●(ii)\(a_1\)= 1.781,\(a_2\)=1
    で、切片は、
    ●(a)(\(x,y\))=(7,13.25)
    ●(b)(\(x,y\))=(9,13.25)
    の2×2のパターンなので、4本の線形判別関数が引けます。
    結果は、下表になります。

    ●第1判別関数
    傾き1.781
    ●第2判別関数
    傾き-0.351
    1.781x+y-25.717=0 -0.351x+y-10.793=0
    1.781x+y-29.279=0 -0.351x+y-10.091=0

    ➃データ判別正誤率で評価する

    傾きが2つあるので、それぞれの場合で正誤評価します。

    第1判別関数(傾き-0.351)

    結果はグラフのとおりです。外側から1群、2群、3群とうまく区分できています。

    線形判別関数

    第2判別関数(傾き1.781)

    結果はグラフのとおりです。外側から2群、1群、3群とうまく区分できています。

    線形判別関数

    どちらも、結構うまく判別できましたね!

    まとめ

    「線形判別関数が計算できる(2次元で3群以上分割する場合)」を解説しました。

    • ①データを用意する
    • ➁線形判別関数\(Z\)=0の条件を求める
    • ➂線形判別関数を求める
    • ➃データ判別正誤率で評価する

  • error: Content is protected !!