投稿者: QCプラネッツ

  • 工程能力指数の区間推定が導出できる

    工程能力指数の区間推定が導出できる

    「工程能力指数の区間推定がわからない、どうやって導出するの?」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    工程能力指数の区間推定が導出できる

    おさえておきたいポイント

    • ①工程能力指数の区間推定
    • ➁両側規格の場合は自力で導出できる
    • ➂片側規格の場合を導出(激難)
    [themoneytizer id=”105233-2″]
    工程能力指数の区間推定の式を導出します!
    めっちゃ難しいけど

    ①工程能力指数の区間推定

    工程能力指数の区間推定ですが、こんな式どうやって作られたの?って疑問に思いませんか?

    ●両側規格の場合
    ・\(C_p(U)\)=\(\hat{C_p}\)\(\sqrt{\frac{χ^2(n-1,\frac{α}{2})}{n-1}}\)
    ・\(C_p(L)\)=\(\hat{C_p}\)\(\sqrt{\frac{χ^2(n-1,1-\frac{α}{2})}{n-1}}\)
    ●片側規格の場合
    \(\hat{C_p}\)±\(u(α)\)\(\sqrt{\frac{\hat{C_{pk}^2}}{2(n-1)}+\frac{1}{9n}}\)
    どうやって、この式求めたの?
    って不思議に思いますよね!
    じゃー、導出してみますね。

    ➁両側規格の場合は自力で導出できる

    この式は、自力で簡単に導出できるし、できないといけません!

    1. 工程能力指数の式は平方和とσの比
    2. 平方和とσの比はχ2乗分布の定義
    3. χ2乗分布を使えば、導出できる!

    の3点セットで導出しますね。

    工程能力指数の式は平方和とσの比

    まず、工程能力指数の定義ですが、

    \(C_p\)=\(\frac{S_U – S_L}{6σ}\)

    ですね。

    ちょっと変形していくと、
    \(C_p\)
    =\(\frac{S_U – S_L}{6σ}\)
    =\(\frac{S_U – S_L}{6s}\)\(\frac{s}{σ}\)
    =\(\hat{C_p}\)\(\frac{s}{σ}\)
    (\(\hat{C_p}\)=\(\frac{S_U – S_L}{6s}\))

    ここで、
    \(\frac{s}{σ}\)からχ2乗分布をおびきよせます。

    平方和とσの比はχ2乗分布の定義

    ところで、\(s\)と\(σ\)は、

    ●\(s\):標準偏差
    (生データの平方和から計算できる)
    ●\(σ\):母標準偏差
    (母集団がわからないから、計算できない)

    次に、平方和\(S^*\)と標準偏差\(s\)の関係式と
    χ2分布の定義式を書きます。

    ●\(\frac{S^*}{n-1}\)=\(s^2\) (分散は標準偏差の2乗)
    ●\(χ^2\)=\(\frac{S^*}{σ^2}\)

    整理すると、
    \(χ^2\)=\(\frac{S^*}{σ^2}\)
    =\(\frac{s^2 (n-1)}{σ^2}\)
    より

    \(\frac{s}{σ}\)=\(\frac{χ^2}{n-1}\)

    よって、工程能力指数の区間推定の式は
    \(C_p\)=\(\hat{C_p}\)\(\frac{s}{σ}\)
    =\(\hat{C_p}\)\(\frac{χ^2}{n-1}\)

    χ2乗分布から信頼区間を入れればよいので、

    ●両側規格の場合
    ・\(C_p(U)\)=\(\hat{C_p}\)\(\sqrt{\frac{χ^2(n-1,\frac{α}{2})}{n-1}}\)
    ・\(C_p(L)\)=\(\hat{C_p}\)\(\sqrt{\frac{χ^2(n-1,1-\frac{α}{2})}{n-1}}\)

    両側規格の場合は、χ2乗分布の式をいじれば導出できます。

    ➂片側規格の場合を導出(激難)

    導出が書いている本を紹介

    1冊だけ導出過程が書いている本があります。紹介します。

    [商品価格に関しましては、リンクが作成された時点と現時点で情報が変更されている場合がございます。]

    工程能力指数 実践方法とその理論 (JSQC選書) [ 永田靖 ]
    価格:1,650円(税込、送料無料) (2023/4/13時点)

    この本を読んでわかったことは、

    1. 難しいから結局わからない
    2. 定理で導出されるよりは、数学者や日本規格協会が設計した式という印象が強い
    3. だったら、自分の経験式でもいいんじゃないの?と思った

    ですね。
    片側規格の式は
    \(\hat{C_p}\)±\(u(α)\)\(\sqrt{\frac{\hat{C_{pk}^2}}{2(n-1)}+\frac{1}{9n}}\)
    という変な式で、

    √の中にある +\(\frac{1}{9n}\)
    がどういう意味かもよくわからない

    なので、わかり補足した資料を作りました。

    本が難しいので、わかりやすく補足

    すいません、補足資料は販売とさせていただきます。

    1000円でメルカリで販売します。ご購入よろしくお願いいたします。

    資料のポイントは、

    1. 両側規格はχ2乗分布だが、片側規格はt分布から攻めており、異なる確率分布で計算していいのか?疑問
    2. 厳密な計算の途中に、値だけ近い関数に無理矢理近似している
    3. 最終形の式を両側規格にできるだけ近づけるように設計した印象がある
    4. JISにも書いているから正しいと信じこみやすいが、導出過程見ると強引さがある
    5. 式の精度が高そうで高くないから、自分の経験式でやってもいいんじゃないの?
    6. なのに、教科書や試験はこの式を代入させたい意思がある

    QCプラネッツなら、

    ●片側規格の推定区間の式は使わない
    ●両側規格の区間×α倍とざっくり区間を広げておく感じで済ませる

    大学の先生や日本規格協会が作ったから正しいわけじゃないし、
    JISにあるから絶対正しいと信じ込まず、
    式の導出過程をみて、その式の強み・弱みを理解することが大事!

    まとめ

    「工程能力指数の区間推定が導出できる」を解説しました。

    • ①工程能力指数の区間推定
    • ➁両側規格の場合は自力で導出できる
    • ➂片側規格の場合を導出(激難)

  • 【まとめ】サンプリングがわかる

    【まとめ】サンプリングがわかる

    「サンプリングがわからない」、と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【まとめ】サンプリングがわかる
    • ①有限母集団の修正項が導出できる
    • ➁条件付き確率がわかる
    • ➂2変数の分散・共分散がわかる
    • ➃全分散の公式が導出できる
    • ➄2段サンプリングの分散が導出できる

    QC・統計に勝てるためのサンプリング問題集を販売します!

    QC検定®1級、2級でサンプリングの問題で苦戦していませんか?本記事では、QC・統計に勝てるためのサンプリング問題集(20題)を紹介します。

    サンプリングしたデータの期待値、分散をちゃんと解こうとすると結構難しい
    2段サンプリングの分散の公式
    V(\(\bar{\bar{x}}\))=\(\frac{M-m}{M-1}・\frac{σ_b^2}{m}\)+\(\frac{N-n}{N-1}・\frac{σ_w^2}{mn}\)
    が理解できないし、解けないし

    なので、本記事は2段サンプリングの分散が導出を目標に解説していきます。

    目標達成のために必要なこと

    2段サンプリングの分散を導出するまでに必要なテクニックを先に磨いておきましょう。これも結構難しいので関連記事で丁寧に解説しています。

    1. 有限母集団の修正項
    2. 条件付き確率
    3. 2変数の分散・共分散
    4. 全分散の公式

    では、関連記事を紹介しながら、進めていきます。
    まず、全関連記事のリンクです。











    ①有限母集団の修正項が導出できる

    サンプリングの前提ですが、標本分散と標本平均の分散の違いを最初に確認しましょう。

    2段サンプリングの費用関数で最適配分の式が導出できる
    2段サンプリングの費用関数で最適配分の式を暗記して済ませていませんか? 本記事では、最適配分になる条件式を丁寧に導出します。サンプリングを勉強する人は必読です。

    サンプリングでよく出て来る、有限母集団の修正項ですが、公式導出も難しいです。関連記事で丁寧に導出過程を解説しています。

    【必読】有限母集団の修正項の導出ができる
    有限母集団の修正項(N-n)/(N-1)を導出できますか?本記事では修正項の導出を丁寧にわかりやすく解説しました。式の機械的な変形以外はすべて省かずに解説しました。

    ➁条件付き確率がわかる

    有限母集団の修正項を理解したら、次は条件付き確率、2変数の確率密度関数、全分散の公式と進み、ボスである2段サンプリングの分散を攻略します。

    条件付き確率の定義、期待値、分散の解法を丁寧に解説します。公式暗記より理解するまでじっくり行きましょう。急がば回れです!

    条件付き確率がわかる(2段サンプリングの分散式導出)
    高校でも習う「条件付き確率」はちゃんと解けますか?みんなが苦手とする2段サンプリングの分散の公式導出に必須な条件付き確率を本記事でわかりやすく解説します。サンプリングの分散の導出したい方は必読です。

    期待値、分散の導出過程が大事です!

    【必読】条件つき期待値・条件つき分散がわかる(連続型)
    条件付き期待値、条件付き分散を計算できますか?本記事では2段サンプリングの分散公式に必須な 条件付き期待値、条件付き分散、全分散の公式を実例を使って,積分で計算して確認します。教科書では公式導出ばかりです。具体的な計算が 苦手な人は必読です。

    【必読】条件つき期待値・条件付き分散がわかる(離散型)
    条件付き期待値、条件付き分散を計算できますか?本記事では2段サンプリングの分散公式に必須な 条件付き期待値、条件付き分散、 全分散の公式を実例を使って、数列で計算して確認します。教科書では公式導出ばかりです。具体的な計算が 苦手な人は必読です。

    ➂2変数の分散・共分散がわかる

    2変数の確率分布を次に攻略します! 全分散の公式や2段サンプリングの分散は2変数の処理スキルが前提となります。

    2変数の確率分布関数(同時確率質量関数)がわかる
    2変数の確率分布関数(同時確率質量関数)が説明できますか?本記事では、2変数の確率分布関数の基礎をわかりやすく解説します。サンプリングの分散、全分散の公式導出に必須です。

    同時確率分布の分散、共分散の導出がわかる(その1 離散系の場合)
    2変数の確率分布関数(同時確率質量関数)の期待値・分散が簡単に求められますか? 本記事では、2変数の確率分布関数(離散系)の期待値・分散をわかりやすく解説します。 期待値・分散の計算が結構難しいので、復習がとても大事です。また、サンプリングの分散、全分散の公式導出に必須です。

    同時確率分布の分散、共分散の導出がわかる(その2 連続系の場合)
    2変数の確率分布関数(同時確率質量関数)の期待値・分散が簡単に求められますか? 本記事では、2変数の確率分布関数(連続系)の期待値・分散をわかりやすく解説します。 期待値・分散の計算が結構難しいので、復習がとても大事です。 また、サンプリングの分散、全分散の公式導出に必須です。

    ➃全分散の公式が導出できる

    2段サンプリングの分散に使う、全分散の公式をようやく攻略できるところまで来ました。条件付き確率、2変数の解法がいっぱい出て来ますので、この関連記事は、良い演習になります。

    【必読】全分散の公式の導出がわかる
    全分散の公式が導出できますか?本記事では、全分散の公式の導出をわかりやすく解説しています。途中端折りたくなるが大事な計算過程をすべて載せています。全分散の公式、条件つき期待値、条件つき分散を 得意になりましょう。

    ➄2段サンプリングの分散が導出できる

    ラスボスの2段サンプリングの分散の導出を解説します。公式でも暗記しにくいので、導出方法がわかれば覚えなくてもいいと思います。でも、導出過程も難しいです。①~➃の解法を駆使して関連記事で丁寧に解説しています。

    【やっぱり難しい】2段サンプリングの分散が導出できる
    2段サンプリングの分散V(bar(x))が導出できますか? 本記事では、2段サンプリングの分散を丁寧に導出解説します。公式暗記で逃げたいところですが、導出過程は必ず読んでおきましょう。期待値、分散、有限母集団、全分散の公式をフル活用します!

    費用関数についての小ネタを1つどうぞ。

    【必読】「標本の分散」と「標本平均の分散」の違いがわかる
    サンプリングするとなんで、分散Vをサンプル数で割る必要があるのか?疑問に思いませんか? 統計の教科書でもおなじみのV/nですが、V/nとVの違いをわかりやすく解説します。公式丸暗記せず、しっかり理解してほしい、必読な記事です。

    サンプリングをマスターすべき内容

    どれも難しいですが、確率統計力を高める大事な関連記事です。焦らず、時間かけて読み進めてください。相当力がつきますよ!

    1. 有限母集団の修正項
    2. 条件付き確率
    3. 2変数の分散・共分散
    4. 全分散の公式
    5. 2段サンプリングの分散

    まとめ

    「【まとめ】サンプリングがわかる」をわかりやすく解説しました。

    • ①有限母集団の修正項が導出できる
    • ➁条件付き確率がわかる
    • ➂2変数の分散・共分散がわかる
    • ➃全分散の公式が導出できる
    • ➄2段サンプリングの分散が導出できる

  • 【やっぱり難しい】2段サンプリングの分散が導出できる

    【やっぱり難しい】2段サンプリングの分散が導出できる

    「2段サンプリングの分散がわからない」、と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【やっぱり難しい】2段サンプリングの分散が導出できる
    • ①2段サンプリングの分散公式とは
    • ➁2段サンプリング
    • ➂2段サンプリングの分散を導出
    • ➃層別、集落サンプリングの分散を導出

    QC・統計に勝てるためのサンプリング問題集を販売します!

    QC検定®1級、2級でサンプリングの問題で苦戦していませんか?本記事では、QC・統計に勝てるためのサンプリング問題集(20題)を紹介します。

    2変数の確率分布関数にまず、慣れましょう!
    期待値、分散の導出から数列・積分も慣れましょう!

    ①2段サンプリングの分散公式とは

    「2段サンプリングの分散」の式があります。

    E(\(\bar{\bar{x}}\))=μ
    V(\(\bar{\bar{x}}\))=\(\frac{M-m}{M-1}・\frac{σ_b^2}{m}\)+\(\frac{N-n}{N-1}・\frac{σ_w^2}{mn}\)
    ・\(m\):1次サンプルの大きさ
    ・\(n\):2次サンプルの大きさ
    ・\(σ_b^2\):1次単位間の特性xの分散
    ・\(σ_w^2\):1次単位内の特性xの分散
    ・M:1次単位の総数
    ・N:1次単位の大きさ
    ・\(\frac{M-m}{M-1},\frac{N-n}{N-1}\):有限修正項
    となりますよね。

    でも、

    この式は何なの?
    何でこんな難しい式なの?
    覚えられない。。。

    と困ってしまいますよね。QCプラネッツも苦労しました。

    そこで、

    「2段サンプリングの分散」の式を導出します
    やっぱり難しいけど!

    ちょっとだけ、文字を変えて、
    V(\(\bar{x}\))=\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)+\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\frac{σ_w^2}{n}\)
    を導出します。

    ➁2段サンプリング

    2段サンプリングは下図のように、2回サンプリングします。

    1. 1回目はM個の集落からm個をサンプリング
      集落内の\(\bar{N}\)個はすべて抜取
    2. 2回目はm個の集落すべてに対して
      \(\bar{N}\)個から\(\bar{n}\)は抜取

    ●1回目抜取

    2段サンプリングの分散

    ●2回目抜取

    2段サンプリングの分散

    ➂2段サンプリングの分散を導出

    では、
    V(\(\bar{x}\))=\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)+\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\frac{σ_w^2}{n}\)
    を導出します。

    期待値Eの2段階表現方法

    ここで、普段あまり見かけませんが、トリッキーな表現方法を使って変形していきます。こういうところが難しいですね。

    2段サンプリングで得られた、標本平均\(\bar{x}\)の期待値E[\(\bar{x}\)]を考えます。

    もちろん標本平均\(\bar{x}\)は単純に、
    \(\bar{x}\)=\(\frac{1}{m \bar{n}} \sum_{i=1}^{m} \sum_{j=1}^{\bar{n}} x_{ij} \)
    ですね。

    よく見ると、\(\bar{x}\)は
    ●\(i\)について
    ●\(j\)について
    2回平均値を求めていますね。つまり、平均値である期待値Eを計算しているわけなので、

    E[\(\bar{x}\)]=\(E_i E_j^i \)[\(\bar{x}\)]
    という普段使わない表現で置き換えます。

    2段サンプリングの分散V(\(\bar{x}\))を導出

    分散の公式どおり、
    V(\(\bar{x}\))= E[\(\bar{x}^2\)]- E[\(\bar{x}\)]2
    =(式1)
    となり、これを先ほどの2段階の期待値表記に変えます。

    (式1)
    =\(E_i E_j^i \)[\(\bar{x}^2\)]-{\(E_i E_j^i \)[\(\bar{x}\)]}2
    =(式2)

    (式2)に対して、 \(E_i\){\(E_j^i\)[\(\bar{x}\)]}2を追加します。
    (式2)
    =\(E_i E_j^i \)[\(\bar{x}^2\)]-\(E_i\){\(E_j^i\)[\(\bar{x}\)]}2
    +\(E_i\){\(E_j^i\)[\(\bar{x}\)]}2
    -{\(E_i E_j^i \)[\(\bar{x}\)]}2
    =\(E_i\)[\(E_j^i\)[\(\bar{x}^2\)]-{\(E_j^i\)[\(\bar{x}\)]}2]
    +[\(E_i\){\(E_j^i\)[\(\bar{x}\)]}2-{\(E_i E_j^i\)[\(\bar{x}\)]}2]
    =\(E_i\){\(V_j^i(\bar{x})\)}+\(V_i\){(\(E_j^i (\bar{x})\))
    =(式3)
    と強引ですが、まとめることができます。

    ここで、\(V_j^i\)は第\(i\)集落内での分散とします。

    2段サンプリングの分散は
    やっぱり難しい!

    2段サンプリングの分散V(\(\bar{x}\))第1項をまとめる

    (式3)の第1項をまとめていきます。

    \(E_i\){\(V_j^i(\bar{x}\))}
    =\(E_i\){\(V_j^i (\frac{1}{m \bar{n}} \sum_{i=1}^{m} \sum_{j=1}^{\bar{n}}x_{ij} )\)}
    として、\(\frac{1}{m}\sum_{i=1}^{m} \)を分散Vの外に出します。
    =\(E_i\){\(\frac{1}{m^2} \)\(\sum_{i=1}^{m} V_j^i(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}} x_{ij} )\)}
    さらに、\(\frac{1}{m^2}\)を\(\frac{1}{m}\)・\(\frac{1}{m}\)に分けます。
    =\(\frac{1}{m}E_i\){\(\frac{1}{m} \sum_{i=1}^{m} V_j^i(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}} x_{ij} )\)}
    =(式4)

    ここで、見ずらいですが、
    ●\(V_j^i(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}}x_{ij} )\)の
    \(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}}x_{ij}\)=\(\bar{x}\)なので、
    \(V_j^i(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}}x_{ij} )\)= \(V_j^i(\bar{x})\)
    を代入します。

    すると、
    \(V_j^i(\bar{x})\)=\(\frac{\bar{N}-\bar{n}}{\bar{N}-1} \frac{σ_i^2}{\bar{n}}\)
    と有限母集団の時の係数\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\)が付きますね。

    有限母集団については関連記事があります。ご確認ください。丁寧に導出していますが、それでも難しい内容です!

    【必読】有限母集団の修正項の導出ができる
    有限母集団の修正項(N-n)/(N-1)を導出できますか?本記事では修正項の導出を丁寧にわかりやすく解説しました。式の機械的な変形以外はすべて省かずに解説しました。

    (式4)を計算すると、
    (式4)
    =\(\frac{1}{m}E_i\){\(\frac{1}{m} \sum_{i=1}^{m}\frac{\bar{N}-\bar{n}}{\bar{N}-1} \frac{σ_i^2}{\bar{n}}\)}
    =(式5)

    そして、
    ●\(E_i\)[\(\frac{1}{m} \sum_{i=1}^{m}\frac{\bar{N}-\bar{n}}{\bar{N}-1}\)]
    を、期待値の性質を使って
    ●\(\frac{1}{m}・\frac{1}{M}\sum_{i=1}^{M}\frac{\bar{N}-\bar{n}}{\bar{N}-1}\)
    変えると(式5)は、
    =\(\frac{1}{m} \frac{\bar{N}-\bar{n}}{\bar{N}-1} \frac{σ_w^2}{\bar{n}}\)
    となり、
    \(n\)=\(m \bar{n}\)から、
    =\( \frac{\bar{N}-\bar{n}}{\bar{N}-1} \frac{σ_w^2}{n}\)
    となり、2段サンプリングの分散の第1項ができます。

    なお、
    ●\(σ_i^2\)=\(\frac{1}{\bar{N}}\sum_{j=1}^{\bar{N}}(x_{ij}-μ_i)^2\)
    ●\(σ_w^2\)=\(\frac{1}{M} \sum_{i=1}^{M} σ_i^2\)
    とします。

    2段サンプリングの分散は
    やっぱり難しい!

    2段サンプリングの分散V(\(\bar{x}\))第2項をまとめる

    (式3)の第2項をまとめていきます。

    (式3)第2項
    =\(V_i (E_j^i (\bar{x}))\)
    =\(V_i (E_j^i (\frac{1}{m \bar{n}} \sum_{i=1}^{m} \sum_{j=1}^{\bar{n}} x_{ij}))\)
    =\(V_i (\frac{1}{m} \sum_{i=1}^{m} E_j^i (\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}} x_{ij}))\)

    ここで、\( E_j^i \)[\(\frac{1}{\bar{n}} \sum_{j=1}^{\bar{n}} x_{ij}\)]=\(μ_i\)から
    =\(V_i (\frac{1}{m} \sum_{i=1}^{m} μ_i )\)
    有限母集団の分散を意識して、
    =\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)
    となります。

    よって、第1項と第2項を入れ換えて、まとめると

    V(\(\bar{x}\))=\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)+\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\frac{σ_w^2}{n}\)

    が導出できました。

    ➃層別、集落サンプリングの分散を導出

    2段サンプリングの分散の式

    再掲すると、

    V(\(\bar{x}\))=\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)+\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\frac{σ_w^2}{n}\)

    層別サンプリングの分散を導出

    第2項の式のだけになりますので、2段サンプリングの分散の式がわかればOKですね。

    V(\(\bar{x}\))=\(\frac{\bar{N}-\bar{n}}{\bar{N}-1}\frac{σ_w^2}{n}\)

    集落サンプリングの分散を導出

    第1項の式のだけになりますので、2段サンプリングの分散の式がわかればOKですね。

    V(\(\bar{x}\))=\(\frac{M-m}{M-1} \frac{σ_b^2}{m}\)

    まとめ

    「【やっぱり難しい】2段サンプリングの分散が導出できる」をわかりやすく解説しました。

    • ①2段サンプリングの分散公式とは
    • ➁2段サンプリング
    • ➂2段サンプリングの分散を導出
    • ➃層別、集落サンプリングの分散を導出

  • 【まとめ】多変量解析を究める

    【まとめ】多変量解析を究める

    本記事のテーマ

    【まとめ】多変量解析を究める!

    おさえておきたいポイント

    • ①多変量解析の目的は1つ
    • ➁多変量解析を分類
    • ➂各手法の解説(関連記事のご紹介)

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    ①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集。

    多変量解析は自分で解けます!
    Excelなどのツールに頼る前に
    自力で導出して理解しようぜ!
    1. 重回帰分析
    2. 主成分分析
    3. 判別分析
    4. 因子分析
    5. コレスポンデンス分析
    6. クラスター分析
    7. 数量化Ⅰ~Ⅳ類分析

    をQCプラネッツは
    自力で導出して理解できるように、わかりやすく解説!

    解析ツールで何でも解けるけど
    その意味を理解しよう!

    ①多変量解析の目的は1つ

    多変量解析の目的

    教科書や他のサイトでは、いろいろな多変量解析を下表にように分類しています。

    多変量解析

    ただ、どうでしょうか?

    データの質的・量的で分類しても
    イマイチ理解しにくい。

    なので、QCプラネッツは別の区別方法で分けています。

    それは、

    多変量解析の目的は唯一!
    「データから必要な情報を最大限抽出すること!」

    全手法を研究してたどり着いた分類方法です。

    必要な情報を最大限抽出することは
    データの誤差を最小化することと同じ!

    なので、多変量解析は
    必要な情報を最大限抽出する手法
    不要な誤差を最小化する手法
    があります。

    ➁多変量解析を分類

    多変量解析の種類

    なので、多変量解析は
    必要な情報を最大限抽出する手法
    不要な誤差を最小化する手法
    があります。

    目的 手法 特徴
    ①必要な情報を最大化 ●重回帰分析(≒数量化Ⅰ類) 予測
    ➁不要な誤差を最小化 ●主成分分析 情報集約
    ●判別分析(≒数量化Ⅱ類) 判別
    ●因子分析 データ構成元抽出
    ●クラスター分析 判別
    ●コレスポンデンス分析
    (≒数量化Ⅲ類、数量化Ⅳ類)
    相関係数の最大化

    シンプルな分類になりましたし、解法・目的が明確になりましたね!

    ➂各手法の解説(関連記事のご紹介)

    上表のとおり、目的別に手法を解説した関連記事を紹介します。

    (1)重回帰分析

    誤差を最小化する重回帰分析の解法を紹介します。
    重回帰分析に出て来る公式の暗記ではなく、その導出過程をしっかり理解することが大事です。

    【まとめ】重回帰分析がよくわかる
    公式導出過程を詳しく解説!重回帰分析、多変量解析を学ぶ人は必読です。

    (2)主成分分析

    多変量解析はいろいろ手法がありますが、重回帰分析の次に学ぶのが主成分分析であることが多いですね。

    主成分分析の目的(情報を最大化する方向を探すこと)に意識して、主成分分析を理解しましょう。

    重回帰分析と主成分分析は全く別物ですが、
    何がどう違うか?をわかりやすく解説できるよう挑戦してください。

    主成分分析が計算できる
    主成分負荷量、主成分得点、主成分平方和、主成分の寄与率は説明・計算ができますか? 本記事は各変数の導出方法を丁寧に解説します。ただ、主成分分析の本質は先に習得しておきましょう。多変量解析を学ぶ人は必読です。

    (3)判別分析

    主成分分析より、理解しやすいのが判別分析ですね。
    何と何を区別して判別するか?なので、理解しやすいですね。

    なので、
    区別、判別をはっきりさせるに
    両者をなるべく引き離して分離させる手法

    を意識して判別分析の導出過程を理解しましょう。

    変動比が最大になる条件を求めるのは、群間成分と群内成分を引き離すと分離しやすい!というイメージでとらえましょう。

    【まとめ】判別分析がわかる
    判別分析に使う、線形判別関数、マハラノビス距離の導出・使い方、特性などを分かりやすく解説!

    (4)因子分析

    最もわかりにくいのが、因子分析ですね。
    主成分分析と比較されますが、
    正直、主成分分析と因子分析は比較対象ではなく、全くの別物ですよ。

    因子分析は、簡単にいうと、
    ●データを構成する元(共通因子)を見つけるもの
    ●共通因子の値から意味を考えるが、意味づけは人それぞれになる。
    ●しかし、共通因子を見つける方程式に自由度が余るため、最適値を外す場合がよくある

    です。

    因子分析は解析が難しいし、結果を読み取るもの人それぞれなので、よく注意して解析してください。

    ブログ記事でまとめていましたが、PDFとしてまとめました。ダウンロードして学習ください。

    因子分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

    以前、ブログ記事としていましたが、まとめて冊子にしました。
    どれも重要なテーマなので勉強しましょう!

    ●【QCプラネッツ因子分析プレミアム勉強プリント】リンク

    No ブログ記事リンク
    1 因子分析の1因子モデルが導出できる
    2 因子分析の1因子モデルが計算できる
    3 因子分析の2因子モデルが導出できる
    4 因子分析の2因子モデルが計算できる

    (5)コレスポンデンス分析

    クロス集計表の項目がバラバラな場合、ある規則に沿って並び替えるのに使う方法です。並び替えは人力でやってもよいですが、その意味合いを数学で評価できるのがコレスポンデンス分析です。

    クロス集計表の項目を数値化して、その相関係数の最大化となる組み合わせを求めるものです。

    重回帰分析、主成分分析、因子分析などと全く別物の分析手法ですね。

    コレスポンデンス分析ができる
    数量化3類と数量化4類をベースにコレスポンデンス分析をわかりやすく解説!

    (6)クラスター分析

    群分けを群間の距離で分離する原始的な方法で、直観的にわかりやすい分析方法です。クラスター分析を最初に勉強した方がいいでしょう。

    ただし、分離方法の精度をよくするために、3つの手法
    ●最短距離法
    ●最長距離法
    ●群平均法

    があります。

    最短距離法は簡単ですが、最長距離法・群平均法が分かりにくいです。なので、3者の解き方を比較しながら解法を解説しています。必見な関連記事です。

    ●【QCプラネッツクラスター分析プレミアム勉強プリント】リンク

    クラスター分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

    以前、ブログ記事としていましたが、まとめて冊子にしました。
    どれも重要なテーマなので勉強しましょう!

    (7)数量化分析

    学生時代から思っていたのは、

    データの質的・量的の違いだけで
    手法名が変わるのはおかしい。
    解法や数式が全く異なるなら
    手法名が異なっていてもいいけど。

    しっかり研究すると
    ●数量化Ⅰ類=重回帰分析
    ●数量化Ⅱ類=判別分析
    ●数量化Ⅲ、Ⅳ類=コレスポンデンス分析
    でいいわけです。

    わざわざ手法名を「数量化○○」と分類する意味がよくわかりませんが、皆知っているほどの知名度になっています。だから、かえって理解しにくいんですよね。

    なので、多変量解析は
    データの質的、量的ではなく
    解法の目的で分類すべき

    一応、数量化Ⅰ類からⅣ類まで関連記事で解説していますが、一番伝えたいのは、
    ●数量化Ⅰ類=重回帰分析
    ●数量化Ⅱ類=判別分析
    ●数量化Ⅲ、Ⅳ類=コレスポンデンス分析
    でよいことです。

    なるべく少ない解法や暗記量で多変量解析を究めたいので!

    数量化分析のプレミアムテキストを紹介!

    ブログ記事でまとめていましたが、PDFとしてまとめました。ダウンロードして学習ください。

    数量化分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

    以前、ブログ記事としていましたが、まとめて冊子にしました。
    どれも重要なテーマなので勉強しましょう!

    ●【QCプラネッツ数量化分析プレミアム勉強プリント】リンク

    No ブログ記事リンク
    1 数量化1類の分析ができる
    2 数量化2類ができる
    3 数量化4類の分析ができる
    4 コレスポンデンス分析ができる

    数量化分析のブログ記事を紹介!

    上記のプレミアムテキスト以外に、ブログ記事もあります。ご確認ください。

    数量化3類の分析ができる
    数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説!

    まとめ

    「【まとめ】多変量解析を究める!」を解説しました。

    • ①多変量解析の目的は1つ
    • ➁多変量解析を分類
    • ➂各手法の解説(関連記事のご紹介)
  • 数量化3類の分析ができる

    数量化3類の分析ができる

    本記事のテーマ

    数量化3類の分析ができる

    おさえておきたいポイント

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化3類のネーミングより
    解法を理解しよう!

    ①数量化3類とは

    数量化3類とは

    簡単にいうと

    縦と横の表項目を
    相関性の高い順に並び替える

    下右図のように相関性が高い順に並び替えると、ある一定の並び方が見えやすくするのが、数量化3類の解析目的です。

    数量化3類

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化3類の解き方

    解法手順

    では、数量化3類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    主成分分析が計算できる
    主成分負荷量、主成分得点、主成分平方和、主成分の寄与率は説明・計算ができますか? 本記事は各変数の導出方法を丁寧に解説します。ただ、主成分分析の本質は先に習得しておきましょう。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化3類で分析しましょう。

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+2a_2+a_3}{5}\)=0
    ●\(\bar{b}\)=\(\frac{2b_1+b_2+2b_3}{5}\)=0

    分散

    ●\(V_a\)=\(\sum_{i=1}^{5}\frac{(a_i-\bar{a})^2}{5}\)=\(\sum_{i=1}^{5}\frac{a_i}{5}\)
    =\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{5}\frac{(b_i-\bar{b})^2}{5}\)=\(\sum_{i=1}^{5}\frac{b_i}{5}\)
    =\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1

    まとめると、

    \(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    \(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+2a_2^2+a_3^2)\)=5
    ●\(S_b\)=\((2b_1^2+b_2^2+2b_3^2)\)=5

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{5} \sum_{j=1}^{5}(a_i-\bar{a})(b_j-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)-1=0
    ●\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{5}(b_2+b_3)-\frac{2λ_1}{5}a_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{5}(b_1+b_3)-\frac{2λ_1}{5}a_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{5}(b_1)-\frac{λ_1}{5}a_3\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{5}(a_2+a_3)-\frac{2λ_2}{5}b_1\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{5}(a_1)-\frac{λ_2}{5}b_2\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{5}(a_1+a_2)-\frac{2λ_2}{5}b_3\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    \(\frac{1}{5}(a_1 b_2+a_1 b_3 -2λ_1 a_1^2)\)+\(\frac{1}{5}(a_2 b_1+a_2 b_3 -2λ_1 a_2^2)\)+\(\frac{1}{5}(a_2 b_1 -λ_1 a_3^2)\)=0
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_2}{5}(2b_1^2+b_2^2+2b_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +b_3}{2λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + b_3}{2λ}-2λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\((\frac{b_2 + b_3}{2λ}+\frac{b_1 + b_3}{2λ})-2λb_3\)= …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{vmatrix}\)=0

    行列式を解くと、
    \((\frac{3}{2}-2λ^2)(\frac{1}{2}-λ^2)(1-2λ^2)\)-\(\frac{1}{4}(\frac{1}{2}-λ^2)\)-\(\frac{1}{4}(\frac{3}{2}-2λ^2)\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおくと、
    \(16t^3-28t^2+13t-1\)=0
    \((t-1)(t-\frac{3-\sqrt{5}}{8})( t-\frac{3+\sqrt{5}}{8})\)=0
    \(t\)=1,0.6545,0.0955
    \(λ\)=1,0.809,0.309 (\(λ\)も正についてのみ考えます。)

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=1,0.809,0.309)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=1のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -0.5 & 0 & 0.5 \\
    0 & -0.5 & 0.5 \\
    0.5 & 0.5 & -1
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(b_1\)=\(b_2\)=\(b_3\)
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=\(b_1\)
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=\(b_1\)
    \(a_3\)=\(\frac{b_1}{λ}\)=\(b_1\)
    より、
    \(a_1\)=\(a_2\)=\(a_3\)=\(b_1\)=\(b_2\)=\(b_3\)
    \(r\)=1

    たしかに、全部値が同じなら相関係数1ですよね。
    ただ、これは異例なので、相関係数1以下を調べてみましょう。

    固有値\(λ\)=0.809のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.191 & 0 & 0.5 \\
    0 & -0.154 & 0.5 \\
    0.5 & 0.5 & -0.309
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -2.617 \\
    3.236 \\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=2.618
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=-0.999
    \(a_3\)=\(\frac{b_1}{λ}\)=-3.234
    \(r\)=\(λ\)=0.809

    固有値\(λ\)=0.309のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.31 & 0 & 0.5 \\
    0 & 0.405 & 0.5 \\
    0.5 & 0.5 & 0.809
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.382\\
    -1.237\\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=-0.385
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=1.000
    \(a_3\)=\(\frac{b_1}{λ}\)=-1.236
    \(r\)=\(λ\)=0.309

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=3.236, \(b_3\)=1, \(b_1\)=-2.617
    ●\(a_1\)=2.618, \(a_2\)=-0.999, \(a_3\)=-3.234
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    から下表に変化します。

    カテゴリー 1 2 3
    サンプル \(b_2\) \(b_3\) \(b_1\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_3\)) (\(a_2,b_1\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    1 2 2 5

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これが数量化3類で実施したいことです。

    数量化3類は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析と同じ解法の流れになりますね!

    数量化3類の分析ができましたね!

    まとめ

    「数量化3類の分析ができる」を解説しました。

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
  • 背理法がわかる(背理法は高校数学で最高級の証明方法)

    背理法がわかる(背理法は高校数学で最高級の証明方法)

    「背理法がよくわからない」、などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    02-06_背理法がわかる
    • ①背理法は高校数学で最高級の証明方法
    • ➁おさえるべき重要問題
    • ➂解法
    • ➃全問題の解説は問題集にあります
    [themoneytizer id=”105233-2″]

    数と式は、基礎は簡単
    でも、発展は最難な領域

    高校数学で一番難しい単元は何?と聞かれて
    「数Ⅲの微積」という人は単に力がないだけ
    数学ができる人は、「数Aの数と式」と答える
    「数Ⅲの微積」は基礎は難しいが、その分応用・発展問題はないから、基礎ができたらすぐに入試問題が解ける!
    逆に「数Aの数と式」は基礎は簡単な分、いくらでも難しくできる!難関大学の論証問題はすべて「数Aの数と式」!
    2章の「数と式」は
    基礎をしっかりおさえつつ
    難関問題の入り口まで解説します。

    ①背理法は高校数学で最高級の証明方法

    背理法は京大レベル以上

    高校数学には、数学的帰納法、背理法、などいろいろな証明方法がありますが、

    圧倒的に背理法が難しい
    京大レベル以上を狙うには、背理法を自由自在に論じる力が必須
    京大以下は、単なる
    \(\sqrt{3}\)を無理数と証明する特殊な証明方法
    という解釈でいい

    背理法が私も受験生時代も使いこなせていなかったですね。
    むしろ機械的に処理できる数学的帰納法の方が圧倒的に簡単でしたね。

    背理法は何が難しいのか?

    では、背理法は何が難しいのか?を解説すると

    手法は1つ反例を示して矛盾を言えばいいが、
    反例の導き方は決まっていない
    自分で考えて論じていくのが高校生にはキツイ

    国語で反論する内容を数式で解いて、相手を説得させる難しさが背理法にはあります。

    背理法は1つ反論を導けばOK

    とはいえ、手法はシンプルで、

    手法は1つ反例を示して矛盾を言えばいい

    反論を論述するアプローチが難しい

    1つは過去問やパターンの問題を集めて、そこ範囲から出題される問いはしっかり回答できるようにしておく必要がありますが、

    単に解き方を覚えるより、矛盾する反例をどう論じるかを考え抜くことが大事です。でも、これが難しいし、予備校でも解き方は教わるけど、習得方法までは身につかない

    このような高級な論証方法が入っているから、
    「高1の数と式が、高校数学の中で一番難しいんですよ」

    そんな難しい背理法の大事な問題を解説します。

    ➁おさえるべき重要問題

    問1

    【問1】
    (1)\(\sqrt{5}\)が無理数であることを示せ。
    (2)\(\frac{1}{\sqrt{2}}-\frac{1}{\sqrt{3}}\)が無理数であることを示せ。
    ただし、\(\sqrt{3}\)が無理数であることは証明せず使ってよい。

    問2

    【問2】
    方程式\(2x^3-x-3\)=0は有理数の解がないことを示せ。

    ➂解法

    本ブログでは、【問1】,【問2】を解説!

    背理法を解くポイント

    ポイントは4つあります。

    1. 無理数を証明するパターンで背理法の流れを理解する
    2. 逆を仮定した場合に1つ矛盾する例を導き出す
    3. 矛盾を導き方は問題によるので、ここは経験しかない
    4. 京大以上の大学を目指さないなら、背理法は捨ててもいい

    上の4つを意識して解いてみましょう。

    問1の解法

    では、解いてみましょう。

    問(1)

    教科書に絶対ある問いですね。流れを理解しましょう。

    ①逆を仮定する

    \(\sqrt{5}\)が有理数と仮定し、
    \(\sqrt{5}\)=\(\frac{m}{n}\)
    (\(m,n\)は整数で互いに素)と置く。

    ➁①の仮定が矛盾する例を見つける
    (両辺)を2乗すると、
    5=\(\frac{m^2}{n^2}\)
    5\(n^2\)=\(m^2\)
    となる。

    \(n\)は整数なので、(左辺)は5の倍数になる。
    (右辺)も5の倍数が必要だから、\(m\)は5の倍数になる必要がある。

    \(m\)=5\(c\) ((\(c\)は整数)と置くと
    5\(n^2\)=\((5c)^2\)
    \(n^2\)=5\((c)^2\)
    となる。これを満たすには、
    \(n\)は5の倍数になる必要がある。

    となると、\(m,n\)が共に5の倍数になる必要があり、互いに素の条件に反する。

    よって、\(\sqrt{5}\)は無理数になる。

    とにかく、成り立たない理由を1つ
    無理矢理もっていっているのがわかりますね。
    これを高1の学生に教えるから、皆ピント来ないよね。
    推理小説にように、
    「こいつが犯人」と決めても、どうも矛盾する条件があるから
    「こいつは犯人じゃない」という流れと同じです。

    問(2)

    解き方は問(1)と同じです。どう反例を導くか? ここが難しい!

    ①逆を仮定する

    \(\frac{1}{\sqrt{2}}-\frac{1}{\sqrt{3}}\)が有理数と仮定し、
    \(\frac{1}{\sqrt{2}}-\frac{1}{\sqrt{3}}\)=\(r\)
    (\(r\)は有理数)と置く。

    ➁①の仮定が矛盾する例を見つける
    \(\frac{1}{\sqrt{2}}\)=\(r\)+\(\frac{1}{\sqrt{3}}\)と変形して

    (両辺)を2乗すると、
    \(\frac{1}{2}\)=\(r^2\)+\(\frac{2}{\sqrt{3}}r\)+\(\frac{1}{3}\)
    \(\frac{2}{\sqrt{3}}r\)=\(\frac{1}{6}\)-\(r^2\)
    \(\sqrt{3}\)=\(\frac{1-6r^2}{4r}\)

    ここで、 (右辺)は有理数であるが、(左辺)は無理数であるため、矛盾する。

    よって、\(\frac{1}{\sqrt{2}}-\frac{1}{\sqrt{3}}\)は無理数である。

    問2の解法

    同様に応用例を解きましょう。

    問(1)

    ①逆を仮定する

    方程式\(2x^3-x-3\)=0は有理数の解\(x\)=\(\frac{m}{n}\)
    (\(m,n\)は互いに素な整数)とおく。

    ここで、

    \(m,n\)互いに素な整数
    と3つ仮定を入れています。力技で矛盾する反例を見つけるためです。

    方程式\(2x^3-x-3\)=0は
    \(2(\frac{m}{n})^3-(\frac{m}{n})-3\)=0
    より、式を整理すると、
    2\(n^3\)=\(m^2(3m+n)\)

    ここで、\(m\)が偶数、\(n\)が奇数として
    ●\(m\)=\(2a+1\)
    ●\(n\)=\(2b\)
    (\(a,b\)とおく)
    とおくと

    (両辺)は
    16\((b)^3\)=\((2a+1)^2(2(3a+b)+1)\)
    となり、(左辺)は16の倍数であるが、(右辺)は奇数になり、
    (両辺)一致に矛盾する。

    よって、方程式\(2x^3-x-3\)=0は有理数の解がない

    いかがだったでしょうか。
    最初は背理法のパターン演習で慣れてから
    応用はとにかく矛盾する例を探す!
    矛盾するような仮定、条件、条件式を作って
    矛盾する反例を1つ見つけましょう。
    この論証が難しいですが、ビジネスにも活かせます!

    ➃全問題の解説は問題集にあります

    「第2章 数と式」で、大学受験も大学以降でも習得すべき、
    数と式の重要問題を解説しています。
    目次を紹介します。

    「第2章 数と式」の目次
    第2章 数と式

    02-01 恒等式
    02-02 因数分解
    02-03 整式の剰余
    02-04 整数の性質
    02-05 方程式の整数解
    02-06 背理法
    02-07 根号を含む計算
    02-08 指数と対数
    02-09 常用対数
    02-10 式の値
    02-11 不等式の証明・相加相乗平均

    問題集はメルカリでご購入いただけます。
    (現在問題集作成中。)

    問題集イメージ図(予定)

    是非、ブログを参考にいただき、ご購入よろしくお願いいたします。

    まとめ

    「02-06_背理法がわかる」を解説しました。

    • ①背理法は高校数学で最高級の証明方法
    • ➁おさえるべき重要問題
    • ➂解法
    • ➃全問題の解説は問題集にあります

  • 【まとめ】判別分析がわかる

    【まとめ】判別分析がわかる

    本記事のテーマ

    【まとめ】判別分析がわかる
    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    • ①判別分析のプレミアムテキストを紹介!
    • ②判別分析に使う2つの手法
    • ③線形判別関数で判別分析
    • ④マハラビノス距離で判別分析

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    線形判別関数と
    マハラビノス距離は
    解き方の思想が異なる点を理解しよう!

    ①判別分析のプレミアムテキストを紹介!

    ブログ記事でまとめていましたが、PDFとしてまとめました。ダウンロードして学習ください。

    主成分分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

    以前、ブログ記事としていましたが、まとめて冊子にしました。
    どれも重要なテーマなので勉強しましょう!

    ●【QCプラネッツ判別分析プレミアム勉強プリント】リンク

    No ブログ記事リンク
    1 2次元の線形判別関数の傾きは最大2種類である理由がわかる
    2 線形判別関数が計算できる(2次元で3群以上分割する場合)
    3 マハラビノス距離と相関係数の関係がわかる
    4 マハラビノス距離から判別できる

    しっかり勉強していきましょう!

    ②判別分析に使う2つの手法

    判別分析には、主に2つの手法があります。

    1. 線形判別関数
    2. マハラビノス距離

    そして、変数はn個を想定して判別分析していきますが、
    変数2個の2次元で、解き方をマスターしましょう。
    そして、ツールではなく手計算で解法を習得しましょう。

    線形判別関数もマハラビノス距離も
    データ群から情報量を最大限抜き取って判別する思想は同じだけど
    ●線形判別関数は平方和で評価
    ●マハラビノス距離は主成分分析から評価
    する点が違う。

    最もおさえておきたいポイント

    線形判別関数、マハラビノス距離の思想を理解することが最も大事!
    データ群から情報量を最大限抜き取って判別する思想は両方とも同じだけど
    線形判別関数は平方和で評価し、群間変動が最大となる(しっかり群どうしの差を抜き取る)条件で判別する。
    マハラビノス距離は情報量を最大限抜き取る主成分分析から評価
    とそれぞれ異なる手法で解いていきます。

    手法ばかり勉強するな!

    線形判別関数もマハラビノス距離の解き方を暗記して
    判別の結果の正誤判定率まで解けるようにして点数を稼ぐことよりも
    判別する思想をよく理解しましょう。ここが一番大事

    なので、解き方も大事ですが、考え方を意識して解説しております!

    線形判別関数について

    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    線形判別関数を解くプロセスでは特に意識しておく必要があります。

    マハラノビス距離について

    ●主成分分析方向を座標とした場合の距離がマハラビノス距離。
    ●距離の2乗を標本分散で割るイメージが強いが、それより主成分分析から導出する点が大事

    マハラビノス距離を解くプロセスでは特に意識しておく必要があります。

    ③線形判別関数で判別分析

    線形判別関数をマスターすべく重要な関連記事を紹介します。
    線形判別関数をマスターするために必要なステップは、

    1. 線形判別関数の正負で判別する
    2. 線形判別関数が導出できる
    3. 線形判別関数が計算できて判別分析ができる
    4. 線形判別関数の傾きの数がわかる
    5. 線形判別関数で多く分割する場合がわかる

    の5ステップです。それぞれ、重要な関連記事を紹介します。

    1&2.線形判別関数の正負で判別する&線形判別関数が導出できる

    線形判別関数の導出過程を解説します。

    ●線形判別関数を使って判別する基準は正負です。
    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    大事なポイントを意識しながら導出過程を見ましょう。

    線形判別関数Zの導出がわかる(2次元、平方和の分解)
    本記事は線形判別関数を導出するための正負の判別、平方和の分解を解説します。多変量解析を学ぶ人は必読!

    3.線形判別関数が計算できて判別分析ができる

    導出過程が理解できたら、実際に計算しながら理解をさらに深めましょう。
    計算しながら、気になるポイントもまとめて関連記事で紹介します。

    線形判別関数が計算できる(2次元)
    本記事では2次元データを例に判別分析における線形判別関数の求め方をわかりやすく解説します。

    4. 線形判別関数の傾きの数がわかる

    線形判別関数で判別できるようになると、

    何本、線形判別関数の直線が引けるか?

    が疑問になります。調べた結果、

    1. 傾きの数は、データの変数の種類の数が上限
    2. y切片の数は、自分で判別したい分だけ調整できる

    とわかりました。

    傾きの数は、データの変数の種類の数が上限である理由を解説します。

    解説は、【QCプラネッツ判別分析プレミアム勉強プリント】にあります。ご確認ください。

    ●【QCプラネッツ判別分析プレミアム勉強プリント】リンク

    5. 線形判別関数で多く分割する場合がわかる

    y切片の数は自分で調整できますが、数学的に導出・証明されているわけではない点は、やや面白味がたりませんが、多分割する場合の関連記事を紹介します。

    解説は、【QCプラネッツ判別分析プレミアム勉強プリント】にあります。ご確認ください。

    ●【QCプラネッツ判別分析プレミアム勉強プリント】リンク

    ➂マハラビノス距離で判別分析

    次に、線形判別関数と思想が異なるマハラビノス距離の関連記事を紹介します。</p.

    マハラビノス距離は普段使わない!
    普段使いユークリッド距離とどう違うの?
    を特に意識しながら関連記事を読んでいただきたいです。

    関連記事の流れとして次の5つのステップがあります。

    1. マハラビノス距離が導出&計算ができる
    2. マハラノビス距離と相関係数の関係がわかる
    3. マハラノビス距離から判別できる
    4. マハラノビス距離と線形判別関数を使った判別分析の違いがわかる

    1. マハラビノス距離が導出&計算ができる

    マハラノビス距離の式が難解で理解しにくいですよね。
    どこから導出されてきたか?を理解するところが最も重要です。

    そして、導出がわかったら、実際に計算してみましょう。
    ユークリッド距離と比較しながら、σや相関係数の影響を見ていきましょう。

    マハラビノス距離が計算できる
    本記事では、マハラビノス距離の導出方法と計算を解説し、さらにユークリッド距離との比較やマハラノビス距離の楕円分布まで丁寧に解説しています。

    2. マハラノビス距離と相関係数の関係がわかる

    マハラノビス距離とユークリッド距離の違いはどこにあるか? 相関係数を使えば、違いがよくわかります。

    解説は、【QCプラネッツ判別分析プレミアム勉強プリント】にあります。ご確認ください。

    ●【QCプラネッツ判別分析プレミアム勉強プリント】リンク

    3. マハラノビス距離から判別できる

    マハラノビス距離をつかって判別分析をしてみましょう。

    解説は、【QCプラネッツ判別分析プレミアム勉強プリント】にあります。ご確認ください。

    ●【QCプラネッツ判別分析プレミアム勉強プリント】リンク

    4. マハラノビス距離と線形判別関数を使った判別分析の違いがわかる

    マハラノビス距離と線形判別関数を使って、同じデータで判別結果の違いを見ていきましょう。手法によって結果に差が出るので、最後は我々が判別するしかなさそうです。

    マハラビノス距離と線形判別関数から判別分析ができる
    本記事は、同じデータを使って、線形判別関数、マハラビノス距離を計算し、判別分析の結果の違いをわかりやすく解説します。

    これだけの関連記事を読めば、判別分析はマスターした!といって過言ではないでしょう!

    まとめ

    「【まとめ】判別分析がわかる」を解説しました。

    • ①判別分析のプレミアムテキストを紹介!
    • ②判別分析に使う2つの手法
    • ③線形判別関数で判別分析
    • ④マハラビノス距離で判別分析
  • マハラビノス距離と線形判別関数から判別分析ができる

    マハラビノス距離と線形判別関数から判別分析ができる

    本記事のテーマ

    マハラビノス距離と線形判別関数から判別分析ができる

    おさえておきたいポイント

    • ①判別分析手法
    • ➁データ事例
    • ➂線形判別関数で判別分析
    • ➃マハラビノス距離で判別分析
    • ➄線形判別関数とマハラビノス距離の分析結果を比較

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①判別分析手法

    線形判別関数について

    線形判別関数については、関連記事で解説していますので、先に確認してください。本記事では、線形判別関数の導出や具体的な計算ができる前提で話を進めていきます。

    線形判別関数が計算できる(2次元)
    本記事では判別分析において、2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。

    線形判別関数のポイント

    ●全変動STの一部である、群間変動SBが最大になる条件で判別するのが原則。
    ●ただし、SB/STの関数は変数の個数分、極値を持つので、その本数だけ線形判別関数が引ける。

    線形判別関数を解くプロセスでは特に意識しておく必要があります。

    マハラノビス距離について

    マハラノビス距離については、関連記事で解説していますので、先に確認してください。本記事では、マハラノビス距離の導出や具体的な計算ができる前提で話を進めていきます。

    マハラビノス距離が計算できる
    データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。

    マハラノビス距離のポイント

    ●主成分分析方向を座標とした場合の距離がマハラビノス距離。
    ●距離の2乗を標本分散で割るイメージが強いが、それより主成分分析から導出する点が大事

    マハラビノス距離を解くプロセスでは特に意識しておく必要があります。

    ➁データ事例

    以下のデータを使って、線形判別関数とマハラビノス距離の両手法で判別分析をします。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 4 8 4 10
    2 6 10
    3 2 12
    2 4 10 16 7.5 13.5
    5 5 10
    6 8 12
    7 7 16
    合計 42 84 全平均 6 12

    グラフは下図のとおりです。

    マハラノビス距離

    ➂線形判別関数で判別分析

    同じデータですでに線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    線形判別関数が計算できる(2次元)
    本記事では判別分析において、2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。

    結果は下図の通りで、2次元のデータから2本の線形判別関数の直線ができますね。

    線形判別関数

    線形判別関数

    ➃マハラビノス距離で判別分析

    同じデータですでに線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    マハラビノス距離が計算できる
    データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。

    マハラビノス距離による判別分析は下図のようになります。

    マハラノビス距離

    ➄線形判別関数とマハラビノス距離の分析結果を比較

    グラフで確認

    線形判別関数とマハラビノス距離で同じデータをそれぞれ判別分析しました。

    結果をグラフにまとめてみましょう。

    ●線形判別関数Z1: y=x+6の場合とマハラビノス距離

    マハラビノス距離

    ●線形判別関数Z1: y=-13/6x+25の場合とマハラビノス距離

    線形判別関数

    【クイズ】次の4点はどちらの群に属するか?

    ●線形判別関数(Z1,Z2)場合とマハラビノス距離で次の座標は1群、2群のどちらに属するか?
    (i) (2,10)
    (ii) (8,18)
    (iii) (9,13)
    (iv) (6,10)

    マハラビノス距離
    マハラビノス距離

    (i)(ii)は計算しなくても図から明らかですが、
    (iii)(iv)はどうでしょうか?
    線形判別関数とマハラビノス距離の両面から計算して評価しましょう。

    解析結果

    No 座標 線形判別関数1
    y=x+6
    線形判別関数2
    y=-13/6x+25
    マハラビノス距離DM マハラビノス距離DM1 マハラビノス距離DM2
    (i) (2,10) 2群 1群 1群 1.154 2.799
    (ii) (8,18) 2群 2群 2群 6.111 1.867
    (iii) (9,13) 1群 2群 2群 4.041 1.173
    (iv) (6,10) 1群 1群 1群 1.1543 1.173

    各手法で計算すると、所属群が変わることがあります。
    手法で計算したら、あとは、あなたの考えで判別の結論を出すことになります。

    同じデータを線形判別関数・マハラビノス距離の両方を使って結果を比較する面白い内容を解説しました。

    まとめ

    「マハラビノス距離と線形判別関数から判別分析ができる」を解説しました。

    • ①判別分析手法
    • ➁データ事例
    • ➂線形判別関数で判別分析
    • ➃マハラビノス距離で判別分析
    • ➄線形判別関数とマハラビノス距離の分析結果を比較
  • マハラビノス距離が計算できる

    マハラビノス距離が計算できる

    本記事のテーマ

    マハラビノス距離が計算できる

    おさえておきたいポイント

    • ①マハラビノス距離とは
    • ➁傾いた楕円形でマハラビノス距離を表現する理由
    • ➂マハラビノス距離を計算する
    • ④マハラビノス距離のベースは主成分分析!
    • ⑤マハラビノス距離の定義を理解する
    • ⑥マハラビノス距離を導出する(2次元)
    • ⑦マハラビノス距離の導出過程(2次元)

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題!

    マハラビノス距離を実際に計算してみよう!
    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    まずは、

    2次元でしっかり導出過程を理解しましょう。

    ①マハラビノス距離とは

    あとの、

    • ④マハラビノス距離のベースは主成分分析!
    • ⑤マハラビノス距離の定義を理解する
    • ⑥マハラビノス距離を導出する(2次元)
    • ⑦マハラビノス距離の導出過程(2次元)

    で、詳しく数式を使って導出しますが、ポイントは

    1. マハラビノス距離とは何か?
    2. マハラビノス距離はなぜ主成分分析から考えるのか?
    3. マハラビノス距離の導出方法

    ➁傾いた楕円形でマハラビノス距離を表現する理由

    傾いた楕円形の方程式

    よく、マハラビノス距離は傾いた楕円形で表現されますが、その理由を解説しますね。

    まず、高校数学にも出て来る、傾いていない楕円の方程式は、
    \(\frac{x^2}{a^2}+\frac{y^2}{b^2}\)=1
    ですね。

    この楕円上の点(\(x,y\))を原点中心に角度θ回転させた
    座標を(\(X,Y\))とします。

    マハラノビス距離

    ここで、

    回転といえば、複素数平面!

    ド・モアブルの定理から、
    \(X+Yi\)=\((x+yi)(cosθ+isinθ)\)
    が成り立つので、実部、虚部に分けると
    ●\(X\)=\(xcosθ-ysinθ\)
    ●\(Y\)=\(xsinθ+ycosθ\)
    となるので、

    (\(x,y\))を(\(X,Y\))で表現すると
    \(x\)=\(Xcosθ+Ysinθ\)
    \(y\)=\(-Xsinθ+Ycosθ\)
    となります。

    先ほどの楕円の式に代入すると
    ●\(\frac{x^2}{a^2}+\frac{y^2}{b^2}\)=1
    \(\frac{( Xcosθ+Ysinθ)^2}{a^2}+\frac{(-Xsinθ+Ycosθ)^2}{b^2}\)=1
    \((\frac{cos^2θ}{a^2}+\frac{sin^2θ}{b^2})X^2\)+2\(sinθcosθ(\frac{1}{a^2}-\frac{1}{b^2})XY\)+\((\frac{sin^2θ}{a^2}+\frac{cos^2θ}{b^2})Y^2\)=1
    となり、簡略して書くと

    ●傾いた楕円の式は
    \(AX^2+2BXY+CY^2\)=1
    で表現できる

    傾いた楕円を図で描きます。

    マハラノビス距離

    マハラビノス距離を展開する

    マハラビノス距離(2次元)の場合、
    \(D_M^2\)=\((x_1 -\bar{x_1}, x_2 -\bar{x_2})\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{21} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    x_2 -\bar{x_2}
    \end{array}
    \right)
    \)

    と書けます。

    簡略化のため
    ●\( x-\bar{x}\)=\(X\)
    ●\(y-\bar{y}\)=\(Y\)
    ●\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22}
    \end{array}
    \right)^{-1}
    \)=\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)
    と書き直します。

    書き直したマハラビノス距離は
    \(D_M^2\)=\((X, Y)\)\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    X\\
    Y
    \end{array}
    \right)
    \)
    となり、展開すると
    \(D_M^2\)=\(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)
    となります。

    マハラビノス距離は傾いた楕円の式と同じ

    比較すると

    ●傾いた楕円の式: \(AX^2+2BXY+CY^2\)=1
    ●マハラビノス距離: \(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)=\(D_M^2\)
    と同じ式ですね。

    また、楕円の式の(右辺)は1ですが、
    マハラビノス距離はいろいろ変わるため、距離の値によって楕円の大きさが変化します。

    何となく
    マハラビノス距離は楕円で表現ではなく
    数式を使って、楕円で表現する理由を理解しましょう。

    ➂マハラビノス距離を計算する

    実際計算しましょう。理解を増すために、ユークリッド距離(\(x^2+y^2\))と比較します。

    データ事例

    N0 x y A=
    \(x-\bar{x}\)
    B=
    \(y-\bar{y}\)
    A2 B2 AB
    1 4 8 -2 -4 4 16 8
    2 6 10 0 -2 0 4 0
    3 2 12 -4 0 16 0 0
    4 10 16 4 4 16 16 16
    5 5 10 -1 -2 1 4 2
    6 8 12 2 0 4 0 0
    7 7 16 1 4 1 16 4
    合計 42 84 合計(平方和) 42 56 30
    平均 6 12 (標本分散) \(S_{11}\)
    =7
    \(S_{12}\)
    =9.33
    \(S_{22}\)
    =5

    ここで、
    ●\(S_{ij}\)は標本分散=(平方和)/(n-1)である点に注意しましょう。

    マハラビノス距離とユークリッド距離の比較

    マハラノビス距離は、
    \(T_{11} X^2\)+\(2T_{12} XY\)+\(T_{22} Y^2\)=\(D_M^2\)
    の形をしています。実際に係数を計算すると

    ●\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{21} & S_{22}
    \end{array}
    \right)^{-1}
    \)=\(\left(\begin{array}{cccc}
    7 & 5 \\
    5 & 9.33
    \end{array}
    \right)^{-1}
    \)
    =\(\left(\begin{array}{cccc}
    0.231 & -0.124 \\
    -0.124 & 0.174
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    T_{11} & T_{12} \\
    T_{21} & T_{22}
    \end{array}
    \right)
    \)
    となります。

    つまり、マハラノビス距離は、
    \(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)
    で表現できます。

    いろいろな点について、マハラノビス距離とユークリッド距離を計算した結果を下表で比較しましょう。

    No x y マハラビノス
    距離
    ユークリッド
    距離
    1 6 12 0 0
    2 8 11.855 1.00 0.757
    3 5 6.57 2.00 1.82
    4 0 3 3.00 3.72

    ここで、ユークリッド距離はx,y方向をそれぞれの標本分散で割った値として、表にいれました。
    Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)
    です。

    標本分散で割った理由は、マハラビノス距離において、相関係数が0の場合、
    ●マハラビノス距離=●ユークリッド距離
    とするためです。

    結果を図にしましょう。

    マハラノビス距離

    マハラノビス距離とユークリッド距離は若干値が異なるし、
    マハラノビス距離は傾いた楕円分布になっていることがわかりますね。

    データの平均からマハラノビス距離を取ると、ユークリッド距離と同様に距離は0です。当然ですよね。
    なお、上表はマハラノビス距離が1,2,3となる1点を探しました。

    マハラノビス距離Dmが
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=0
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=1
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=2
    ●\(D_M^2\)=0.231\( X^2\)-0.248\( XY\)+0.174\( Y^2\)=3
    とそれぞれ満たす点の集合を線で引くと、傾いた楕円形になります。

    一方ユークリッド距離は、
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=0
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=1
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=2
    ●Y=\(\frac{X^2}{S_{11}}+\frac{Y^2}{S_{22}}\)=3
    とそれぞれ満たす点の集合を線で引くと、円になりますね。

    ここまではマハラビノス距離の計算方法を解説しました。ここからは、マハラビノス距離を導出してみましょう。

    ④マハラビノス距離のベースは主成分分析!

    マハラビノス距離だけでは理解できない

    多変量解析をしていると、必ず出て来るのが「マハラビノス距離」ですね。
    意味や式を理解しようとしても

    でも、マハラビノス距離の意味や式は理解しにくいですよね。

    なので、わかりやすく解説します。

    先に主成分分析の導出過程を理解しよう

    マハラビノス距離を理解するには、主成分分析の導出を理解しておく必要があります。

    にて、冊子(PDF)でまとめています。ご確認ください。

    前置きは以上で、ここから本題に入ります。

    ⑤マハラビノス距離の定義を理解する

    マハラビノス距離とは

    定義と式を書くと

    ●定義
    多変数間の相関に基づく「普通の距離を一般化したもの」
    ●定義式
    \(D_M=\sqrt{(x-μ)^T ∑^{-1}(x-μ)}\)
    ・\(x\)=\((x_1,x_2,…,x_n)\)
    ・\(μ\)=\((μ_1, μ_2,…, μ_n)\)

    となりますが、

    よくわからないですよね。

    マハラビノス距離を2次元表示する

    定義式から2次元の場合を書いてみると
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    (ここで、\(S_{ij}\)は標本分散=平方和/データ数と見てください)

    ちょっと、わかりやすいけど、まだ難しいですよね。

    マハラビノス距離を1次元表示する

    1次元まで限定すると、
    \(D_M^2\)=\((x_1-\bar{x_1}) s_{11}^{-1} (x_1-\bar{x_1})\)
    =\(\frac{(x_1 -\bar{x_1})^2}{s_{11}}\)
    平方根にすると
    \(D_M\)=\(\frac{|x_1 -\bar{x_1}|}{σ_{11}}\)
    距離の差を標準偏差で割った、標準化した距離になりますね。

    ここまで来て、少し理解できた感じですよね。

    マハラビノス距離は、
    式を具体的に書き出しても
    本質はわかりません。
    主成分分析を座標にした距離
    というわかりにくい定義だからです

    ⑥マハラビノス距離を導出する(2次元)

    マハラビノス距離を導出しやすい定義から入る

    マハラビノス距離は、
    ユークリッド座標で定義した\(x_1,x_2\)から
    主成分分析座標に変換した\(X_1,X_2\)
    と平均値座標間の距離

    下図でわかりやすく説明しますね。

    マハラビノス距離

    基本は、
    平均との差分の距離を考えるので、
    ユークリッド座標(いつも使っている座標)から
    \((x_1,x_2)\)~\((\bar{x_1},\bar{x_2})\)間の距離を考えます。

    ただし、変数が増えると、\(x_1\),\(x_2\)間に相関関係が入る可能性があり、
    ユークリッド座標では適切な距離として評価できない場合があります。

    そこで、ユークリッド座標から、相関関係を考えた主成分分析方向に変換した距離を考える必要があることからマハラビノス距離ができました。

    マハラビノス距離\(D_M^2\)は主成分分析方向で変換した長さですが、
    標準化するために主成分分析方向の平方和で割ります。
    しかも、主成分分析方向の平方和は固有値でしたね。

    主成分分析方向の平方和は固有値になる理由は関連記事で解説しています。ご確認ください。

    にて、冊子(PDF)でまとめています。ご確認ください。

    ここで、ややこしい話をしますが、
    主成分分析するときに、データを標準化する場合としない場合があります。
    ●データを標準化してから分析する場合→標本分散
    ●データを標準化せず、そのまま分析する場合→平方和
    で、関連記事では「データを標準化しない」場合で解説してます。
    本記事は、「データを標準化する」場合で解説しているので、
    平方和→標本分散に変えて説明します。

    マハラビノス距離\(D_M^2\)=\(X_1^2+X_2^2\)のイメージで
    標準化したいから一旦、主成分分析方向の標本分散で割ります。
    \(D_M^2\)=\(\frac{X_1^2}{S_1}+\frac{X_2^2}{S_2}\)
    各主成分分析方向の標本分散は固有値に一致するので、
    \( S _1=λ_1\),\( S _2=λ_2\)を代入すると
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    この式を変形すると
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    になります。

    という解釈ですが、少しわかった感じになった程度ですよね。ここから先は数式を見ながらマハラビノス距離に慣れていきましょう。

    マハラビノス距離の式を導出する

    本記事の定義から、マハラビノス距離は
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    と定義しましたが、これが教科書で書いている
    \(D_M^2\)=\((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    になることを証明しましょう。

    導出過程は3ステップで行きます。

    1. 行列表記にして (ベクトル横)(行列)-1(ベクトル縦)の形を作る
    2. \((X_1,X_2)\)を\((x_1,x_2)\)で表現する
    3. >式をまとめる

    導出過程の隠し味は、「固有方程式」の
    行列とベクトルの積がベクトルの固有値倍に簡略化できるところです。

    では、ポイントを知った上で、導出しましょう。

    ⑦マハラビノス距離の導出過程(2次元)

    行列表記にする

    本記事の定義から、マハラビノス距離は
    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    と変形して、行列表記できます。

    次に、逆行列表記します。

    逆行列表記

    あえて、
    \(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)
    \)
    の逆行列を求めます。これは高校数学レベルなので、公式通り解くと、

    \(\left(\begin{array}{cccc}
    \frac{1}{λ_1} & 0 \\
    0 & \frac{1}{λ_2}
    \end{array}
    \right)^{-1}
    \)=\(λ_1 λ_2\)\(\left(\begin{array}{cccc}
    \frac{1}{λ_2} & 0 \\
    0 & \frac{1}{λ_1}
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    となります。シンプルな逆行列ができましたね。

    マハラビノス距離をまとめると

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =(式1)
    と書けます。

    \((X_1,X_2)\)を\((x_1,x_2)\)で表現する

    図を再掲して、\(X_1,X_2\)を、内積を使って\(x_1,x_2\)で表現します。

    マハラビノス距離

    \(X_1\)=\( \overrightarrow{AP} \)・\( \vec{e_1} \)
    =|\( \overrightarrow{AP} \)||\( \vec{e_1} \)|cosθ
    =\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)・\(\left(
    \begin{array}{c}
    a_1\\
    b_1
    \end{array}
    \right)
    \)
    =\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
    となります。

    同様に、

    \(X_2\)=\( \overrightarrow{AP} \)・\( \vec{e_2} \)
    =\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)

    よって、
    ●\(X_1\)=\(a_1 (x_{1i}-\bar{x_1})+b_1 (x_{2i}-\bar{x_2})\)
    ●\(X_2\)=\(a_2 (x_{1i}-\bar{x_1})+b_2 (x_{2i}-\bar{x_2})\)
    の関係式から

    \(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)

    =(式2a)
    と、縦横を入れ替えて
    \((X_1, X_2)\)=\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)

    =(式2b)

    両方表現できます。両方とも後で使います。

    式をまとめる

    マハラビノス距離を再掲します。

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =(式1)

    (式1)に(式2a),(式2b)を代入します。

    \(D_M^2\)=\((X_1,X_2)\)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    X_1\\
    X_2
    \end{array}
    \right)
    \)
    =\(( x_{1i}-\bar{x_1}, x_{2i}-\bar{x_2})\)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)
    \(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    \(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    x_{1i}-\bar{x_1}\\
    x_{2i}-\bar{x_2}
    \end{array}
    \right)
    \)

    マハラビノス距離の式
    \((x_1-\bar{x_1}, x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    X_2 -\bar{x_2}
    \end{array}
    \right)
    \)
    の左右が一致しましたね。

    線形判別関数

    図で見ると、あとは、

    \(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)
    \(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)
    を証明すれば完成です。

    やってみましょう。 

    行列の式の証明

    ここで、2次の固有方程式を思い出しましょう。

    ●固有方程式
    \(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{c}
    a_j\\
    b_j
    \end{array}
    \right)
    \)=\(λ_j\)\(\left(
    \begin{array}{c}
    a_j\\
    b_j
    \end{array}
    \right)
    \)
    (\(j\)=1,2)
    でしたね。

    主成分分析の関連記事で解説していますが、\(j=1,2\)をまとめて行列表記すると
    \(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)=\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)
    \)
    と表現でき、行列表記として、
    SH=
    と書くことができますね。

    なお、証明したい式を行列表記すると、
    \(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    λ_1 & 0 \\
    0 & λ_2
    \end{array}
    \right)^{-1}
    \)\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{21} & s_{22}
    \end{array}
    \right)^{-1}
    \)

    を行列表記すると
    -1HT=S-1
    が証明したい式です。

    SH=
    に両辺に逆行列S-1をかけると
    S-1SH= S-1
    H= S-1

    また、両辺に逆行列Λ-1をかけると
    -1= S-1HΛΛ-1
    -1= S-1H

    さらに、両辺に転置行列H Tをかけると
    -1 H T= S-1H H T
    =(式4)

    ここで、積HTH
    HTH=\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1 & a_2 \\
    b_1 & b_2
    \end{array}
    \right)
    \)
    =\(\left(\begin{array}{cccc}
    a_1 & b_1 \\
    a_2 & b_2
    \end{array}
    \right)
    \)\(\left(\begin{array}{cccc}
    a_1^2+b_1^2 & a_1 a_2 + b_1 b_2 \\
    a_1 a_2 + b_1 b_2 & a_2^2+b_2^2
    \end{array}
    \right)
    \)
    となります。

    単位ベクトルでかつ、内積が0(直交性)があるため、
    ・\( a_1^2+b_1^2\)=1
    ・\( a_2^2+b_2^2\)=1
    ・\( a_1 a_2 + b_1 b_2 \)=0
    から

    HTH=\(\left(\begin{array}{cccc}
    1 & 0 \\
    0 & 1
    \end{array}
    \right)
    \)
    =E
    となります。

    よって、(式4)は
    -1 H T= S-1H H T
    = S-1

    -1 H T= S-1
    が成り立ちました。

    よって、すべてまとめると、

    \(D_M^2\)=\(\frac{X_1^2}{λ_1}+\frac{X_2^2}{λ_2}\)
    =\((x_1-\bar{x_1},x_2-\bar{x_2})\)\(\left(\begin{array}{cccc}
    s_{11} & s_{12} \\
    s_{12} & s_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1-\bar{x_1}\\
    x_2-\bar{x_2}
    \end{array}
    \right)
    \)

    できましたね!
    主成分分析から入るとマハラビノス距離は理解しやすいですね。

    まとめ

    「マハラビノス距離が計算できる」を解説しました。

    • ①マハラビノス距離とは
    • ➁傾いた楕円形でマハラビノス距離を表現する理由
    • ➂マハラビノス距離を計算する
    • ④マハラビノス距離のベースは主成分分析!
    • ⑤マハラビノス距離の定義を理解する
    • ⑥マハラビノス距離を導出する(2次元)
    • ⑦マハラビノス距離の導出過程(2次元)
  • 線形判別関数が計算できる(2次元)

    線形判別関数が計算できる(2次元)

    本記事のテーマ

    線形判別関数が計算できる(2次元)

    おさえておきたいポイント

    • ①データ事例
    • ➁平方和(全変動、群間変動)、相関比を計算
    • ➂線形判別関数の係数導出方法1
    • ➃線形判別関数の係数導出方法2
    • ➄線形判別関数を図示する
    • ⑥線形判別関数とデータの値の比較
    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題!

    判別分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    まずは、

    2次元でしっかり導出過程を理解しましょう。

    ①データ事例

    2次元データで線形判別関数を作る

    以下のデータを用意しましょう。このデータの線形判別関数を作っていきます。

    \(x_1\) \(x_2\)
    1群 4 8
    6 10
    2 12
    2群 10 16
    5 10
    8 12
    7 16

    なお、グラフで図示すると下図になります。 2つの群に分けたので、線を引いて区別してみましょう。この線の直線式を求めます。

    線形判別関数

    ➁平方和(全変動、群間変動)、相関比を計算

    線形判別関数\(Z\)を定義

    関連記事のとおり、2次元における線形判別関数\(Z\)を定義します。

    線形判別関数Zの導出がわかる(2次元、平方和の分解)
    線形判別関数を導出するための平方和の計算、平方和の分解を解説します。多変量解析を学ぶ人は必読!

    ●線形判別関数\(Z\)
    \(Z\)=\(a_1 x_1 +a_2 x_2\)

    各値に代入しましょう。下の結果になります。

    x1 x2 Z 群平均
    1群 4 8 4\(a_1\)+8\(a_2\) 4\(a_1\)+10\(a_2\)
    6 10 6\(a_1\)+10\(a_2\)
    2 12 2\(a_1\)+12\(a_2\)
    2群 10 16 10\(a_1\)+16\(a_2\) 7.5\(a_1\)+13.5\(a_2\)
    5 10 5\(a_1\)+10\(a_2\)
    8 12 8\(a_1\)+12\(a_2\)
    7 16 7\(a_1\)+16\(a_2\)
    全体の平均 6\(a_1\)+12\(a_2\)

    平方和(全変動、群間変動)を計算

    上表と関連記事を使って、平方和を計算します。

    全変動を計算

    全変動\(S_T\)は
    \(S\)=\(\sum_{i=1}^{7}(Z-\bar{Z})^2\)
    =\(((4a_1+8a_2)-(6a_1+12a_2))^2\)
    +\(((6a_1+10a_2)-(6a_1+12a_2))^2\)
    +\(((2a_1+12a_2)-(6a_1+12a_2))^2\)
    +\(((10a_1+16a_2)-(6a_1+12a_2))^2\)
    +\(((5a_1+10a_2)-(6a_1+12a_2))^2\)
    +\(((8a_1+12a_2)-(6a_1+12a_2))^2\)
    +\(((7a_1+16a_2)-(6a_1+12a_2))^2\)
    =\(42a_1^2 + 60a_1 a_2 +56 a_2^2\)
    =(式1)

    群間変動を計算

    群間変動\(S_B\)は
    \(S_B\)=\(\sum_{i=1}^{3}(\bar{Z_1}-\bar{Z})^2\)+\(\sum_{i=1}^{4}(\bar{Z_2}-\bar{Z})^2\)
    =3\((\bar{Z_1}-\bar{Z})^2\)+4\((\bar{Z_2}-\bar{Z})^2\)
    =3\(((4a_1+10a_2)-(6a_1+12a_2))^2\)+4\(((7.5a_1+13.5a_2)-(6a_1+12a_2))^2\)
    =21\((a_1 + a_2)^2\)
    =(式2)

    相関比を導出

    線形判別関数は相関比を最大にする(最も区別できる条件)として計算します。

    相関比\(F\)=\(\frac{S_B}{S_T}\)
    と定義します。

    相関比\(F\)=\(\frac{S_B}{S_T}\)
    =\(\frac{21(a_1 + a_2)^2}{42a_1^2 + 60a_1 a_2 +56 a_2^2}\)

    ここから、線形判別関数を導出する方法が2つあります。結果は同じになりますが紹介します。

    1. 相関比が最大になる条件を計算
    2. ラグランジュの未定乗数を使って計算

    ➂線形判別関数の係数導出方法1

    単純に\(F\)が最大,最小になる条件を計算します。これは2変数限定の解法です。

    \(\frac{a_1}{a_2}\)=\(k\)とおき、相関比\(F(k)\)を再定義します。
    \(F\)= \(\frac{21((\frac{a_1}{a_2}) + 1)^2}{42(\frac{a_1}{a_2})^2 + 60(\frac{a_1}{a_2}) +56}\)
    \(F(k)\)= \(\frac{21(k + 1)^2}{42k^2 + 60k +56}\)

    これを微分します。高3数学レベルですね。
    \(F’(k)\)=\(\frac{42(k+1)(分母)-(分子)(84k+60))}{分母^2}\)
    で、\(F’(k)\)=0となる\(k\)が欲しいので、\(F’(k)\)の分子のみ取り出します。

    \(F’(k)\)の分子
    =\(42(k+1)(42k^2+60k+56)-21(k+1)^2(84k+60)\)=0
    \(2(k+1)(2(42k^2+60k+56)-(k+1)(84k+60))\)=0
    \((k+1)(24k-52)\)=0
    よって、
    \(k\)=-1,\(\frac{13}{6}\)

    \(F(k\)のグラフを描くと、確かに\(k\)=―1,\(\frac{13}{6}\)の時がそれぞれ最小、最大になります。

    線形判別関数

    次は、ラグランジュの未定乗数法を使った解法を解説します

    ➃線形判別関数の係数導出方法2

    ラグランジュの未定乗数法

    もう1つはラグランジュの未定乗数法を使う方法です。主成分分析で必須の解法ですね。

    ここで、1つ仮定を入れます。

    計算で求めたいのは\(a_2,a_1\)の比。
    ここで全変動\(S_T\)=1と仮定したときの、
    群間変動\(S_B\)の最大値を考える。

    全変動\(S_T\)=\(42a_1^2 + 60a_1 a_2 +56 a_2^2\)=1としたときの
    群間変動\(S_B\)=21\((a_1 + a_2)^2\)の最小値、最大値を考えます。

    ラグランジュの未定乗数法から固有方程式へ

    関数\(F\)を
    \(F(a_1,a_2\)=21\((a_1 + a_2)^2\)-\(λ(42a_1^2 + 60a_1 a_2 +56 a_2^2-1)\)
    を定義して、偏微分=0の式を立てます。その後、固有方程式と流れますね。

    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_1} \)=\(42(a_1 + a_2)-λ(84a_1 + 60a_2)\)=0
    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_2} \)=\(42(a_1 + a_2)-λ(60a_1 + 112a_2)\)=0

    行列表記しましょう。
    \(\left(
    \begin{array}{cccc}
    7-14λ & 7-10λ \\
    21-30λ & 21-56λ \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a \\
    b\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)

    \((7-14λ)(21-56λ)-(7-10λ)(21-30λ)\)=0
    \(λ(484λ-266)\)=0

    よって、固有値λは
    λ=0,\(\frac{133}{242}\)
    となります。

    固有ベクトルを算出

    固有ベクトルから\(a,b)を計算します。

    固有値0のとき

    固有値0のときは、
    \(\left(
    \begin{array}{cccc}
    7 & 7 \\
    21 & 21 \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a\\
    b\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)
    より、
    ●\(a+b\)=0
    となるので、
    \(
    \left(
    \begin{array}{c}
    a\\
    b\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    1 \\
    -1\\
    \end{array}
    \right)
    \)
    となります。

    固有値\(\frac{133}{242}\)のとき

    固有値\(\frac{133}{242}\)のときは、
    \(\left(
    \begin{array}{cccc}
    7-14\frac{133}{242} & 7-10\frac{133}{242} \\
    21-30\frac{133}{242} & 21-56\frac{133}{242} \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a\\
    b\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)
    より、
    ●\(-\frac{168}{242}a+\frac{364}{242}b\)=0
    となるので、168と364はそれぞれ28で割り切れるから
    \(
    \left(
    \begin{array}{c}
    a\\
    b\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    13 \\
    6\\
    \end{array}
    \right)
    \)
    となります。

    線形判別関数の係数比の結果をまとめると

    ➂では相関比を\(k=\frac{a_2}{a_1}\)として極値を求め、
    ➃では、ラグランジュの未定乗数法から固有ベクトルを求めました。

    ➂の方法では、\(k=\frac{a_2}{a_1}\)=-1,\(\frac{13}{6}\)
    ➃の方法からも\(\frac{a_2}{a_1}\)=-1,\(\frac{13}{6}\)と
    計算結果は一致しましたね。

    解法はどちらでもOKですが、
    変数が3以上になると
    ラグランジュの未定乗数法しか解けないですね。

    ➄線形判別関数を計算する

    係数比から線形判別関数を作る

    さて、係数比は
    \(\frac{a_2}{a_1}\)=-1,\(\frac{13}{6}\)
    となりました。

    ここで、あえて、
    ●\(a_1\)=1,\(a_2\)=-1
    ●\(a_1\)=13,\(a_2\)=6
    と置いて、線形判別関数を
    ●\(Z_1\)=\(a_1 x_1\)+\(a_2 x_2\)+\(b_1\)
    ●\(Z_2\)=\(a_1 x_1\)+\(a_2 x_2\)+\(b_2\)
    に値を代入して、切片\(b_1,b_2\)を決めましょう。
    ●\(Z_1\)=\( x_1\)-\( x_2\)+\(b_1\)
    ●\(Z_2\)=13\( x_1\)+6\(x_2\)+\(b_2\)

    データの平均を線形判別関数\(Z\)は通る

    切片\(b_1,b_2\)を決める条件は、
    データの平均(6,10)を線形判別関数\(Z\)は通る
    として、代入すると
    ●\(Z_1\)=0=6-12+\(b_1\)
    ●\(Z_2\)=0=13×6+6×12+\(b_2\)
    より
    \(b_1\)=6,\(b_2\)=-150
    となるので、線形判別関数はそれぞれ
    ●\(Z_1\)=\( x_1\)-\( x_2\)+6
    ●\(Z_2\)=13\( x_1\)+6\(x_2\)-150
    となります。

    ⑥線形判別関数とデータの値の比較

    線形判別関数\(Z\)=0の直線とデータを比較

    では、グラフに図示してみましょう。うまく判別できたでしょうか?

    まず、全部のデータをグラフで図示します。
    2本の線形判別関数の直線があり、互いにデータの平均(\(\bar{x},\bar{y}\)で交わっています。

    線形判別関数

    次に線形判別関数\(Z_1\)=0の判別を見ましょう。
    結構、判別ミスっているのがわかりますね。

    線形判別関数

    次に、線形判別関数\(Z_2\)=0の判別を見ましょう。
    結構、正しく判別できているがわかりますね。

    線形判別関数

    2次元の場合は、2次方程式から2本の線形判別関数ができるのですが、
    どうも、
    ●判別正誤が悪い場合(解が極小値の場合\(k\)=-1)

    ●判別正誤が良い場合(解が極大値の場合\(k\)=\(\frac{13}{6}\))
    の2本ができるようですね。

    線形判別関数の判別正誤率を確認

    判別正誤率を表でまとめます。

    x1 x2 Z1 Z1 群 Z1 正誤 Z2 Z2 群 Z2 正誤
    1 4 8 2 2群 × -50 1群
    6 10 2 2群 × -12 1群
    2 12 -4 1群 -52 1群
    2 10 16 0 × 76 2群 ×
    5 10 1 2群 -25 1群
    8 12 2 2群 26 2群
    7 16 -3 1群 × 37 2群
    1群 25% 1群 100%
    2群 50% 2群 75%

    確かに、\(Z_1\)の判別正誤率は低く、\(Z_2\)は高いですね。
    線形判別関数を計算した後も、正しく判別できるかはちゃんとチェックしましょう。

    まとめ

    まとめ

    「線形判別関数が計算できる」を解説しました。

    • ①データ事例
    • ➁平方和(全変動、群間変動)、相関比を計算
    • ➂線形判別関数の係数導出方法1
    • ➃線形判別関数の係数導出方法2
    • ➄線形判別関数を図示する
    • ⑥線形判別関数とデータの値の比較
error: Content is protected !!