カテゴリー:

  • 数量化2類ができる(その1)

    数量化2類ができる(その1)

    「数量化2類がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化2類ができる(その1)

    おさえておきたいポイント

    • 数量化2類は判別分析である(その1)
    • データ事例(その1)
    • 線形判別関数で数量化2類(判別分析) (その1)
    • ➃マハラビノス距離で数量化2類(判別分析)(その2)
    • ➄線形判別関数とマハラビノス距離の分析結果を比較(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化2類は判別分析です!
    ならば、判別分析でいいじゃん!
    本当にそうです
    説明変数が質的か量的か
    くらいで、手法名変えるな!
    判別分析や数量化Ⅱ類とかあると
    かえって混乱する!

    ただの判別分析ですよ。

    ①数量化2類は判別分析である

    数量化2類は判別分析である

    結論はこれです。

    数量化2類は判別分析です!
    ならば、判別分析でいいじゃん!
    本当にそうです
    ただし、説明変数が
    計数値(質的データ)である点だけが
    判別分析と異なる
    入力データの性質が違うだけで
    解析手法は同じ

    判別分析の解析方法の復習

    判別分析は2つ解析方法があります。

    1. 線形判別関数による判別
    2. マハラビノス距離による判別

    この記事は両手法を数量化2類で解析しますので、
    ●線形判別関数の手法
    ●マハラビノス距離の手法
    をベースに解析します。

    先に関連記事で確認・復習しておきましょう。関連記事と同じデータを本記事で使います。

    線形判別関数について

    線形判別関数については、関連記事で解説していますので、先に確認してください。本記事では、線形判別関数の導出や具体的な計算ができる前提で話を進めていきます。

    線形判別関数が計算できる(2次元、その1)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    マハラビノス距離について

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    この記事のベースとなる関連記事

    判別分析で線形判別関数とマハラビノス距離を使った解析結果の比較を関連記事で解説しています。この関連記事の説明変数を質的データに変えた場合を本記事で考えます。

    マハラビノス距離と線形判別関数から判別分析ができる
    判別分析で線形判別関数、マハラビノス距離の結果の違いが説明できますか?本記事は、同じデータを使って、線形判別関数、マハラビノス距離を計算し、判別分析の結果の違いをわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ➁データ事例

    以下のデータを使って、線形判別関数とマハラビノス距離の両手法で判別分析をします。

    関連記事の場合は下表のとおりです。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 4 8 4 10
    2 6 10
    3 2 12
    2 4 10 16 7.5 13.5
    5 5 10
    6 8 12
    7 7 16
    合計 42 84 全平均 6 12

    関連記事の場合は下表のとおりですが、今回は数量化2類なので、説明変数\(x_1\),\(x_2\)を黄色マーカーのようにあえて変えてみます。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 1 1 1.333 1.333
    2 2 1
    3 1 2
    2 4 2 1 1.5 1.25
    5 1 1
    6 2 1
    7 1 2
    合計 10 9 全平均 1.429 1.286

    グラフは下図のとおりです。

    数量化2類

    ➂線形判別関数で判別分析

    線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    1.変動を計算

    実際に、全変動\(S_T\)と群間変動\(S_B\)を計算して、ラグランジュの未定乗数法を使って固有方程式を作ります。解き方の流れは関連記事に書いています。

    変動を求めるための表を作ります。

    N0 x y Z 群平均
    1 1 1 1 1\(a_1\)+1\(a_2\) 1.33\(a_1\)+1.33\(a_2\)
    2 2 1 2\(a_1\)+1\(a_2\)
    3 1 2 1\(a_1\)+2\(a_2\)
    2 4 2 1 2\(a_1\)+1\(a_2\) 1.5\(a_1\)+1.25\(a_2\)
    5 1 1 1\(a_1\)+1\(a_2\)
    6 2 1 2\(a_1\)+1\(a_2\)
    7 1 2 1\(a_1\)+2\(a_2\)
    全体の平均 1.429\(a_1\)+1.286\(a_2\)

    全変動\(S_T\)
    =\(\sum_{i=1}^{7}(Z-\bar{Z})^2\)
    =\(((1a_1+1a_2)-(1.429a_1+1.286a_2))^2\)+…
    =1.714\(a_1^2\)-1.714\(a_1 a_2\)+1.429\(a_2^2\)

    群間変動\(S_B\)
    =\(\sum_{i=1}^{3}(\bar{Z_1}-\bar{Z})^2\)+\(\sum_{i=1}^{4}(\bar{Z_2}-\bar{Z})^2\)
    =0.0486\(a_1^2\)-0.0476\(a_1 a_2\)+0.011\(a_2^2\)

    1. ラグランジュの未定乗数法から固有方程式を作る

    ラグランジュの未定乗数法から固有方程式を作ります。

    ラグランジュの未定乗数法から

    関数\(F\)を
    \(F(a_1,a_2\))=1.714\(a_1^2\)-1.714\(a_1 a_2\)+1.429\(a_2^2\)-\(λ(0.0486a_1^2 -0.0476a_1 a_2 +0.011 a_2^2)\)
    を定義して、偏微分=0の式を立てます。その後、固有方程式と流れますね。

    係数が小数で複雑なので、文字式で簡単に表記します。

    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_1} \)=\(sa_1 + ta_2)-λ(ua_1 + va_2)\)=0
    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_2} \)=\((ea_1 + fa_2)-λ(ga_1 + ha_2)\)=0

    行列表記しましょう。
    \(\left(
    \begin{array}{cccc}
    s-uλ & t-vλ \\
    e-gλ & f-hλ \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a_1 \\
    a_2\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)

    計算すると
    \(λ(6.857λ-0.190)\)=0

    よって、固有値λは
    λ=0,0.027
    となります。

    固有ベクトルを算出

    固有ベクトルから\((a,b)\)を計算します。

    固有値0のときは、固有ベクトルの成分がすべて0になるので、固有値が0.027についてのみ計算します。

    固有値0.027のとき

    固有値0のときは、
    \(\left(
    \begin{array}{cccc}
    0.09542 & -0.04762 \\
    -0.04762 & 0.02381 \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a_1\\
    a_2\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)
    より、
    ●\(2a=b\)
    となります。

    3. 線形判別関数を作る

    係数比は\(2a=b\)であり、
    7つのデータの平均を通る関数を作ればよいので、
    Z=\(x_1\)+2\(x_2\)+4
    となります。

    グラフを描くとわかりやすいですね。

    数量化2類

    ➃マハラビノス距離で判別分析

    ここまでで十分ボリューム感ある記事になりましたので、
    数量化2類がわかる(その2)で解説します。

    まとめ

    「数量化2類ができる(その1)」を解説しました。

    • 数量化2類は判別分析である(その1)
    • データ事例(その1)
    • 線形判別関数で数量化2類(判別分析) (その1)
    • ➃マハラビノス距離で数量化2類(判別分析)(その2)
    • ➄線形判別関数とマハラビノス距離の分析結果を比較(その2)

  • 数量化1類の分析ができる

    数量化1類の分析ができる

    「数量化1類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化1類の分析ができる

    おさえておきたいポイント

    • ①数量化1類は重回帰分析
    • ➁重回帰分析の解き方(復習)
    • ➂数量化1類と重回帰分析を比較
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    ①数量化1類は重回帰分析

    数量化1類は重回帰分析です。
    数量化○○とカテゴライズするから
    かえってわかりにくい!
    数量化1類と重回帰分析の違いは
    説明変数が計数値か計量値かどうかの違い
    本質は同じ
    だったら数量化1類と命名せず、
    重回帰分析でいいのにね!と思いますけど

    なので、重回帰分析を復習してから、説明変数を計量値から計数値に変えた場合の重回帰分析をします。それが数量化1類の分析なのです。

    ➁重回帰分析の解き方(復習)

    重回帰分析の復習ができる関連記事

    【まとめ】重回帰分析がよくわかる
    重回帰分析は自信もって解けますか?説明できますか? 本記事では、重回帰分析の考え方、理解すべきポイント、重回帰分析の特徴をわかりやすく解説し、公式の導出過程を詳しく解説します。公式暗記、解法暗記で終わらせずに、本質を学ぶことができます。多変量解析を学ぶ人は必読です。

    QCプラネッツは重回帰分析を17記事まとめています。リンク集から関連記事を確認ください。

    重回帰分析の回帰式が導出できる
    平方和の分解と分散分析ができる(重回帰分析)
    重回帰分析の寄与率Rがわかる
    重回帰分析と単回帰分析の比較がわかる
    重回帰分析の推定区間の式が導出できる(その1)
    重回帰分析の推定区間の式が導出できる(その2)
    偏相関係数が導出できる
    重回帰分析の多重共線性がわかる
    重回帰分析は単位に影響されない理由がわかる
    重回帰分析は単位に影響されない理由がわかる(その2)
    重回帰分析のダミー変数の使い方がよくわかる
    偏回帰係数に関する検定と推定がよくわかる
    変数増減法がよくわかる
    重回帰分析のテコ比がよくわかる(その1)
    重回帰分析のテコ比がよくわかる(その2)
    ダービンワトソン比がよくわかる

    重回帰分析の復習ポイント

    重回帰分析から数量化1類へ変化していく際に、比較するために必要な変数を復習しましょう。

    1. 平方和\(S\)
    2. 分散分析
    3. 回帰直線(切片と傾き)
    4. 寄与率\(S_R\)

    この記事では説明変数は2つとし、回帰直線
    \(y=a+bx_1 +cx_2\)
    を考えます。

    ●平方和は
    ・\(S_y\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_{2i}-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})(x_{2i}-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})(y_i-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_{2i}-\bar{x_2})(y_i-\bar{y})\)

    ●回帰直線(切片と傾き) は
    ◎傾き
    ・\(S_{11}b+S_{12}c=S_{1y}\)
    ・\(S_{12}b+S_{22}c=S_{2y}\)
    ◎切片
    \(\bar{y}=a+b \bar{x_1} +c \bar{x_2}\)

    ●寄与率\(S_R\)は
    \(S_R\)=\(b S_{1y} + c S_{2y}\)

    ➂数量化1類と重回帰分析を比較

    データを用意

    数量化1類と重回帰分析を比較するために、次の3つのデータを用意します。

    データ(type1)

    No x1 x2 y
    1 3 1 3
    2 2 4 4
    3 4 2 4
    4 4 5 7
    5 5 4 7
    6 6 2 5
    合計 24 18 30
    平均 4 3 5

    次に、説明変数\(x_1,x_2\)において、
    ●0~3⇒0
    ●4~6⇒1
    という基準を設けてダミー変数化して
    重回帰分析します。

    データ(type2)は、説明変数\(x_1\)のみ
    データ(type3)は、説明変数\(x_1,x_2\)両方
    とします。

    データ(type2)

    No x1 x2 y
    1 0 1 3
    2 0 4 4
    3 1 2 4
    4 1 5 7
    5 1 4 7
    6 1 2 5
    合計 4 18 30
    平均 0.67 3 5

    データ(type3)

    No x1 x2 y
    1 0 0 3
    2 0 1 4
    3 1 0 4
    4 1 1 7
    5 1 1 7
    6 1 0 5
    合計 4 3 30
    平均 0.67 0.5 5

    分析結果を比較

    平方和、分散分析、回帰直線、寄与率を比較しますが、

    数量化1類も重回帰分析も
    同じ解き方です。

    平方和

    平方和 データ(type1) データ(type2) データ(type3)
    \(S_{11}\) 10 68 68
    \(S_{1y}\) 6 3 3
    \(S_{12}\) -1 -1 50
    \(S_{22}\) 12 12 39
    \(S_{2y}\) 10 10 3
    \(S_{yy}\) 14 14 14

    上表のマーカー部ですが、説明変数\(x_i\)の値が
    変化したところの平方和が変化していますね。

    分散分析

    データ(type1) データ(type2) データ(type3)
    平方和S 自由度φ 平方和S 自由度φ 平方和S 自由度φ
    回帰R 13.042 2 12.089 2 12.75 2
    残差e 0.958 3 1.911 3 1.25 3
    計T 14 5 14 5 14 5

    データtype1から3にかけて、回帰平方和に若干の差が出ていますが、
    総平方和は不変であることがわかりますね。

    回帰直線

    定数項 \(x_1\)の係数 \(x_2\)の係数
    データ(type1) -0.429 0.689 0.891 \(y=\)-0.429+0.689\(x_1\)+0.891\(x_2\)
    データ(type2) 1.778 1.733 0.689 \(y=\)1.778+1.733\(x_1\)+0.689\(x_2\)
    データ(type3) 2.5 2.25 2 \(y=\)2.5+2.25\(x_1\)+2\(x_2\)

    それぞれのケースで若干値が変わっていますね。

    寄与率

    寄与率R
    データ(type1) 0.932
    データ(type2) 0.863
    データ(type3) 0.911

    数量化1類の分析ができましたね!

    まとめ

    「数量化1類の分析ができる」を解説しました。

    • ①数量化1類は重回帰分析
    • ➁重回帰分析の解き方(復習)
    • ➂数量化1類と重回帰分析を比較

  • コレスポンデンス分析ができる

    コレスポンデンス分析ができる

    「コレスポンデンス分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    コレスポンデンス分析ができる

    おさえておきたいポイント

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    コレスポンデンス分析は
    各欄の値が0以上の整数において
    相関係数の最大化する条件を求めるもの
    コレスポンデンス分析は
    数量化3類と数量化4類の解法を合体させたものと
    理解しよう!

    ①コレスポンデンス分析とは

    コレスポンデンス分析とは

    簡単にいうと

    数量化3類の拡張版で
    カテゴリーを数量化と重みづけしたもの。
    重みづけは数量化4類の解法をベースに理解しよう!
    数量化3類と数量化4類の解法を応用したもの

    なので、数量化3類と数量化4類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化4類の分析ができる
    数量化4類の分析ができますか? 本記事では主成分分析、数量化3類の解法をベースに数量化4類の解法をわかりやすく解説します。ツールに頼らず、手計算でできる内容でまとめていますので、早く理解できます。多変量解析を学ぶ人は必読です。

    ➁コレスポンデンス分析の解き方

    解法手順

    では、コレスポンデンス分析の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!
    重みづけデータがあるのは数量化4類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これをコレスポンデンス分析で分析しましょう。

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    ここで、表の意味を説明します。

    (\(a_i\),\(b_j\))においては、その点数が指定されています。
    数量化3類は点数はなく、すべての(\(a_i\),\(b_j\))が1または0(空欄)でしたね。
    1以上の整数が入るのが、コレスポンデンス分析と数量化3類との違いです。

    その中で、表全体の相関係数が最大にとなる条件を考えます。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+3a_2+3a_3}{8}\)=0
    ●\(\bar{b}\)=\(\frac{4b_1+b_2+3b_3}{8}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{8}\frac{(a_i-\bar{a})^2}{8}\)=\(\sum_{i=1}^{8}\frac{a_i}{8}\)
    =\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{8}\frac{(b_i-\bar{b})^2}{8}\)=\(\sum_{i=1}^{8}\frac{b_i}{8}\)
    =\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1

    まとめると、

    \(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    \(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    解法は数量化3類と全く同じです。

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+3a_2^2+3a_3^2)\)=8
    ●\(S_b\)=\((4b_1^2+b_2^2+3b_3^2)\)=8

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{8} (a_i-\bar{a})(b_i-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)-1=0
    ●\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{8}(b_2+b_3)-\frac{λ_1}{2} \frac{4a_1}{8}\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{8}(b_1+2b_3)- \frac{λ_1}{2} \frac{6a_2}{8}\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{8}(3b_1)- \frac{λ_1}{2} \frac{6a_3}{8}\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{8}(a_2+3a_3)- \frac{λ_2}{2} \frac{8b_1}{8}\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{8}(a_1)- \frac{λ_2}{2} \frac{2b_2}{8}\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{8}(a_1+2a_2)- \frac{λ_2}{2} \frac{6b_3}{8}\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    (\(a_1 b_2 + a_1 b_3 – 2λ_1 a_1^2\))+(\(a_2 b_1 + 2a_2 b_3 – 3λ_1 a_2^2\))+(\(3a_3 b_1 – 3λ_1 a_3^2\))=0
    \((a_1 b_2 + a_1 b_3+ a_2 b_1 + 2a_2 b_3+3a_3 b_1)\)-\(λ_1(2a_1^2+3 a_2^2+3 a_3^2)\)=0
    \(8r -8λ_1\)=0
    より、
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    (\(a_2 b_1 +3 a_3 b_1 – 4λ_2 b_1^2\))+(\(a_1 b_2 – λ_2 b_2^2\))+(\(a_1 b_3 +2a_2 b_3 – 3λ_2 b_3^2\))=0
    \((a_2 b_1 +3 a_3 b_1+ a_1 b_2 + a_1 b_3 +2a_2 b_3)\)-\(λ_2(4b_1^2+b_2^2+3 b_3^2)\)=0
    \(8r -8λ_2\)=0
    より、
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +2b_3}{3λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + 2b_3}{3λ}+\frac{3b_1}{λ}\)-\(4λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\(\frac{b_2 + b_3}{2λ}+\frac{2b_1+4b_2}{3λ}\)-\(3λb_3\)=0 …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{vmatrix}\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおいて、行列式を解くと、
    \(λ^2=t\)(\(t\) ≥ 0)
    \((10-12t)(1-2t)(3-18t)\)+0・1・4+2・0・11-2・\((1-2t)\)・4-0・0・\((3-18t)\)-\((10-12t)\)・1・11=0

    \(54t^3-81t^2+16t+11\)=0
    \((t-1)(54t^2-27t-11)\)=0
    より、
    \(t\)=1,-0.2659,0.766

    \(t\) ≥ 0より、
    \(t\)=1,0.766

    数量化3類でありましたように、
    \(t\)=1は相関係数が1となるので、特例として扱わないとします。

    よって、
    \(t\)=0.766
    \(λ\)=0.875
    の1つだけとなります。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が1つ(\(λ\)=0.875)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=0.875のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.808 & 0 & 2 \\
    0 & -0.532 & 1 \\
    4 & 11 & -10.788
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.758 \\
    0.575\\
    0.306
    \end{array}
    \right)
    \)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=0.504
    \(a_2\)=\(\frac{b_1+2b_3}{3λ}\)=0.150
    \(a_3\)=\(\frac{b_1}{λ}\)=-0.866
    \(r\)=\(λ\)=0.875

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=0.575, \(b_3\)=0.306, \(b_1\)=-0.758
    ●\(a_1\)=0.504, \(a_2\)=0.150, \(a_3\)=-0.866
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    から下表に変化します。

    データ \(b_2\) \(b_3\) \(b_1\)
    \(a_1\) 1 1 0 2
    \(a_2\) 0 2 1 3
    \(a_3\) 0 0 3 3
    1 3 4 8

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これがコレスポンデンス分析で実施したいことです。

    コレスポンデンス分析は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    数量化3類と数量化4類の応用した解法ですね!

    コレスポンデンス分析の分析ができましたね!

    まとめ

    「コレスポンデンス分析ができる」を解説しました。

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化4類の分析ができる

    数量化4類の分析ができる

    「数量化4類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化4類の分析ができる

    おさえておきたいポイント

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化4類のネーミングより
    解法を理解しよう!

    ①数量化4類とは

    数量化4類とは

    簡単にいうと

    互いの親近性から関係を数量化するもの
    数量化3類に親近度の重みづけをしたもの
    数量化3類の解法を応用したもの

    なので、数量化3類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化4類の解き方

    解法手順

    では、数量化4類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 距離の平方和が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!
    数量化4類は
    親近度の重みづけが
    数量化3類の解法から
    追加されます。

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化4類で分析しましょう。

    親近度 \(S_1\) \(S_2\) \(S_3\)
    \(S_1\) 1 2
    \(S_2\) 0 1
    \(S_3\) 3 0

    ここで、表の意味を説明します。

    \(S_i\)と\(S_j\)の親近度は
    ●\(S_i\)にとっての\(S_j\)の親近度\(T_{ij}\)と
    ●\(S_j\)にとっての\(S_i\)の親近度\(T_{ji}\)が
    それぞれあるので、
    \(T_{ij}\)≠\(T_{ji}\)
    も十分起こりえます。この点に注意しましょう。

    その中で、\(S_i\)と\(S_j\)の距離を
    \(x_i\)と\(x_j\)を使って表現し、その距離の平方和Qを考えます。

    Qの式が親近度の重みづけが入る点が
    数量化3類の解法と違って
    数量化4類の解法なのです。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{x}\)=\(\frac{x_1+x_2+x_3}{3}\)=0

    分散V

    ●\(V\)=\(\sum_{i=1}^{3}\frac{(x_i-\bar{a})^2}{3}\)=\(\sum_{i=1}^{3}\frac{x_i}{3}\)
    =\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1

    まとめると、

    \(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1
    後で使う式となります。

    ➃解法2. 距離の平方和が最大になる条件を求める

    距離の平方和Qを計算

    距離の平方和Qは
    Q=1×\((x_1 -x_2)^2\)+2×\((x_1 -x_3)^2\)+0×\((x_2 -x_1)^2\)
    +1×\((x_2 -x_3)^2\)+3×\((x_3 -x_1)^2\)+0×\((x_3 -x_2)^2\)
    =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    Q =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(x\)の制約条件は、分散の式から
    ●\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)-1=0

    関数Fを下式で定義します。

    F=Q-\(\frac{λ}{3}( x_1^2+x_2^2+x_3^2-3)\)

    F,Qが最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial x_1}\)=\(2(x_1 – x_2)+4(x_1 -x_3)-6(x_3 – x_1)-\frac{2}{3}λx_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial x_2}\)=\(-2(x_1 – x_2)+2(x_2 -x_3)-\frac{2}{3}λx_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial x_3}\)=\(-4(x_1 – x_3)-2(x_2 -x_3)+6(x_3 – x_1)-\frac{2}{3}λx_3\)=0 …➂

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~➂の式を整理していきます。

    式を整理

    ①➁➂式を整理すると
    ●\(6x_1 -6x_2 -5x_3 – \frac{1}{3}λx_1\)=0
    ●\(-x_1 +2x_2 -x_3 – \frac{1}{3}λx_2\)=0
    ●\(-5x_1 -x_2 +6x_3 – \frac{1}{3}λx_3\)=0

    固有方程式が結果的にできる

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\frac{1}{3}λ\)=\(a\)と置きます。

    \(\left(
    \begin{array}{cccc}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{vmatrix}\)

    行列式を解くと、
    \((6-a)(2-a)(6-a)\)+(-6)(-1)(-5)+(-5)(-1)(-1)
    -(-5)\((2-a)\)(-5)-(6)(-1)\((6-a)\)-\((6-a)\)(-1)(-1)=0

    3次方程式をまとめると
    \(a^3-14a^2+28a+55\)=0
    実は、因数分解できます!
    \((a-11)(a^2-3a-5)\)=0

    よって\(a\)は
    \(a\)=\(\frac{1}{3}λ\)=11,\(\frac{3±\sqrt{29}}{2}\)
    つまり、
    \(λ\)=33,12.576,-3.579
    が得られます。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=33,12.576,-3.579)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=33のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -5 & -6 & -5 \\
    -1 & -9 & -1 \\
    -5 & -1 & -5
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.707 \\
    0 \\
    -0.707
    \end{array}
    \right)
    \)
    となります。

    固有値\(λ\)=12.576のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.808 & -6 & -5 \\
    -1 & -2.192 & -1 \\
    -5 & -1 & 1.808
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0.380 \\
    -0.521 \\
    0.764
    \end{array}
    \right)
    \)

    固有値\(λ\)=-3.579のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    7.193 & -6 & -5 \\
    -1 & 3.193 & -1 \\
    -5 & -1 & 7.193
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.725 \\
    0.402 \\
    0.559
    \end{array}
    \right)
    \)
    となります。

    固有ベクトルからわかること

    解析結果をまとめると下表になり、その関係性を数直線に描いてみましょう。

    \(λ\)=33 \(λ\)=12.576 \(λ\)=-3.579
    \(x_1\) 0.707 0.38 0.725
    \(x_2\) 0 -0.521 0.402
    \(x_3\) -0.707 0.764 0.559

    数量化4類

    どうでしょうか?
    数量化4類で分析すると、親近度の関係性が見えてきます。あとは、これをどう分析に使うかを考えていけばよいのです。

    数量化4類は
    数量化3類と同じ解法で重みづけを加えて
    距離の平方和が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析、数量化3類と同じ解法の流れになりますね!

    数量化4類の分析ができましたね!

    まとめ

    「数量化4類の分析ができる」を解説しました。

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化3類の分析ができる

    数量化3類の分析ができる

    「数量化3類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化3類の分析ができる

    おさえておきたいポイント

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化3類のネーミングより
    解法を理解しよう!

    ①数量化3類とは

    数量化3類とは

    簡単にいうと

    縦と横の表項目を
    相関性の高い順に並び替える

    下右図のように相関性が高い順に並び替えると、ある一定の並び方が見えやすくするのが、数量化3類の解析目的です。

    数量化3類

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化3類の解き方

    解法手順

    では、数量化3類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化3類で分析しましょう。

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+2a_2+a_3}{5}\)=0
    ●\(\bar{b}\)=\(\frac{2b_1+b_2+2b_3}{5}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{5}\frac{(a_i-\bar{a})^2}{5}\)=\(\sum_{i=1}^{5}\frac{a_i}{5}\)
    =\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{5}\frac{(b_i-\bar{b})^2}{5}\)=\(\sum_{i=1}^{5}\frac{b_i}{5}\)
    =\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1

    まとめると、

    \(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    \(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+2a_2^2+a_3^2)\)=5
    ●\(S_b\)=\((2b_1^2+b_2^2+2b_3^2)\)=5

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{5} \sum_{j=1}^{5}(a_i-\bar{a})(b_j-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)-1=0
    ●\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{5}(b_2+b_3)-\frac{2λ_1}{5}a_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{5}(b_1+b_3)-\frac{2λ_1}{5}a_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{5}(b_1)-\frac{λ_1}{5}a_3\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{5}(a_2+a_3)-\frac{2λ_2}{5}b_1\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{5}(a_1)-\frac{λ_2}{5}b_2\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{5}(a_1+a_2)-\frac{2λ_2}{5}b_3\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    \(\frac{1}{5}(a_1 b_2+a_1 b_3 -2λ_1 a_1^2)\)+\(\frac{1}{5}(a_2 b_1+a_2 b_3 -2λ_1 a_2^2)\)+\(\frac{1}{5}(a_2 b_1 -λ_1 a_3^2)\)=0
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_2}{5}(2b_1^2+b_2^2+2b_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +b_3}{2λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + b_3}{2λ}-2λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\((\frac{b_2 + b_3}{2λ}+\frac{b_1 + b_3}{2λ})-2λb_3\)= …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{vmatrix}\)=0

    行列式を解くと、
    \((\frac{3}{2}-2λ^2)(\frac{1}{2}-λ^2)(1-2λ^2)\)-\(\frac{1}{4}(\frac{1}{2}-λ^2)\)-\(\frac{1}{4}(\frac{3}{2}-2λ^2)\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおくと、
    \(16t^3-28t^2+13t-1\)=0
    \((t-1)(t-\frac{3-\sqrt{5}}{8})( t-\frac{3+\sqrt{5}}{8})\)=0
    \(t\)=1,0.6545,0.0955
    \(λ\)=1,0.809,0.309 (\(λ\)も正についてのみ考えます。)

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=1,0.809,0.309)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=1のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -0.5 & 0 & 0.5 \\
    0 & -0.5 & 0.5 \\
    0.5 & 0.5 & -1
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(b_1\)=\(b_2\)=\(b_3\)
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=\(b_1\)
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=\(b_1\)
    \(a_3\)=\(\frac{b_1}{λ}\)=\(b_1\)
    より、
    \(a_1\)=\(a_2\)=\(a_3\)=\(b_1\)=\(b_2\)=\(b_3\)
    \(r\)=1

    たしかに、全部値が同じなら相関係数1ですよね。
    ただ、これは異例なので、相関係数1以下を調べてみましょう。

    固有値\(λ\)=0.809のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.191 & 0 & 0.5 \\
    0 & -0.154 & 0.5 \\
    0.5 & 0.5 & -0.309
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -2.617 \\
    3.236 \\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=2.618
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=-0.999
    \(a_3\)=\(\frac{b_1}{λ}\)=-3.234
    \(r\)=\(λ\)=0.809

    固有値\(λ\)=0.309のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.31 & 0 & 0.5 \\
    0 & 0.405 & 0.5 \\
    0.5 & 0.5 & 0.809
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.382\\
    -1.237\\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=-0.385
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=1.000
    \(a_3\)=\(\frac{b_1}{λ}\)=-1.236
    \(r\)=\(λ\)=0.309

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=3.236, \(b_3\)=1, \(b_1\)=-2.617
    ●\(a_1\)=2.618, \(a_2\)=-0.999, \(a_3\)=-3.234
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    から下表に変化します。

    カテゴリー 1 2 3
    サンプル \(b_2\) \(b_3\) \(b_1\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_3\)) (\(a_2,b_1\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    1 2 2 5

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これが数量化3類で実施したいことです。

    数量化3類は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析と同じ解法の流れになりますね!

    数量化3類の分析ができましたね!

    まとめ

    「数量化3類の分析ができる」を解説しました。

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 【重要】クラスター分析できる

    【重要】クラスター分析できる

    「クラスター分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    クラスター分析できる

    おさえておきたいポイント

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    クラスタ―分析を
    最短距離法、最長距離法、群平均法の3手法の
    違いを理解しながらマスターできる!
    クラスタ―分析を
    マスターできる最強の記事です。

    ①クラスター分析とは

    データをクラスターで分ける

    文字のとおり、データ群をある規模のクラスターで分類することですね。下図のようなイメージが簡単にできますよね!

    クラスター分析

    ここで問題になるのが

    どうやってクラスタ―に分類するの?

    クラスター分析の主な2つの手法

    よくあるのが、

    1. 階層的方法(手計算で考えて解く方法)←これを解説!
    2. 非階層的方法(計算機で解く方法)

    本来は、非階層的方法で、計算機とプログラムを使って解きたいですが、
    何を解いているかがわからないので、手計算で理解できる階層的方法を使ってクラスター分析を理解しましょう。

    ➁最短距離法、最長距離法、群平均法とは

    階層的方法はさらに3つの方法に分類できます。
    比較しながら3手法をマスターしましょう!

    1. 最短距離法(最も基本的)
    2. 最長距離法
    3. 群平均法

    まずは、最短距離法でクラスター分類して、結果を可視化して納得いけばいいですが、
    結果がいまいちな場合は、最長距離法、群平均法を使っていきます。

    結果の吟味は我々人間がやります!

    最短距離法

    クラスターに含まれる対象の対の中で、最短距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(min(d(C_i,C_k),d(C_j,C_k))\)

    「min」から最短とわかればOKです。

    最長距離法

    クラスターに含まれる対象の対の中で、最長距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(max(d(C_i,C_k),d(C_j,C_k))\)

    「max」から最長とわかればOKです。

    群平均法

    最短でも最長でもなく、平均的な値で定義したい場合に使います。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(\frac{n_i ×d(C_i,C_k)+n_j ×d(C_j,C_k)}{n_i + n_j}\)

    「平均」を計算しているとわかればOKです。

    ➂クラスター分析の解法

    共通の解き方(最短距離法、最長距離法、群平均法)

    クラスター分析は3つの手法を比較しながら、まとめて解くと、
    統一した解き方が理解できます! 解説しますね!

    おさえておきたい解き方

    3つのステップがあります。

    1. 全手法とも、最初は最短距離なペアでクラスターを作る
    2. 手法別にクラスター間距離を計算
    3. クラスターを合体

    の3ステップを全データが分類し終わるまで繰り返します。

    クラスター分析

    特に注意が必要なのは、

    最長距離法、群平均法でも、最初は最短距離なペアを見つける点に注意しましょう。

    では、実際に解いてみましょう。

    データ事例

    【事例】
    5つのデータがあり、それぞれの距離がわかっている。
    (1)最短距離法
    (2)最長距離法
    (3)群平均法
    を使って、それぞれクラスター分析せよ。
    A B C D E
    A
    B 31.6
    C 20 51
    D 31.6 28.3 42.4
    E 31.6 63.2 14.1 56.6

    ➃最短距離法、最長距離法、群平均法を比較しながら解く

    分類は3回実施しますので、丁寧に解説します。

    分類1回目

    1回目step1

    最短距離なペアを見つけましょう。
    CとEの14.1が最短ですね。見ればわかる!

    クラスター分析

    1回目step2

    CEが1つのクラスターになったので、
    ●AとCEクラスター
    ●BとCEクラスター
    ●DとCEクラスター
    との距離を最短距離法、最長距離法、群平均法で解きます。

    クラスター分析

    ●最短距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から20を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から51を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 42.4を選択

    ●最長距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から31.6を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から63.2を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 56.6を選択

    ●群平均では、
    ・AとCEクラスター⇒ 黄色の20と31.6から平均1/2×(20+31.6)=25.8を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から平均1/2×(51+63.2)=57.1を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から平均1/2×(42.4+56.6)=49.5を選択

    1回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで1回目が終了です。3手法の違いが見えましたね。2回目も同様に解けます!

    分類2回目

    2回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、A-CE間の20
    ●最長距離法では、B-D間の28.3
    ●群平均法では、A-CE間の25.8
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    2回目step2

    ●最短距離法では、ACEクラスターとB,Dとの距離
    ●最長距離法では、AとCEクラスターとBDクラスターとの距離
    ●群平均法では、ACEクラスターとB,Dとの距離
    との距離を最短距離法、最長距離法、群平均法で解きます。
    ここが一番難しい所ですが、頑張って乗り越えましょう!

    クラスター分析

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色の31.6と51から31.6を選択
    ・ACEクラスターとD⇒ 緑色の31.6と42.4から31.6を選択

    ●最長距離法では、
    ・AとBDクラスター⇒ 灰色の31.6と31.6から31.6を選択
    ・BDクラスターとCEクラスター⇒ 紫色の63.2と56.6から63.2を選択

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色から1/3×31.6+2/3×57.1=48.6を選択
    ・ACEクラスターとD⇒ 緑色の1/3×31.6+2/3×49.5=43.5を選択

    2回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで2回目が終了です。3手法の違いが見えましたね。3回目も同様に解けます!

    分類3回目

    3回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、B-D間の28.3
    ●最長距離法では、A-CE間の31.6
    ●群平均法では、B-D間の28.3
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    で、ここで、分類が完了したので、結果を比較すると

    クラスター分析

    となりました。手法間で結果が異なりますが、実データと比較してどれを使うかを吟味すればOKです。

    計算結果をPDFにまとめています。見やすいので、こちらも活用ください。

    クラスター分析ができましたね!

    まとめ

    「クラスター分析ができる」を解説しました。

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く

  • 【まとめ】因子分析がわかる

    【まとめ】因子分析がわかる

    「因子分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【まとめ】因子分析がわかる

    おさえておきたいポイント

    • ①因子分析は難しい
    • ➁因子分析とは/li>
    • ➂関連記事の紹介
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①因子分析は難しい

    ブログ記事化するのに一番時間がかかった

    QCプラネッツは、正直困りました。
    「因子分析を記事にするまでとても時間がかかりました」
    数週間記事化できなかったですね。

    苦労話を少し紹介します。

    因子分析の難しさ

    一番困ったのは

    因子分析の意図が見えない。。。

    そりゃ、解き方くらいはさっとわかりますが、
    何で、こう解くのか? 何を求めたいのか?
    いくつか定義する仮定の意味がわからない
    共通因子を見つけても意味がわからない
    などなど

    その中で、
    手計算で解きながら、解法の意味を理解できる解説ブログにしたい!
    その思いでQCプラネッツをずっとやってきた!
    そのために、どこから攻めたらいいか?

    因子分析が理解しやすい本

    まず、シンプルなモデルで手計算ができるところから解説したい思いがあり、その思いに合う教科書から入りました。いくつか紹介します。

    その次は、データを使って実際に解析したい思いがあり、次の本を参考にしています。

    などの、本を集めて、QCプラネッツが1つの解法ですべてわかるように交通整理して記事を書き始めました。

    本がいくつかあると、著者のくせがそれぞれちがいので
    味付けを1つに統一してブログ化しています。

    ➁因子分析とは

    因子分析とは

    簡単に言うと

    因子分析はデータを構成する元を見つけるもの

    因子分析

    データを

    (データ)=(係数)×(データの元)+(誤差)

    に分ける分析で、
    ●(係数)⇒因子負荷量
    ●(データの元)⇒共通因子
    と呼んでいます。

    (データ)自身の分散を使って、
    ●(係数)
    ●(データの元)
    ●(誤差)
    に分解します。

    因子分析の注意点

    因子分析を実施する際、いくつか注意点があります。

    1. データは必ず標準化(平均0,標準偏差1)にする
    2. 変数間は独立(共分散はすべて0)とする
    3. 因子負荷量、誤差成分を求める方程式には自由度が余るため解の精度が粗い
    4. 解くためにSMC法などのいくつかモデルを仮定している
    5. 共通因子を抽出しても何を意味するかは人間が考える必要がある
    因子分析は注意して解かないと、
    トンチンカンな結果を招くだけ
    因子分析より主成分分析の方がわかりやすい

    因子分析に関する関連記事を次に紹介します。

    ➂関連記事の紹介

    因子分析手法で説明をいくつか省いた

    因子分析には、
    主因子法
    バリマックス回転
    などの代表的な手法がありますが、
    QCプラネッツではあえて、解説しないことにしました。

    因子分析の解き方を一番理解していただきたいので
    因子分析の原理が理解できる所のみ解説しています。

    因子分析を解説した教科書等を研究して、
    難しい因子分析を手計算で理解できるにはどうしたらよいか?
    他の多変量解析と比較しやくして、理解しやすくするにはどうしたらよいか?
    を最優先にブログを構築しました。

    因子分析の解き方が知りたいより
    因子分析から何がわかるのか?の目的を手に入れたい!

    以下、関連記事を紹介します。順を追って読んでいけば、
    手計算で因子分析ができるようになり、意味が理解できるようになります。

    関連記事を紹介

    1因子モデルで解き方をマスターしよう!

    2記事にわたり、因子分析の解法の根幹を理解しましょう。1記事目は数式で理解し、2記事目は実データを使って計算します。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    因子分析の1因子モデルが計算できる
    因子分析が計算できますか? 本記事では、因子分析の最も基本的な1因子モデルにおける計算方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    2因子モデルで解き方をマスターしよう!

    2記事にわたり、2因子モデルにおける因子分析の解法の根幹を理解しましょう。1記事目は数式で理解し、2記事目は実データを使って計算します。

    2因子モデルが理解できたら多因子モデルも同様に解けます。ただし、数値解析的な解しか出せない因子分析の限界なところも理解できますね。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    因子分析の2因子モデルが計算できる
    因子分析が計算できますか? 本記事では、因子分析で重要な2因子モデルにおける計算方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    主成分分析と因子分析の違いを解法モデルからマスターしよう!

    主成分分析と因子分析はよく、比較されますが、一般的な説明では理解できません。そこで、上の関連記事とQCプラネッツオリジナルの主成分分析記事から、両者の違いをわかりやすく解説します。

    主成分分析と因子分析の違いがわかる
    主成分分析と因子分析の違いが説明できますか? 本記事では、理解しにくい教科書的な説明より、分析手法がイメージできるように、わかりやすく2つの分析手法の違いを解説します。多変量解析を学ぶ人は必読です。

    5つの関連記事を読めば、
    因子分析の解法はよく理解できますが、
    因子分析の難しさも理解できるはずです。

    QCプラネッツ個人は、データの元を調べたいなら
    わかりやすいし、解の精度の高い
    主成分分析の方で行くでしょう。

    まとめ

    「【まとめ】因子分析がわかる」を解説しました。

    • ①因子分析は難しい
    • ➁因子分析とは/li>
    • ➂関連記事の紹介

  • 主成分分析と因子分析の違いがわかる

    主成分分析と因子分析の違いがわかる

    「主成分分析と因子分析の違いがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    主成分分析と因子分析の違いがわかる

    おさえておきたいポイント

    • ①一般的な説明
    • ➁QCプラネッツの説明
    • ➂主成分分析とは
    • ➃因子分析とは
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    主成分分析も因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①一般的な説明

    教科書の説明

    よく教科書で次のように違いを説明していますよね。

    主成分分析と因子分析

    この表の良い所は、

    1. 主成分分析と因子分析が同じ図で矢印の向きの違いで説明できる
    2. 主成分、共通因子と係数で2つの分析ができる

    なんですが、実際に両方の分析を解けるようになると、
    違和感があります。

    教科書の説明では理解できない

    主成分分析の説明図はOKですが、
    因子分析側の説明図では違和感があります。

    主成分分析と因子分析

    この図では、

    1. 「主成分分析はデータ群から主成分を抽出し、
      主成分はデータ群が決める!」⇒理解できる!
    2. 「因子分析は、私たちが勝手に共通因子を決めて、データ群を構成する」⇒と見えてしまい、違和感がある

    因子分析は、共通因子fからデータに矢印があるので、
    主成分分析との違いを意識すると
    主成分分析はデータが主成分(方向)を決める
    対して、因子分析は、共通因子がデータを決める
    の違いがあるように見えてしまいます。

    実際に分析すると、
    因子分析もデータが共通因子を決める分析です。

    ➁QCプラネッツの説明

    分析方法が理解しやすい比較図を作る

    実際に2つの分析方法を解いてみると、

    主成分分析はデータが主成分(方向)を決める
    ⇒主成分方向である新たな座標軸を作るのが主成分分析!

    因子分析はデータが共通因子を決める
    ⇒共通因子は(データを誤差で割り、因子負荷量で割るので)
    \(\frac{データ-誤差}{因子負荷量}\)の式から見ると、
    データをある意味標準化したもの
    データの元(元こそ共通因子)を見つけるのが因子分析!

    まとめると、

    1. 主成分分析は軸方向を抽出するもの
    2. 因子分析はデータを構成する元を見つけるもの

    QCプラネッツが考える両手法のイメージ図は下図となります。

    主成分分析と因子分析

    結論は、

    主成分分析と因子分析は
    全く別物で比較して意味が無い

    ➂主成分分析とは

    主成分分析とは

    データ群は群がっていますが、ある方向に情報量が集まっていることが分かっています。
    ●各データと平均間のベクトルと
    ●主成分方向
    の内積を使って、その2乗和の最大となる条件式を作ります。

    その条件式を解くと、
    固有方程式ができるため、
    主成分分析=固有方程式
    とよく認識されています。

    この固有方程式を解くと、
    変数の個数だけ、主成分方向と、寄与率が出て来ますね。

    寄与率や固有値が大きい順に並べて分析するのが主成分分析です。

    詳細は関連記事で

    ざっと主成分分析の概要を説明しましたが、詳細は関連記事にあります。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    ➃因子分析とは

    因子分析とは

    因子分析は、データ群から、そのデータを構成する元(共通因子)をみつけるものです。

    簡単なモデル式を書くと
    (共通因子)=\(\frac{データ-誤差}{因子負荷量}\)
    から、誤差と、因子負荷量を見つけて、計算できます。
    \(z=\frac{x-\bar{x}}{σ}\)のイメージですね。

    誤差と因子負荷量は、変数の分散、共分散から、計算して求めます。
    データ群が作る分散・共分散から共通因子が計算できるため、
    ●共通因子⇒データ
    ではなく、
    ●データ⇒共通因子
    と考えるべきです。

    詳細は関連記事で

    ざっと因子分析の概要を説明しましたが、詳細は関連記事にあります。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    まとめ

    「主成分分析と因子分析の違いがわかる」を解説しました。

    • ①一般的な説明
    • ➁QCプラネッツの説明
    • ➂主成分分析とは
    • ➃因子分析とは

  • 因子分析の2因子モデルが計算できる

    因子分析の2因子モデルが計算できる

    「因子分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    因子分析の2因子モデルが計算できる

    おさえておきたいポイント

    • ①2因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂因子負荷量を計算
    • ➃共通因子と誤差を計算
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    この記事では、導出過程はすでに関連記事で解説しています。先に確認ください。導出過程を見ながら本記事では実際に計算して解いていきます。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    ①2因子モデルを式で表現

    下表のように、例えば、あるデータがあり、変数x,y,zがあるとしましょう。

    No A B C
    1 30 58 54
    2 60 50 60
    3 40 60 55
    4 80 32 68
    5 56 70 71
    6 65 54 76
    7 22 28 30
    8 100 72 96
    9 65 80 88
    10 32 46 52
    550 550 650
    平均 55 55 65
    標準偏差 23.12 15.93 18.15

    このデータを、
    主成分分析のように、2つの共通変数F、Gに集約できなか?
    を考えます。

    つまり式と図で表現すると、
    \(
    \left(
    \begin{array}{c}
    x_i \\
    y_i \\
    z_i
    \end{array}
    \right)
    \)=\(F_i\)\(
    \left(
    \begin{array}{c}
    a_{x}\\
    a_{y}\\
    a_{z}
    \end{array}
    \right)
    \)+\(G_i\)\(
    \left(
    \begin{array}{c}
    b_{x}\\
    b_{y}\\
    b_{z}
    \end{array}
    \right)
    \)+\(
    \left(
    \begin{array}{c}
    e_{xi}\\
    e_{yi}\\
    e_{zi}
    \end{array}
    \right)
    \)

    各値を共通因子と誤差に相当する独自因子に分割します。

    因子分析

    式と図から、

    因子分析

    ●定数である因子負荷量\(a,b\)
    ●変数である共通因子F,G
    ●変数である誤差でもある独自因子e
    にわけて、
    ●変数である共通因子F,Gに意味を持たせる
    をやるのが因子分析です。

    データを標準化

    因子分析はモデル式から分散・共分散を導出するときに、データの標準化が必須です。先にデータを標準化しましょう。

    標準化は\(z\)=\(\frac{x-\bar{x}}{σ}\)です。

    No A B C
    1 -1.08 0.19 -0.61
    2 0.22 -0.31 -0.28
    3 -0.65 0.31 -0.55
    4 1.08 -1.44 0.17
    5 0.04 0.94 0.33
    6 0.43 -0.06 0.61
    7 -1.43 -1.69 -1.93
    8 1.95 1.07 1.71
    9 0.43 1.57 1.27
    10 -0.99 -0.56 -0.72
    0 0 0
    平均 0 0 0
    標準偏差 1 1 1

    また、分散・共分散も計算すると以下のとおりです。

    \(s_x\) \(s_y\) \(s_z\)
    分散 1 1 1
    \(s_{xy}\) \(s_{yz}\) \(s_{xz}\)
    共分散 0.371 0.732 0.874

    ➁モデル式から分散・共分散を導出

    詳細な導出は関連記事で

    分散・共分散の導出過程も関連記事で解説しています。先にご確認ください。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    結果まとめ

    分散と共分散の結果は以下のとおりになります。

    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    から、\(a_○\),\(b_○\)を計算すればOKですが、

    1因子モデルと違って
    手計算はかなりキツイ。。。

    なので、最小二乗法を活用してExcelで計算します。

    ➂因子負荷量を計算

    SMC法から因子負荷量の2乗和を計算

    相関係数行列\(R\)の逆行列の\(ii\)要素を\(r^{ii}\)として、
    \(h_i^2\)=1-\(\frac{1}{r^{ii}}\)
    \(h_i^2\)=\(a_i^2\)+\(b_i^2\)
    \(V(e_i)\)=1-\(h_i^2\)
    の関係式を使って計算する方法です。この理論の背景は現在調査中です。分かり次第報告します。

    因子負荷量を最小二乗法から計算

    SMC法を使って
    ●\(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    ●\(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    ●\(h_z^2\)=\(a_z^2\)+\(b_z^2\)
    から、求めます。

    \(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    \(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    \(h_z^2\)=\(a_z^2\)+\(b_z^2\)

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    ここで、\(Q\)を
    \(Q\)=\(((a_x^2+b_x^2)-h_x^2)^2\)
    +\(((a_y^2+b_y^2)-h_y^2)^2\)
    +\(((a_z^2+b_z^2)-h_z^2)^2\)
    +2\((( a_x a_y+ b_x b_y)- r_{xy}^2)^2\)
    +2\((( a_y a_z+ b_y b_z)- r_{yz}^2)^2\)
    +2\((( a_x a_z+ b_x b_z)- r_{xz}^2)^2\)
    と定義して、この\(Q\)が最小値(なるべく0)となる場合を
    Excelで計算してもらいます。

    最小二乗法の計算をExcelに託す

    \(Q\)の式を行列表記します。

    \(Q\)=\((\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{xy} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)\)
    -\(\left(
    \begin{array}{cccc}
    a_x^2+b_x^2 & a_x a_y+ b_x b_y & a_x a_z+ b_x b_z \\
    a_x a_y+ b_x b_y & a_y^2+b_y^2 & a_y a_z+ b_y b_z \\
    a_x a_z+ b_x b_z & a_y a_z+ b_y b_z & h_z^2
    \end{array}
    \right))^2
    \)

    上の式を満たすように、
    \(a_○\),\(b_○\)の値を数値計算から求めます。

    因子分析

    Excelを使った計算方法

    上の式で行列表記したものを下図のように
    ●➂因子決定行列R*
    ●➃因子負荷行列
    ●➄最小値計算Q
    に代入します。

    因子分析

    Excelの「データ」⇒「ソルバー」で、
    Qの最小値となる因子負荷量の各値に制約条件を入れて求めます。

    因子分析

    注意なのは、

    ●因子負荷量の値が1つに決まらないこと
    ●数値計算がうまく収束しないこと
    ●Qの最小値が0.01程度まで下がるまで制約条件を変えて解析する必要がある
    Excelでの計算は一瞬ですが、
    解の妥当性はよく確認することが必要です。

    今回は、Excelがはじき出した値を使って、残りの値を計算します。

    ●\(a_x\)=0.854、\(a_y\)=0.737、\(a_z\)=0.991
    ●\(b_x\)=-0.45、\(b_y\)=0.552、\(b_z\)=-0.023

    ➃共通因子と誤差を計算

    あとは、誤差と共通因子を計算すれば、因子分析の一連の流れが計算できます。

    誤差を計算

    誤差\(V(e_x)\), \(V(e_y)\), \(V(e_z)\)は関係式から計算できます。

    誤差はSMC法から求められます。
    ●\(V(e_x)\)=1-\(h_x^2\)
    ●\(V(e_y)\)=1-\(h_y^2\)
    ●\(V(e_z)\)=1-\(h_z^2\)

    計算はできるのですが、1つ問題があります。

    誤差の分散は計算できるが、個別の誤差の値は別の方法で計算が必要。

    実は共通因子Fの各値を計算してから、個別の誤差の値を計算します。

    共通因子Fを計算

    実は、推定方法から計算します。この推定方法の導出はQCプラネッツで調査中です。

    共通因子Fの計算方法

    共通因子\(F\)=\(ZR^{-1} A\)
    ただし、
    ●\(Z\):標準化データ行列(\(x_i,y_i,z_i\)は標準化対応済が前提)
    ●\(R\):相関係数行列
    ●\(A\):因子負荷量ベクトル
    (1因子モデルはベクトル、2因子以上なら行列)

    3変数、2因子モデルの場合、具体的に記述すると

    \(
    \left(
    \begin{array}{c}
    F_1 & G_1\\
    F_2 & G_2\\
    \vdots \\
    F_n & G_2
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    x_{1} & y_{1} & z_{1} \\
    x_{2} & y_{2} & z_{2} \\
    \vdots & \vdots & \vdots \\
    x_{n} & y_{n} & z_{n}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{yz} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    a_x & b_x \\
    a_y & b_y \\
    a_z & b_z
    \end{array}
    \right)
    \)
    で計算できます。

    実際に計算してみると

    \(
    \left(
    \begin{array}{c}
    F_1 & G_1\\
    F_2 & G_2\\
    \vdots \\
    F_n & G_2
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    -1.08 & 0.19 & -0.61 \\
    0.22 & -0.31 & -0.28 \\
    \vdots & \vdots & \vdots \\
    -0.99 & -0.56 & -0.72
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    12.433 & 7.177 & -16.123 \\
    7.177 & 6.295 & -10.882 \\
    -16.123 & -10.882 & 23.060
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    0.854 & -0.45 \\
    0.737 & 0.552 \\
    0.991 & -0.023
    \end{array}
    \right)
    \)
    =\(
    \left(
    \begin{array}{c}
    -0.571 & 1.023\\
    -0.303 & -0.626\\
    -0.545 & 0.579\\
    0.121 & -1.961\\
    0.334 & 0.649\\
    0.615 & -0.142\\
    -1.924 & -0.423\\
    1.663 & -0.702\\
    1.294 & 1.141\\
    -0.683 & 0.462
    \end{array}
    \right)
    \)
    で計算できます。

    誤差Eを計算

    誤差Eは残りなので、上の式を使うと、

    \(\left(
    \begin{array}{cccc}
    x_1 & y_1 & z_1 \\
    x_2 & y_2 & z_2 \\
    \vdots & \vdots & \vdots \\
    x_n & y_n & z_n
    \end{array}
    \right)
    \)
    =\(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    a_x & a_y & a_z
    \end{array}
    \right)
    \)
    +\(
    \left(
    \begin{array}{c}
    G_1 \\
    G_2 \\
    \vdots \\
    G_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    b_x & b_y & b_z
    \end{array}
    \right)
    \)
    +\(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)

    から、誤差行列
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)
    の個々の値が計算できます。

    実際に誤差行列を計算すると
    \(\left(
    \begin{array}{cccc}
    -0.134 & 0.044 & -0.017 \\
    0.194 & 0.255 & 0.011 \\
    0.077 & 0.396 & 0.002 \\
    0.095 & -0.45 & 0 \\
    0.05 & 0.337 & 0.014 \\
    -0.156 & -0.438 & -0.007 \\
    0.026 & -0.043 & -0.03 \\
    0.211 & 0.229 & 0.043 \\
    -0.159 & -0.014 & 0.011 \\
    -0.204 & -0.316 & -0.029
    \end{array}
    \right)
    \)

    ここまで、各値を計算した上で、共通因子F,Gの意味を考えて、因子分析ができたといえます。

    因子分析の解析フローを理解して
    データ事例を使って計算できました。

    まとめ

    「因子分析の2因子モデルが計算できる」を解説しました。

    • ①2因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂因子負荷量を計算
    • ➃共通因子と誤差を計算

  • 因子分析の2因子モデルが導出できる

    因子分析の2因子モデルが導出できる

    「因子分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    因子分析の2因子モデルが導出できる

    おさえておきたいポイント

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算
    • ⑥因子分析を解析する際の注意点
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    1因子モデル導出過程をベースに本記事を解説します。1因子モデルの導出過程は関連記事で解説しています。先に確認ください。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ①2因子モデルを式で表現

    下表のように、例えば、あるデータがあり、変数x,y,zがあるとしましょう。

    No \(x\) \(y\) \(z\)
    1 \(x_{1}\) \(y_{1}\) \(z_{1}\)
    2 \(x_{2}\) \(y_{2}\) \(z_{2}\)
    n \(x_{n}\) \(y_{n}\) \(z_{n}\)

    このデータを、
    主成分分析のように、2つの共通変数F、Gに集約できなか?
    を考えます。

    つまり式と図で表現すると、
    \(
    \left(
    \begin{array}{c}
    x_i \\
    y_i \\
    z_i
    \end{array}
    \right)
    \)=\(F_i\)\(
    \left(
    \begin{array}{c}
    a_{x}\\
    a_{y}\\
    a_{z}
    \end{array}
    \right)
    \)+\(G_i\)\(
    \left(
    \begin{array}{c}
    b_{x}\\
    b_{y}\\
    b_{z}
    \end{array}
    \right)
    \)+\(
    \left(
    \begin{array}{c}
    e_{xi}\\
    e_{yi}\\
    e_{zi}
    \end{array}
    \right)
    \)

    各値を共通因子と誤差に相当する独自因子に分割します。

    因子分析

    式と図から、

    因子分析

    ●定数である因子負荷量\(a,b\)
    ●変数である共通因子F,G
    ●変数である誤差でもある独自因子e
    にわけて、
    ●変数である共通因子F,Gに意味を持たせる
    をやるのが因子分析です。

    数式を使って、わかりやすく因子分析を導出していきます。

    ➁モデル式から分散・共分散を導出

    モデル式から分散・共分散を導出

    3変数\(x,y,z\)で、次の分散
    \(s_x^2\),\(s_y^2\),\(s_z^2\)
    と共分散
    \(s_{xy}\),\(s_{xz}\),\(s_{yz}\)
    を考えます。

    分散\(s_x^2\)

    \(s_x^2\),\(s_y^2\),\(s_z^2\)のうち、\(s_x^2\)を代表として計算します。
    \(s_x^2\)=\(V(a_x F+b_x G+ e_x)\)
    分散の加法性から
    =\(a_x^2 V(F)+b_x^2 V(G)+V(e_x)\)
    +2\(a_x b_x Cov(F,G)\)+ 2\(a_x Cov(F,e_x)\)+ 2\(b_x Cov(G,e_x)\)
    と計算できます。

    \(s_y^2\),\(s_z^2\)は同様に計算すると、
    \(s_y^2\)=\(a_y^2 V(F)+b_y^2 V(G)+V(e_y)\)
    +2\(a_y b_y Cov(F,G)\)+ 2\(a_y Cov(F,e_y)\)+ 2\(b_y Cov(G,e_y)\)
    \(s_z^2\)=\(a_z^2 V(F)+b_z^2 V(G)+V(e_z)\)
    +2\(a_z b_z Cov(F,G)\)+ 2\(a_z Cov(F,e_z)\)+ 2\(b_z Cov(G,e_z)\)
    ですね。式は1因子モデルより長くなりましたが、機械的に計算できます。

    共分散\(s_{xy}\)

    \(s_{xy}\),\(s_{yz}\),\(s_{xz}\)のうち、\(s_{xy}\)を代表として計算します。
    \(s_{xy}\)=\(Cov(a_x F+b_x G+e_x, a_y F+b_y G+e_y)\)
    分散の加法性から
    =\(a_x a_y V(F)+a_x b_y Cov(F,G)+a_x Cov(F,e_y)\)
    +\(a_y b_x Cov(G,F)+b_x b_y V(G)+b_x Cov(G,e_y)\)
    +\(a_y Cov(e_x,F)+b_y Cov(e_x,G)+Cov(e_x,e_y)\)
    と計算できます。

    \(s_{yz}\),\(s_{xz}\)も同様に計算すると、
    \(s_{yz}\)=\(Cov(a_y F+b_y G+e_y, a_z F+b_z G+e_z)\)
    =\(a_y a_z V(F)+a_y b_z Cov(F,G)+a_y Cov(F,e_z)\)
    +\(a_z b_y Cov(G,F)+b_y b_z V(G)+b_y Cov(G,e_z)\)
    +\(a_z Cov(e_y,F)+b_z Cov(e_y,G)+Cov(e_y,e_z)\)

    \(s_{xz}\)=\(Cov(a_x F+b_x G+e_x, a_z F+b_z G+e_z)\)
    =\(a_x a_z V(F)+a_x b_z Cov(F,G)+a_x Cov(F,e_z)\)
    +\(a_z b_x Cov(G,F)+b_x b_z V(G)+b_x Cov(G,e_z)\)
    +\(a_z Cov(e_x,F)+b_z Cov(e_x,G)+Cov(e_x,e_z)\)
    と計算できます。

    ➂仮定を入れて式を簡略化

    式を簡略化するため仮定を入れる

    分散の式と共分散の式
    が長い式なので、仮定を入れて式を簡略化
    します。

    1. 因子間は独立とする
    2. 変数を標準化(平均0,標準偏差1)とする

    つまり、

    1. 独立⇒\(Cov(●,□\))=0
    2. 標準化⇒\(S_x^2\)、\(S_y^2\)、\(S_z^2\)、\(V(F)\), \(V(G)\)はすべて1

    では簡略化してみます。

    分散を簡略化

    ●分散の式
    \(s_x^2\)=1
    =\(a_x^2\)\(V(F)\)(1)+\(b_x^2\)\(V(G) \)(1)+\(V(e_x)\)
    +2\(a_x b_x Cov(F,G)\)+ 2\(a_x Cov(F,e_x)\)+ 2\(b_x Cov(G,e_x)\)
    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    と簡略化できます。

    \(s_y^2\),\(s_z^2\)は同様に計算すると、
    ●\(s_y^2\)⇒
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    ●\(s_z^2\)⇒
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1
    と簡略化できます。

    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1

    共分散を簡略化

    ●共分散の式

    \(s_{xy}\)=\(\frac{s_{xy}}{1×1}\)=
    \(\frac{s_{xy}}{ s_x^2 s_y^2}\)=\(r_{xy}\)(相関係数)として、
    \(s_{xy}\)=\(r_{xy}\)
    =\(a_x a_y\)\(V(F)\)(1)+\(a_x b_y Cov(F,G)+a_x Cov(F,e_y)\)
    +\(a_y b_x Cov(G,F)\)+\(b_x b_y\)\(V(G)\)(1)+\(b_x Cov(G,e_y)\)
    +\(a_y Cov(e_x,F)+b_y Cov(e_x,G)+Cov(e_x,e_y)\)
    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    と計算できます。

    \(s_{yz}\),\(s_{xz}\)も同様に計算すると、
    ●\(s_{yz}\)⇒
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    ●\(s_{xz}\)⇒
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)
    と計算できます。

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    ➃因子負荷量を計算

    因子負荷量を求める方程式

    先の結果をまとめると、

    \(a_x^2\)+\(b_x^2\)+\(V(e_x)\)=1
    \(a_y^2\)+\(b_y^2\)+\(V(e_y)\)=1
    \(a_z^2\)+\(b_z^2\)+\(V(e_z)\)=1

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    から、\(a_○\),\(b_○\)を計算すればOKですが、

    1因子モデルと違って
    手計算はかなりキツイ。。。

    なので、最小二乗法を活用してExcelで計算します。

    SMC法から因子負荷量の2乗和を計算

    相関係数行列\(R\)の逆行列の\(ii\)要素を\(r^{ii}\)として、
    \(h_i^2\)=1-\(\frac{1}{r^{ii}}\)
    \(h_i^2\)=\(a_i^2\)+\(b_i^2\)
    \(V(e_i)\)=1-\(h_i^2\)
    の関係式を使って計算する方法です。この理論の背景は現在調査中です。分かり次第報告します。

    因子負荷量を最小二乗法から計算

    SMC法を使って
    ●\(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    ●\(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    ●\(h_z^2\)=\(a_z^2\)+\(b_z^2\)
    から、求めます。

    \(h_x^2\)=\(a_x^2\)+\(b_x^2\)
    \(h_y^2\)=\(a_y^2\)+\(b_y^2\)
    \(h_z^2\)=\(a_z^2\)+\(b_z^2\)

    \(r_{xy}\)=\(a_x a_y\)+\(b_x b_y\)
    \(r_{yz}\)=\(a_y a_z\)+\(b_y b_z\)
    \(r_{xz}\)=\(a_x a_z\)+\(b_x b_z\)

    ここで、\(Q\)を
    \(Q\)=\(((a_x^2+b_x^2)-h_x^2)^2\)
    +\(((a_y^2+b_y^2)-h_y^2)^2\)
    +\(((a_z^2+b_z^2)-h_z^2)^2\)
    +2\((( a_x a_y+ b_x b_y)- r_{xy}^2)^2\)
    +2\((( a_y a_z+ b_y b_z)- r_{yz}^2)^2\)
    +2\((( a_x a_z+ b_x b_z)- r_{xz}^2)^2\)
    と定義して、この\(Q\)が最小値(なるべく0)となる場合を
    Excelで計算してもらいます。

    最小二乗法の計算をExcelに託す

    \(Q\)の式を行列表記します。

    \(Q\)=\((\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{xy} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)\)
    -\(\left(
    \begin{array}{cccc}
    a_x^2+b_x^2 & a_x a_y+ b_x b_y & a_x a_z+ b_x b_z \\
    a_x a_y+ b_x b_y & a_y^2+b_y^2 & a_y a_z+ b_y b_z \\
    a_x a_z+ b_x b_z & a_y a_z+ b_y b_z & h_z^2
    \end{array}
    \right))^2
    \)

    上の式を満たすように、
    \(a_○\),\(b_○\)の値を数値計算から求めます。

    因子分析

    具体的な計算は、関連記事の計算編で解説します。

    因子負荷量
    \(a_○\),\(b_□\)が求まります。
    ただし、注意してほしいのは、
    因子負荷量\(a_○\),\(b_□\)
    求める方程式は自由度が残るので、
    因子負荷量は1組ではありませんし、
    数値解析の誤差が残ります。

    ➄共通因子と誤差を計算

    あとは、誤差と共通因子を計算すれば、因子分析の一連の流れが計算できます。

    誤差を計算

    誤差\(V(e_x)\), \(V(e_y)\), \(V(e_z)\)は関係式から計算できます。

    誤差はSMC法から求められます。
    ●\(V(e_x)\)=1-\(h_x^2\)
    ●\(V(e_y)\)=1-\(h_y^2\)
    ●\(V(e_z)\)=1-\(h_z^2\)

    計算はできるのですが、1つ問題があります。

    誤差の分散は計算できるが、個別の誤差の値は別の方法で計算が必要。

    実は共通因子Fの各値を計算してから、個別の誤差の値を計算します。

    共通因子Fを計算

    実は、推定方法から計算します。この推定方法の導出はQCプラネッツで調査中です。

    共通因子Fの計算方法

    共通因子\(F\)=\(ZR^{-1} A\)
    ただし、
    ●\(Z\):標準化データ行列(\(x_i,y_i,z_i\)は標準化対応済が前提)
    ●\(R\):相関係数行列
    ●\(A\):因子負荷量ベクトル
    (1因子モデルはベクトル、2因子以上なら行列)

    3変数、2因子モデルの場合、具体的に記述すると

    \(
    \left(
    \begin{array}{c}
    F_1 & G_1\\
    F_2 & G_2\\
    \vdots \\
    F_n & G_2
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    x_{1} & y_{1} & z_{1} \\
    x_{2} & y_{2} & z_{2} \\
    \vdots & \vdots & \vdots \\
    x_{n} & y_{n} & z_{n}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    h_x^2 & r_{xy} & r_{xz} \\
    r_{xy} & h_y^2 & r_{yz} \\
    r_{xz} & r_{xy} & h_z^2
    \end{array}
    \right)^{-1}
    \)\(
    \left(
    \begin{array}{c}
    a_x & b_x \\
    a_y & b_y \\
    a_z & b_z
    \end{array}
    \right)
    \)
    で計算できます。

    誤差Eを計算

    誤差Eは残りなので、上の式を使うと、

    \(\left(
    \begin{array}{cccc}
    x_1 & y_1 & z_1 \\
    x_2 & y_2 & z_2 \\
    \vdots & \vdots & \vdots \\
    x_n & y_n & z_n
    \end{array}
    \right)
    \)
    =\(
    \left(
    \begin{array}{c}
    F_1 \\
    F_2 \\
    \vdots \\
    F_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    a_x & a_y & a_z
    \end{array}
    \right)
    \)
    +\(
    \left(
    \begin{array}{c}
    G_1 \\
    G_2 \\
    \vdots \\
    G_n
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    b_x & b_y & b_z
    \end{array}
    \right)
    \)
    +\(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)

    から、誤差行列
    \(\left(
    \begin{array}{cccc}
    e_{x1} & e_{y1} & e_{z1} \\
    e_{x2} & e_{y2} & e_{z2} \\
    \vdots & \vdots & \vdots \\
    e_{xn} & e_{yn} & e_{zn}
    \end{array}
    \right)
    \)
    の個々の値が計算できます。

    ここまで、各値を計算した上で、共通因子F,Gの意味を考えて、因子分析ができたといえます。

    ⑥因子分析を解析する際の注意点

    注意点

    一連の流れを解説してきましたが、どうでしょうか?

    おそらく、以下の点が因子分析するとき注意が必要です。

    1. 因子分析という割に、自分で因子が設定できない(ならば主成分分析でいいじゃん!)
    2. 因子負荷量を求める方程式は自由度が残るため、解は1つではない
    3. SMC法などの手法を借りて解くので、精度は低下する
    4. 数値解析解から因子F,Gの意味を考えても、結果の精度は低い
    5. 2因子モデルで精度が高くないので、多因子になると何を解析しているかがわからなくなる
    因子分析は何をやっているのか?よくわからない
    難しい手法の割に得るものが少ないと
    QCプラネッツは思います。
    因子分析の解析フローを理解して
    分析から何を得たいのかはよく考えて使う必要があります。

    まとめ

    「因子分析の2因子モデルが導出できる」を解説しました。

    • ①1因子モデルを式で表現
    • ➁モデル式から分散・共分散を導出
    • ➂仮定を入れて式を簡略化
    • ➃因子負荷量を計算
    • ➄共通因子と誤差を計算
    • ⑥因子分析を解析する際の注意点

error: Content is protected !!