月: 2023年4月

  • コレスポンデンス分析ができる

    コレスポンデンス分析ができる

    「コレスポンデンス分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    コレスポンデンス分析ができる

    おさえておきたいポイント

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    コレスポンデンス分析は
    各欄の値が0以上の整数において
    相関係数の最大化する条件を求めるもの
    コレスポンデンス分析は
    数量化3類と数量化4類の解法を合体させたものと
    理解しよう!

    ①コレスポンデンス分析とは

    コレスポンデンス分析とは

    簡単にいうと

    数量化3類の拡張版で
    カテゴリーを数量化と重みづけしたもの。
    重みづけは数量化4類の解法をベースに理解しよう!
    数量化3類と数量化4類の解法を応用したもの

    なので、数量化3類と数量化4類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化4類の分析ができる
    数量化4類の分析ができますか? 本記事では主成分分析、数量化3類の解法をベースに数量化4類の解法をわかりやすく解説します。ツールに頼らず、手計算でできる内容でまとめていますので、早く理解できます。多変量解析を学ぶ人は必読です。

    ➁コレスポンデンス分析の解き方

    解法手順

    では、コレスポンデンス分析の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!
    重みづけデータがあるのは数量化4類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これをコレスポンデンス分析で分析しましょう。

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    ここで、表の意味を説明します。

    (\(a_i\),\(b_j\))においては、その点数が指定されています。
    数量化3類は点数はなく、すべての(\(a_i\),\(b_j\))が1または0(空欄)でしたね。
    1以上の整数が入るのが、コレスポンデンス分析と数量化3類との違いです。

    その中で、表全体の相関係数が最大にとなる条件を考えます。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+3a_2+3a_3}{8}\)=0
    ●\(\bar{b}\)=\(\frac{4b_1+b_2+3b_3}{8}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{8}\frac{(a_i-\bar{a})^2}{8}\)=\(\sum_{i=1}^{8}\frac{a_i}{8}\)
    =\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{8}\frac{(b_i-\bar{b})^2}{8}\)=\(\sum_{i=1}^{8}\frac{b_i}{8}\)
    =\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1

    まとめると、

    \(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    \(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    解法は数量化3類と全く同じです。

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+3a_2^2+3a_3^2)\)=8
    ●\(S_b\)=\((4b_1^2+b_2^2+3b_3^2)\)=8

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{8} (a_i-\bar{a})(b_i-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)-1=0
    ●\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{8}(b_2+b_3)-\frac{λ_1}{2} \frac{4a_1}{8}\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{8}(b_1+2b_3)- \frac{λ_1}{2} \frac{6a_2}{8}\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{8}(3b_1)- \frac{λ_1}{2} \frac{6a_3}{8}\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{8}(a_2+3a_3)- \frac{λ_2}{2} \frac{8b_1}{8}\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{8}(a_1)- \frac{λ_2}{2} \frac{2b_2}{8}\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{8}(a_1+2a_2)- \frac{λ_2}{2} \frac{6b_3}{8}\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    (\(a_1 b_2 + a_1 b_3 – 2λ_1 a_1^2\))+(\(a_2 b_1 + 2a_2 b_3 – 3λ_1 a_2^2\))+(\(3a_3 b_1 – 3λ_1 a_3^2\))=0
    \((a_1 b_2 + a_1 b_3+ a_2 b_1 + 2a_2 b_3+3a_3 b_1)\)-\(λ_1(2a_1^2+3 a_2^2+3 a_3^2)\)=0
    \(8r -8λ_1\)=0
    より、
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    (\(a_2 b_1 +3 a_3 b_1 – 4λ_2 b_1^2\))+(\(a_1 b_2 – λ_2 b_2^2\))+(\(a_1 b_3 +2a_2 b_3 – 3λ_2 b_3^2\))=0
    \((a_2 b_1 +3 a_3 b_1+ a_1 b_2 + a_1 b_3 +2a_2 b_3)\)-\(λ_2(4b_1^2+b_2^2+3 b_3^2)\)=0
    \(8r -8λ_2\)=0
    より、
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +2b_3}{3λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + 2b_3}{3λ}+\frac{3b_1}{λ}\)-\(4λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\(\frac{b_2 + b_3}{2λ}+\frac{2b_1+4b_2}{3λ}\)-\(3λb_3\)=0 …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{vmatrix}\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおいて、行列式を解くと、
    \(λ^2=t\)(\(t\) ≥ 0)
    \((10-12t)(1-2t)(3-18t)\)+0・1・4+2・0・11-2・\((1-2t)\)・4-0・0・\((3-18t)\)-\((10-12t)\)・1・11=0

    \(54t^3-81t^2+16t+11\)=0
    \((t-1)(54t^2-27t-11)\)=0
    より、
    \(t\)=1,-0.2659,0.766

    \(t\) ≥ 0より、
    \(t\)=1,0.766

    数量化3類でありましたように、
    \(t\)=1は相関係数が1となるので、特例として扱わないとします。

    よって、
    \(t\)=0.766
    \(λ\)=0.875
    の1つだけとなります。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が1つ(\(λ\)=0.875)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=0.875のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.808 & 0 & 2 \\
    0 & -0.532 & 1 \\
    4 & 11 & -10.788
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.758 \\
    0.575\\
    0.306
    \end{array}
    \right)
    \)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=0.504
    \(a_2\)=\(\frac{b_1+2b_3}{3λ}\)=0.150
    \(a_3\)=\(\frac{b_1}{λ}\)=-0.866
    \(r\)=\(λ\)=0.875

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=0.575, \(b_3\)=0.306, \(b_1\)=-0.758
    ●\(a_1\)=0.504, \(a_2\)=0.150, \(a_3\)=-0.866
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    から下表に変化します。

    データ \(b_2\) \(b_3\) \(b_1\)
    \(a_1\) 1 1 0 2
    \(a_2\) 0 2 1 3
    \(a_3\) 0 0 3 3
    1 3 4 8

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これがコレスポンデンス分析で実施したいことです。

    コレスポンデンス分析は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    数量化3類と数量化4類の応用した解法ですね!

    コレスポンデンス分析の分析ができましたね!

    まとめ

    「コレスポンデンス分析ができる」を解説しました。

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化4類の分析ができる

    数量化4類の分析ができる

    「数量化4類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化4類の分析ができる

    おさえておきたいポイント

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化4類のネーミングより
    解法を理解しよう!

    ①数量化4類とは

    数量化4類とは

    簡単にいうと

    互いの親近性から関係を数量化するもの
    数量化3類に親近度の重みづけをしたもの
    数量化3類の解法を応用したもの

    なので、数量化3類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化4類の解き方

    解法手順

    では、数量化4類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 距離の平方和が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!
    数量化4類は
    親近度の重みづけが
    数量化3類の解法から
    追加されます。

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化4類で分析しましょう。

    親近度 \(S_1\) \(S_2\) \(S_3\)
    \(S_1\) 1 2
    \(S_2\) 0 1
    \(S_3\) 3 0

    ここで、表の意味を説明します。

    \(S_i\)と\(S_j\)の親近度は
    ●\(S_i\)にとっての\(S_j\)の親近度\(T_{ij}\)と
    ●\(S_j\)にとっての\(S_i\)の親近度\(T_{ji}\)が
    それぞれあるので、
    \(T_{ij}\)≠\(T_{ji}\)
    も十分起こりえます。この点に注意しましょう。

    その中で、\(S_i\)と\(S_j\)の距離を
    \(x_i\)と\(x_j\)を使って表現し、その距離の平方和Qを考えます。

    Qの式が親近度の重みづけが入る点が
    数量化3類の解法と違って
    数量化4類の解法なのです。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{x}\)=\(\frac{x_1+x_2+x_3}{3}\)=0

    分散V

    ●\(V\)=\(\sum_{i=1}^{3}\frac{(x_i-\bar{a})^2}{3}\)=\(\sum_{i=1}^{3}\frac{x_i}{3}\)
    =\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1

    まとめると、

    \(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1
    後で使う式となります。

    ➃解法2. 距離の平方和が最大になる条件を求める

    距離の平方和Qを計算

    距離の平方和Qは
    Q=1×\((x_1 -x_2)^2\)+2×\((x_1 -x_3)^2\)+0×\((x_2 -x_1)^2\)
    +1×\((x_2 -x_3)^2\)+3×\((x_3 -x_1)^2\)+0×\((x_3 -x_2)^2\)
    =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    Q =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(x\)の制約条件は、分散の式から
    ●\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)-1=0

    関数Fを下式で定義します。

    F=Q-\(\frac{λ}{3}( x_1^2+x_2^2+x_3^2-3)\)

    F,Qが最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial x_1}\)=\(2(x_1 – x_2)+4(x_1 -x_3)-6(x_3 – x_1)-\frac{2}{3}λx_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial x_2}\)=\(-2(x_1 – x_2)+2(x_2 -x_3)-\frac{2}{3}λx_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial x_3}\)=\(-4(x_1 – x_3)-2(x_2 -x_3)+6(x_3 – x_1)-\frac{2}{3}λx_3\)=0 …➂

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~➂の式を整理していきます。

    式を整理

    ①➁➂式を整理すると
    ●\(6x_1 -6x_2 -5x_3 – \frac{1}{3}λx_1\)=0
    ●\(-x_1 +2x_2 -x_3 – \frac{1}{3}λx_2\)=0
    ●\(-5x_1 -x_2 +6x_3 – \frac{1}{3}λx_3\)=0

    固有方程式が結果的にできる

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\frac{1}{3}λ\)=\(a\)と置きます。

    \(\left(
    \begin{array}{cccc}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{vmatrix}\)

    行列式を解くと、
    \((6-a)(2-a)(6-a)\)+(-6)(-1)(-5)+(-5)(-1)(-1)
    -(-5)\((2-a)\)(-5)-(6)(-1)\((6-a)\)-\((6-a)\)(-1)(-1)=0

    3次方程式をまとめると
    \(a^3-14a^2+28a+55\)=0
    実は、因数分解できます!
    \((a-11)(a^2-3a-5)\)=0

    よって\(a\)は
    \(a\)=\(\frac{1}{3}λ\)=11,\(\frac{3±\sqrt{29}}{2}\)
    つまり、
    \(λ\)=33,12.576,-3.579
    が得られます。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=33,12.576,-3.579)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=33のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -5 & -6 & -5 \\
    -1 & -9 & -1 \\
    -5 & -1 & -5
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.707 \\
    0 \\
    -0.707
    \end{array}
    \right)
    \)
    となります。

    固有値\(λ\)=12.576のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.808 & -6 & -5 \\
    -1 & -2.192 & -1 \\
    -5 & -1 & 1.808
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0.380 \\
    -0.521 \\
    0.764
    \end{array}
    \right)
    \)

    固有値\(λ\)=-3.579のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    7.193 & -6 & -5 \\
    -1 & 3.193 & -1 \\
    -5 & -1 & 7.193
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.725 \\
    0.402 \\
    0.559
    \end{array}
    \right)
    \)
    となります。

    固有ベクトルからわかること

    解析結果をまとめると下表になり、その関係性を数直線に描いてみましょう。

    \(λ\)=33 \(λ\)=12.576 \(λ\)=-3.579
    \(x_1\) 0.707 0.38 0.725
    \(x_2\) 0 -0.521 0.402
    \(x_3\) -0.707 0.764 0.559

    数量化4類

    どうでしょうか?
    数量化4類で分析すると、親近度の関係性が見えてきます。あとは、これをどう分析に使うかを考えていけばよいのです。

    数量化4類は
    数量化3類と同じ解法で重みづけを加えて
    距離の平方和が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析、数量化3類と同じ解法の流れになりますね!

    数量化4類の分析ができましたね!

    まとめ

    「数量化4類の分析ができる」を解説しました。

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化3類の分析ができる

    数量化3類の分析ができる

    「数量化3類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化3類の分析ができる

    おさえておきたいポイント

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化3類のネーミングより
    解法を理解しよう!

    ①数量化3類とは

    数量化3類とは

    簡単にいうと

    縦と横の表項目を
    相関性の高い順に並び替える

    下右図のように相関性が高い順に並び替えると、ある一定の並び方が見えやすくするのが、数量化3類の解析目的です。

    数量化3類

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化3類の解き方

    解法手順

    では、数量化3類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化3類で分析しましょう。

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+2a_2+a_3}{5}\)=0
    ●\(\bar{b}\)=\(\frac{2b_1+b_2+2b_3}{5}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{5}\frac{(a_i-\bar{a})^2}{5}\)=\(\sum_{i=1}^{5}\frac{a_i}{5}\)
    =\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{5}\frac{(b_i-\bar{b})^2}{5}\)=\(\sum_{i=1}^{5}\frac{b_i}{5}\)
    =\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1

    まとめると、

    \(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    \(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+2a_2^2+a_3^2)\)=5
    ●\(S_b\)=\((2b_1^2+b_2^2+2b_3^2)\)=5

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{5} \sum_{j=1}^{5}(a_i-\bar{a})(b_j-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)-1=0
    ●\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{5}(b_2+b_3)-\frac{2λ_1}{5}a_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{5}(b_1+b_3)-\frac{2λ_1}{5}a_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{5}(b_1)-\frac{λ_1}{5}a_3\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{5}(a_2+a_3)-\frac{2λ_2}{5}b_1\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{5}(a_1)-\frac{λ_2}{5}b_2\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{5}(a_1+a_2)-\frac{2λ_2}{5}b_3\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    \(\frac{1}{5}(a_1 b_2+a_1 b_3 -2λ_1 a_1^2)\)+\(\frac{1}{5}(a_2 b_1+a_2 b_3 -2λ_1 a_2^2)\)+\(\frac{1}{5}(a_2 b_1 -λ_1 a_3^2)\)=0
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_2}{5}(2b_1^2+b_2^2+2b_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +b_3}{2λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + b_3}{2λ}-2λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\((\frac{b_2 + b_3}{2λ}+\frac{b_1 + b_3}{2λ})-2λb_3\)= …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{vmatrix}\)=0

    行列式を解くと、
    \((\frac{3}{2}-2λ^2)(\frac{1}{2}-λ^2)(1-2λ^2)\)-\(\frac{1}{4}(\frac{1}{2}-λ^2)\)-\(\frac{1}{4}(\frac{3}{2}-2λ^2)\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおくと、
    \(16t^3-28t^2+13t-1\)=0
    \((t-1)(t-\frac{3-\sqrt{5}}{8})( t-\frac{3+\sqrt{5}}{8})\)=0
    \(t\)=1,0.6545,0.0955
    \(λ\)=1,0.809,0.309 (\(λ\)も正についてのみ考えます。)

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=1,0.809,0.309)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=1のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -0.5 & 0 & 0.5 \\
    0 & -0.5 & 0.5 \\
    0.5 & 0.5 & -1
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(b_1\)=\(b_2\)=\(b_3\)
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=\(b_1\)
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=\(b_1\)
    \(a_3\)=\(\frac{b_1}{λ}\)=\(b_1\)
    より、
    \(a_1\)=\(a_2\)=\(a_3\)=\(b_1\)=\(b_2\)=\(b_3\)
    \(r\)=1

    たしかに、全部値が同じなら相関係数1ですよね。
    ただ、これは異例なので、相関係数1以下を調べてみましょう。

    固有値\(λ\)=0.809のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.191 & 0 & 0.5 \\
    0 & -0.154 & 0.5 \\
    0.5 & 0.5 & -0.309
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -2.617 \\
    3.236 \\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=2.618
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=-0.999
    \(a_3\)=\(\frac{b_1}{λ}\)=-3.234
    \(r\)=\(λ\)=0.809

    固有値\(λ\)=0.309のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.31 & 0 & 0.5 \\
    0 & 0.405 & 0.5 \\
    0.5 & 0.5 & 0.809
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.382\\
    -1.237\\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=-0.385
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=1.000
    \(a_3\)=\(\frac{b_1}{λ}\)=-1.236
    \(r\)=\(λ\)=0.309

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=3.236, \(b_3\)=1, \(b_1\)=-2.617
    ●\(a_1\)=2.618, \(a_2\)=-0.999, \(a_3\)=-3.234
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    から下表に変化します。

    カテゴリー 1 2 3
    サンプル \(b_2\) \(b_3\) \(b_1\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_3\)) (\(a_2,b_1\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    1 2 2 5

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これが数量化3類で実施したいことです。

    数量化3類は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析と同じ解法の流れになりますね!

    数量化3類の分析ができましたね!

    まとめ

    「数量化3類の分析ができる」を解説しました。

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 【重要】クラスター分析できる

    【重要】クラスター分析できる

    「クラスター分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    クラスター分析できる

    おさえておきたいポイント

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    クラスタ―分析を
    最短距離法、最長距離法、群平均法の3手法の
    違いを理解しながらマスターできる!
    クラスタ―分析を
    マスターできる最強の記事です。

    ①クラスター分析とは

    データをクラスターで分ける

    文字のとおり、データ群をある規模のクラスターで分類することですね。下図のようなイメージが簡単にできますよね!

    クラスター分析

    ここで問題になるのが

    どうやってクラスタ―に分類するの?

    クラスター分析の主な2つの手法

    よくあるのが、

    1. 階層的方法(手計算で考えて解く方法)←これを解説!
    2. 非階層的方法(計算機で解く方法)

    本来は、非階層的方法で、計算機とプログラムを使って解きたいですが、
    何を解いているかがわからないので、手計算で理解できる階層的方法を使ってクラスター分析を理解しましょう。

    ➁最短距離法、最長距離法、群平均法とは

    階層的方法はさらに3つの方法に分類できます。
    比較しながら3手法をマスターしましょう!

    1. 最短距離法(最も基本的)
    2. 最長距離法
    3. 群平均法

    まずは、最短距離法でクラスター分類して、結果を可視化して納得いけばいいですが、
    結果がいまいちな場合は、最長距離法、群平均法を使っていきます。

    結果の吟味は我々人間がやります!

    最短距離法

    クラスターに含まれる対象の対の中で、最短距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(min(d(C_i,C_k),d(C_j,C_k))\)

    「min」から最短とわかればOKです。

    最長距離法

    クラスターに含まれる対象の対の中で、最長距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(max(d(C_i,C_k),d(C_j,C_k))\)

    「max」から最長とわかればOKです。

    群平均法

    最短でも最長でもなく、平均的な値で定義したい場合に使います。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(\frac{n_i ×d(C_i,C_k)+n_j ×d(C_j,C_k)}{n_i + n_j}\)

    「平均」を計算しているとわかればOKです。

    ➂クラスター分析の解法

    共通の解き方(最短距離法、最長距離法、群平均法)

    クラスター分析は3つの手法を比較しながら、まとめて解くと、
    統一した解き方が理解できます! 解説しますね!

    おさえておきたい解き方

    3つのステップがあります。

    1. 全手法とも、最初は最短距離なペアでクラスターを作る
    2. 手法別にクラスター間距離を計算
    3. クラスターを合体

    の3ステップを全データが分類し終わるまで繰り返します。

    クラスター分析

    特に注意が必要なのは、

    最長距離法、群平均法でも、最初は最短距離なペアを見つける点に注意しましょう。

    では、実際に解いてみましょう。

    データ事例

    【事例】
    5つのデータがあり、それぞれの距離がわかっている。
    (1)最短距離法
    (2)最長距離法
    (3)群平均法
    を使って、それぞれクラスター分析せよ。
    A B C D E
    A
    B 31.6
    C 20 51
    D 31.6 28.3 42.4
    E 31.6 63.2 14.1 56.6

    ➃最短距離法、最長距離法、群平均法を比較しながら解く

    分類は3回実施しますので、丁寧に解説します。

    分類1回目

    1回目step1

    最短距離なペアを見つけましょう。
    CとEの14.1が最短ですね。見ればわかる!

    クラスター分析

    1回目step2

    CEが1つのクラスターになったので、
    ●AとCEクラスター
    ●BとCEクラスター
    ●DとCEクラスター
    との距離を最短距離法、最長距離法、群平均法で解きます。

    クラスター分析

    ●最短距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から20を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から51を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 42.4を選択

    ●最長距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から31.6を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から63.2を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 56.6を選択

    ●群平均では、
    ・AとCEクラスター⇒ 黄色の20と31.6から平均1/2×(20+31.6)=25.8を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から平均1/2×(51+63.2)=57.1を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から平均1/2×(42.4+56.6)=49.5を選択

    1回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで1回目が終了です。3手法の違いが見えましたね。2回目も同様に解けます!

    分類2回目

    2回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、A-CE間の20
    ●最長距離法では、B-D間の28.3
    ●群平均法では、A-CE間の25.8
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    2回目step2

    ●最短距離法では、ACEクラスターとB,Dとの距離
    ●最長距離法では、AとCEクラスターとBDクラスターとの距離
    ●群平均法では、ACEクラスターとB,Dとの距離
    との距離を最短距離法、最長距離法、群平均法で解きます。
    ここが一番難しい所ですが、頑張って乗り越えましょう!

    クラスター分析

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色の31.6と51から31.6を選択
    ・ACEクラスターとD⇒ 緑色の31.6と42.4から31.6を選択

    ●最長距離法では、
    ・AとBDクラスター⇒ 灰色の31.6と31.6から31.6を選択
    ・BDクラスターとCEクラスター⇒ 紫色の63.2と56.6から63.2を選択

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色から1/3×31.6+2/3×57.1=48.6を選択
    ・ACEクラスターとD⇒ 緑色の1/3×31.6+2/3×49.5=43.5を選択

    2回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで2回目が終了です。3手法の違いが見えましたね。3回目も同様に解けます!

    分類3回目

    3回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、B-D間の28.3
    ●最長距離法では、A-CE間の31.6
    ●群平均法では、B-D間の28.3
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    で、ここで、分類が完了したので、結果を比較すると

    クラスター分析

    となりました。手法間で結果が異なりますが、実データと比較してどれを使うかを吟味すればOKです。

    計算結果をPDFにまとめています。見やすいので、こちらも活用ください。

    クラスター分析ができましたね!

    まとめ

    「クラスター分析ができる」を解説しました。

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く

error: Content is protected !!