カテゴリー: 多変量解析

  • 【まとめ】多変量解析を究める

    【まとめ】多変量解析を究める

    「多変量解析がわからない、何を学べばよいかわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【まとめ】多変量解析を究める!

    おさえておきたいポイント

    • ①多変量解析の目的は1つ
    • ➁多変量解析を分類
    • ➂各手法の解説(関連記事のご紹介)

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    [themoneytizer id=”105233-2″]
    多変量解析は自分で解けます!
    Excelなどのツールに頼る前に
    自力で導出して理解しようぜ!
    1. 重回帰分析
    2. 主成分分析
    3. 判別分析
    4. 因子分析
    5. コレスポンデンス分析
    6. クラスター分析
    7. 数量化Ⅰ~Ⅳ類分析

    をQCプラネッツは
    自力で導出して理解できるように、わかりやすく解説!

    解析ツールで何でも解けるけど
    その意味を理解しよう!

    ①多変量解析の目的は1つ

    多変量解析の目的

    教科書や他のサイトでは、いろいろな多変量解析を下表にように分類しています。

    多変量解析

    ただ、どうでしょうか?

    データの質的・量的で分類しても
    イマイチ理解しにくい。

    なので、QCプラネッツは別の区別方法で分けています。

    それは、

    多変量解析の目的は唯一!
    「データから必要な情報を最大限抽出すること!」

    全手法を研究してたどり着いた分類方法です。

    必要な情報を最大限抽出することは
    データの誤差を最小化することと同じ!

    なので、多変量解析は
    必要な情報を最大限抽出する手法
    不要な誤差を最小化する手法
    があります。

    ➁多変量解析を分類

    多変量解析の種類

    再掲しますが、
    必要な情報を最大限抽出する手法
    不要な誤差を最小化する手法
    で分類すると下表になります。

    目的 手法 特徴
    ①必要な情報を最大化 ●重回帰分析(≒数量化Ⅰ類) 予測
    ➁不要な誤差を最小化 ●主成分分析 情報集約
    ●判別分析(≒数量化Ⅱ類) 判別
    ●因子分析 データ構成元抽出
    ●クラスター分析 判別
    ●コレスポンデンス分析
    (≒数量化Ⅲ類、数量化Ⅳ類)
    相関係数の最大化

    シンプルな分類になりましたし、解法・目的が明確になりましたね!

    ➂各手法の解説(関連記事のご紹介)

    上表のとおり、目的別に手法を解説した関連記事を紹介します。

    (1)重回帰分析

    誤差を最小化する重回帰分析の解法を紹介します。
    重回帰分析に出て来る公式の暗記ではなく、その導出過程をしっかり理解することが大事です。

    【まとめ】重回帰分析がよくわかる
    重回帰分析は自信もって解けますか?説明できますか? 本記事では、重回帰分析の考え方、理解すべきポイント、重回帰分析の特徴をわかりやすく解説し、公式の導出過程を詳しく解説します。公式暗記、解法暗記で終わらせずに、本質を学ぶことができます。多変量解析を学ぶ人は必読です。

    (2)主成分分析

    多変量解析はいろいろ手法がありますが、重回帰分析の次に学ぶのが主成分分析であることが多いですね。

    主成分分析の目的(情報を最大化する方向を探すこと)に意識して、主成分分析を理解しましょう。

    重回帰分析と主成分分析は全く別物ですが、
    何がどう違うか?をわかりやすく解説できるよう挑戦してください。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    (3)判別分析

    主成分分析より、理解しやすいのが判別分析ですね。
    何と何を区別して判別するか?なので、理解しやすいですね。

    なので、
    区別、判別をはっきりさせるに
    両者をなるべく引き離して分離させる手法

    を意識して判別分析の導出過程を理解しましょう。

    変動比が最大になる条件を求めるのは、群間成分と群内成分を引き離すと分離しやすい!というイメージでとらえましょう。

    【まとめ】判別分析がわかる
    判別分析ができますか? 本記事では、判別分析に使う、線形判別関数、マハラノビス距離の導出・使い方、特性などを分かりやすく解説しています。豊富な関連記事を紹介! 多変量解析を学ぶ人は必読です。

    (4)因子分析

    最もわかりにくいのが、因子分析ですね。
    主成分分析と比較されますが、
    正直、主成分分析と因子分析は比較対象ではなく、全くの別物ですよ。

    因子分析は、簡単にいうと、
    ●データを構成する元(共通因子)を見つけるもの
    ●共通因子の値から意味を考えるが、意味づけは人それぞれになる。
    ●しかし、共通因子を見つける方程式に自由度が余るため、最適値を外す場合がよくある

    です。

    因子分析は解析が難しいし、結果を読み取るもの人それぞれなので、よく注意して解析してください。

    【まとめ】因子分析がわかる
    因子分析は自分で解けますか? 本記事では因子分析が自力で解けるためのエッセンスをまとめた記事です。ツール任せでなく、何を解いているかがわかるためにまとめました。多変量解析を学ぶ人は必読です。

    (5)コレスポンデンス分析

    クロス集計表の項目がバラバラな場合、ある規則に沿って並び替えるのに使う方法です。並び替えは人力でやってもよいですが、その意味合いを数学で評価できるのがコレスポンデンス分析です。

    クロス集計表の項目を数値化して、その相関係数の最大化となる組み合わせを求めるものです。

    重回帰分析、主成分分析、因子分析などと全く別物の分析手法ですね。

    コレスポンデンス分析ができる
    コレスポンデンス分析ができますか?本記事では数量化3類と数量化4類をベースにコレスポンデンス分析をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    (6)クラスター分析

    群分けを群間の距離で分離する原始的な方法で、直観的にわかりやすい分析方法です。クラスター分析を最初に勉強した方がいいでしょう。

    ただし、分離方法の精度をよくするために、3つの手法
    ●最短距離法
    ●最長距離法
    ●群平均法

    があります。

    最短距離法は簡単ですが、最長距離法・群平均法が分かりにくいです。なので、3者の解き方を比較しながら解法を解説しています。必見な関連記事です。

    【重要】クラスター分析できる
    クラスター分析はできますか?本記事は、最短距離法、最長距離法、群平均法の違いを理解しながらクラスター分析をわかりやすく解説しています。この記事でクラスター分析はマスターできます! 多変量解析を学ぶ人は必読です。

    (7)数量化分析

    学生時代から思っていたのは、

    データの質的・量的の違いだけで
    手法名が変わるのはおかしい。
    解法や数式が全く異なるなら
    手法名が異なっていてもいいけど。

    しっかり研究すると
    ●数量化Ⅰ類=重回帰分析
    ●数量化Ⅱ類=判別分析
    ●数量化Ⅲ、Ⅳ類=コレスポンデンス分析
    でいいわけです。

    わざわざ手法名を「数量化○○」と分類する意味がよくわかりませんが、皆知っているほどの知名度になっています。だから、かえって理解しにくいんですよね。

    なので、多変量解析は
    データの質的、量的ではなく
    解法の目的で分類すべき

    一応、数量化Ⅰ類からⅣ類まで関連記事で解説していますが、一番伝えたいのは、
    ●数量化Ⅰ類=重回帰分析
    ●数量化Ⅱ類=判別分析
    ●数量化Ⅲ、Ⅳ類=コレスポンデンス分析
    でよいことです。

    なるべく少ない解法や暗記量で多変量解析を究めたいので!

    数量化1類の分析ができる
    数量化1類の分析ができますか?本記事では、数量化1類は重回帰分析であることを示したうえで、数量化1類の解析方法をわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    数量化2類ができる(その1)
    数量化2類が分析できますか?数量化2類は判別分析と同じです。本記事は線形判別関数を使った数量化2類の解析をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化2類ができる(その2)
    数量化2類が分析できますか?数量化2類は判別分析と同じです。本記事はマハラビノス距離を計算し、線形判別関数とマハラビノス距離使った数量化2類の解析の比較をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化4類の分析ができる
    数量化4類の分析ができますか? 本記事では主成分分析、数量化3類の解法をベースに数量化4類の解法をわかりやすく解説します。ツールに頼らず、手計算でできる内容でまとめていますので、早く理解できます。多変量解析を学ぶ人は必読です。

    全関連記事リンク

    多変量解析関連記事は40記事あります。上のリンクは代表記事ですが、全記事のリンクを紹介します。

    全部書き上げて、わかったことは、再掲しますが、

    多変量解析の目的は唯一!
    「データから必要な情報を最大限抽出すること!」
    多変量解析は
    必要な情報を最大限抽出する手法
    不要な誤差を最小化する手法
    がある。

    これを意識して40記事作りました。解法はたくさんありますが、一番上に立つ考え方である、
    データから必要な情報を最大限抽出することを意識しましょう。多変量解析が早くマスターできます!








































    まとめ

    「【まとめ】多変量解析を究める!」を解説しました。

    • ①多変量解析の目的は1つ
    • ➁多変量解析を分類
    • ➂各手法の解説(関連記事のご紹介)

  • 数量化2類ができる(その2)

    数量化2類ができる(その2)

    「数量化2類がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化2類ができる(その2)

    おさえておきたいポイント

    • ①数量化2類は判別分析である(その1)
    • ➁データ事例(その1)
    • ➂線形判別関数で数量化2類(判別分析) (その1)
    • マハラビノス距離で数量化2類(判別分析)(その2)
    • 線形判別関数とマハラビノス距離の分析結果を比較(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化2類は判別分析です!
    ならば、判別分析でいいじゃん!
    本当にそうです
    説明変数が質的か量的か
    くらいで、手法名変えるな!
    判別分析や数量化Ⅱ類とかあると
    かえって混乱する!

    ただの判別分析ですよ。

    ①➁➂数量化Ⅱ類を線形判別関数で分析する

    数量化Ⅱ類は2つの記事でまとめています。
    前編に、「数量化2類ができる(その1)」で解説しています。
    先に確認ください。

    数量化2類ができる(その1)
    数量化2類が分析できますか?数量化2類は判別分析と同じです。本記事は線形判別関数を使った数量化2類の解析をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ➃マハラビノス距離で数量化2類(判別分析)

    データ事例

    関連記事と同じデータを用意します。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 1 1 1.333 1.333
    2 2 1
    3 1 2
    2 4 2 1 1.5 1.25
    5 1 1
    6 2 1
    7 1 2
    合計 10 9 全平均 1.429 1.286

    グラフは下図のとおりです。

    数量化2類

    マハラビノス距離の求め方(復習)

    マハラビノス距離については関連記事で導出方法や具体的な算出事例を紹介しています。ご確認ください。

    マハラビノス距離が導出できる
    マハラビノス距離が導出できますか? 本記事では、マハラビノス距離を主成分分析から導出し、距離の式をわかりやすくを解説します。公式暗記せず、導出過程をきちんと理解しましょう。多変量解析を学ぶ人は必読です。

    マハラビノス距離が計算できる
    マハラノビス距離は計算できますか?本記事では、データ事例をもとに、マハラノビス距離を計算し、ユークリッド距離との比較やマハラノビス距離の楕円分布がわかるように丁寧に解説しています。多変量解析を学ぶ人は必読です。

    マハラビノス距離を計算

    マハラビノス距離(2次元)の場合、関連記事から
    \(D_M^2\)=\((x_1 -\bar{x_1}, x_2 -\bar{x_2})\)\(\left(\begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{21} & S_{22}
    \end{array}
    \right)^{-1}
    \)\(\left(
    \begin{array}{c}
    x_1 -\bar{x_1}\\
    x_2 -\bar{x_2}
    \end{array}
    \right)
    \)

    と書けます。

    実際は
    ●\(S_{11}\)⇒\(σ_x^2\)
    ●\(S_{22}\)⇒\(σ_y^2\)
    ●\(S_{12}\)⇒\(σ_{xy}^2\)
    から計算します。

    必要な数値をデータ表から計算すると、下表にまとめられます。

    1群 2群
    \(σ_x^2\) 0.333 0.333
    \(σ_y^2\) 0.333 0.25
    \(σ_{xy}^2\) -0.167 -0.167
    \(\bar{x}\) 1.333 1.5
    \(\bar{y}\) 1.333 1.25
    a 4 4.5
    b 4 6
    c 4 6

    ここで、マハラビノス距離を展開すると楕円の方程式になるので、
    \(a(x-\bar{x})^2+b(x-\bar{x})(y-\bar{y})+c(y-\bar{y})^2\)=\(D\)
    の係数\(a,b,c\)を上表に載せています。計算して確認ください。
    なお(右辺)の\(D\)は距離です。

    マハラビノス距離から分析

    マハラビノス距離を計算すると、
    ●1群: \(4(x-1.333)^2\)+\(4(x-1.333)(y-1.333)\)+\(4(y-1.333)^2\)=\(D\)
    ●2群: \(4.5(x-1.5)^2\)+\(6(x-1.5)(y-1.25)\)+\(6(y-1.25)^2\)=\(D\)
    となります。

    グラフ表示

    楕円を図示します。

    数量化Ⅱ類

    1群、2群の違いがあるのかが、ちょっとわかりにくいですね。

    ➄線形判別関数とマハラビノス距離の分析結果を比較

    関連記事で求めた線形判別関数とマハラビノス距離の結果を1つのグラフに表示します。

    数量化Ⅱ類

    どうでしょうか?
    線形判別関数で作った直線の方がデータを2つにわけることがはっきりわかりますね。

    このようにして、数量化Ⅱ類を分析しますが、

    数量化2類は判別分析です!
    説明変数が質的か量的かが、違うだけで
    本質は同じです。

    まとめ

    「数量化2類ができる(その2)」を解説しました。

    • ①数量化2類は判別分析である(その1)
    • ➁データ事例(その1)
    • ➂線形判別関数で数量化2類(判別分析) (その1)
    • マハラビノス距離で数量化2類(判別分析)(その2)
    • 線形判別関数とマハラビノス距離の分析結果を比較(その2)

  • 数量化2類ができる(その1)

    数量化2類ができる(その1)

    「数量化2類がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化2類ができる(その1)

    おさえておきたいポイント

    • 数量化2類は判別分析である(その1)
    • データ事例(その1)
    • 線形判別関数で数量化2類(判別分析) (その1)
    • ➃マハラビノス距離で数量化2類(判別分析)(その2)
    • ➄線形判別関数とマハラビノス距離の分析結果を比較(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化2類は判別分析です!
    ならば、判別分析でいいじゃん!
    本当にそうです
    説明変数が質的か量的か
    くらいで、手法名変えるな!
    判別分析や数量化Ⅱ類とかあると
    かえって混乱する!

    ただの判別分析ですよ。

    ①数量化2類は判別分析である

    数量化2類は判別分析である

    結論はこれです。

    数量化2類は判別分析です!
    ならば、判別分析でいいじゃん!
    本当にそうです
    ただし、説明変数が
    計数値(質的データ)である点だけが
    判別分析と異なる
    入力データの性質が違うだけで
    解析手法は同じ

    判別分析の解析方法の復習

    判別分析は2つ解析方法があります。

    1. 線形判別関数による判別
    2. マハラビノス距離による判別

    この記事は両手法を数量化2類で解析しますので、
    ●線形判別関数の手法
    ●マハラビノス距離の手法
    をベースに解析します。

    先に関連記事で確認・復習しておきましょう。関連記事と同じデータを本記事で使います。

    線形判別関数について

    線形判別関数については、関連記事で解説していますので、先に確認してください。本記事では、線形判別関数の導出や具体的な計算ができる前提で話を進めていきます。

    線形判別関数が計算できる(2次元、その1)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    マハラビノス距離について

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    この記事のベースとなる関連記事

    判別分析で線形判別関数とマハラビノス距離を使った解析結果の比較を関連記事で解説しています。この関連記事の説明変数を質的データに変えた場合を本記事で考えます。

    マハラビノス距離と線形判別関数から判別分析ができる
    判別分析で線形判別関数、マハラビノス距離の結果の違いが説明できますか?本記事は、同じデータを使って、線形判別関数、マハラビノス距離を計算し、判別分析の結果の違いをわかりやすく解説します。多変量解析を学ぶ人は必読です。

    ➁データ事例

    以下のデータを使って、線形判別関数とマハラビノス距離の両手法で判別分析をします。

    関連記事の場合は下表のとおりです。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 4 8 4 10
    2 6 10
    3 2 12
    2 4 10 16 7.5 13.5
    5 5 10
    6 8 12
    7 7 16
    合計 42 84 全平均 6 12

    関連記事の場合は下表のとおりですが、今回は数量化2類なので、説明変数\(x_1\),\(x_2\)を黄色マーカーのようにあえて変えてみます。

    No \(x_1\) \(x_2\) 平均\(\bar{x_1}\) 平均\(\bar{x_2}\)
    1 1 1 1 1.333 1.333
    2 2 1
    3 1 2
    2 4 2 1 1.5 1.25
    5 1 1
    6 2 1
    7 1 2
    合計 10 9 全平均 1.429 1.286

    グラフは下図のとおりです。

    数量化2類

    ➂線形判別関数で判別分析

    線形判別関数から判別分析を、関連記事で解いています。途中経過は関連記事でご確認ください。

    線形判別関数が計算できる(2次元、その2)
    判別分析において、線形判別関数が計算できますか?本記事では2次元データを例に2記事にわたり線形判別関数の求め方をわかりやすく解説します。線形判別関数の結果と判別正誤率も解説します。多変量解析を学ぶ人は必読です。

    1.変動を計算

    実際に、全変動\(S_T\)と群間変動\(S_B\)を計算して、ラグランジュの未定乗数法を使って固有方程式を作ります。解き方の流れは関連記事に書いています。

    変動を求めるための表を作ります。

    N0 x y Z 群平均
    1 1 1 1 1\(a_1\)+1\(a_2\) 1.33\(a_1\)+1.33\(a_2\)
    2 2 1 2\(a_1\)+1\(a_2\)
    3 1 2 1\(a_1\)+2\(a_2\)
    2 4 2 1 2\(a_1\)+1\(a_2\) 1.5\(a_1\)+1.25\(a_2\)
    5 1 1 1\(a_1\)+1\(a_2\)
    6 2 1 2\(a_1\)+1\(a_2\)
    7 1 2 1\(a_1\)+2\(a_2\)
    全体の平均 1.429\(a_1\)+1.286\(a_2\)

    全変動\(S_T\)
    =\(\sum_{i=1}^{7}(Z-\bar{Z})^2\)
    =\(((1a_1+1a_2)-(1.429a_1+1.286a_2))^2\)+…
    =1.714\(a_1^2\)-1.714\(a_1 a_2\)+1.429\(a_2^2\)

    群間変動\(S_B\)
    =\(\sum_{i=1}^{3}(\bar{Z_1}-\bar{Z})^2\)+\(\sum_{i=1}^{4}(\bar{Z_2}-\bar{Z})^2\)
    =0.0486\(a_1^2\)-0.0476\(a_1 a_2\)+0.011\(a_2^2\)

    1. ラグランジュの未定乗数法から固有方程式を作る

    ラグランジュの未定乗数法から固有方程式を作ります。

    ラグランジュの未定乗数法から

    関数\(F\)を
    \(F(a_1,a_2\))=1.714\(a_1^2\)-1.714\(a_1 a_2\)+1.429\(a_2^2\)-\(λ(0.0486a_1^2 -0.0476a_1 a_2 +0.011 a_2^2)\)
    を定義して、偏微分=0の式を立てます。その後、固有方程式と流れますね。

    係数が小数で複雑なので、文字式で簡単に表記します。

    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_1} \)=\(sa_1 + ta_2)-λ(ua_1 + va_2)\)=0
    ●\(\displaystyle \frac{\partial F(a_1,a_2)}{\partial a_2} \)=\((ea_1 + fa_2)-λ(ga_1 + ha_2)\)=0

    行列表記しましょう。
    \(\left(
    \begin{array}{cccc}
    s-uλ & t-vλ \\
    e-gλ & f-hλ \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a_1 \\
    a_2\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)

    計算すると
    \(λ(6.857λ-0.190)\)=0

    よって、固有値λは
    λ=0,0.027
    となります。

    固有ベクトルを算出

    固有ベクトルから\((a,b)\)を計算します。

    固有値0のときは、固有ベクトルの成分がすべて0になるので、固有値が0.027についてのみ計算します。

    固有値0.027のとき

    固有値0のときは、
    \(\left(
    \begin{array}{cccc}
    0.09542 & -0.04762 \\
    -0.04762 & 0.02381 \\
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    a_1\\
    a_2\\
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0 \\
    0\\
    \end{array}
    \right)
    \)
    より、
    ●\(2a=b\)
    となります。

    3. 線形判別関数を作る

    係数比は\(2a=b\)であり、
    7つのデータの平均を通る関数を作ればよいので、
    Z=\(x_1\)+2\(x_2\)+4
    となります。

    グラフを描くとわかりやすいですね。

    数量化2類

    ➃マハラビノス距離で判別分析

    ここまでで十分ボリューム感ある記事になりましたので、
    数量化2類がわかる(その2)で解説します。

    まとめ

    「数量化2類ができる(その1)」を解説しました。

    • 数量化2類は判別分析である(その1)
    • データ事例(その1)
    • 線形判別関数で数量化2類(判別分析) (その1)
    • ➃マハラビノス距離で数量化2類(判別分析)(その2)
    • ➄線形判別関数とマハラビノス距離の分析結果を比較(その2)

  • 数量化1類の分析ができる

    数量化1類の分析ができる

    「数量化1類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化1類の分析ができる

    おさえておきたいポイント

    • ①数量化1類は重回帰分析
    • ➁重回帰分析の解き方(復習)
    • ➂数量化1類と重回帰分析を比較
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    ①数量化1類は重回帰分析

    数量化1類は重回帰分析です。
    数量化○○とカテゴライズするから
    かえってわかりにくい!
    数量化1類と重回帰分析の違いは
    説明変数が計数値か計量値かどうかの違い
    本質は同じ
    だったら数量化1類と命名せず、
    重回帰分析でいいのにね!と思いますけど

    なので、重回帰分析を復習してから、説明変数を計量値から計数値に変えた場合の重回帰分析をします。それが数量化1類の分析なのです。

    ➁重回帰分析の解き方(復習)

    重回帰分析の復習ができる関連記事

    【まとめ】重回帰分析がよくわかる
    重回帰分析は自信もって解けますか?説明できますか? 本記事では、重回帰分析の考え方、理解すべきポイント、重回帰分析の特徴をわかりやすく解説し、公式の導出過程を詳しく解説します。公式暗記、解法暗記で終わらせずに、本質を学ぶことができます。多変量解析を学ぶ人は必読です。

    QCプラネッツは重回帰分析を17記事まとめています。リンク集から関連記事を確認ください。

    重回帰分析の回帰式が導出できる
    平方和の分解と分散分析ができる(重回帰分析)
    重回帰分析の寄与率Rがわかる
    重回帰分析と単回帰分析の比較がわかる
    重回帰分析の推定区間の式が導出できる(その1)
    重回帰分析の推定区間の式が導出できる(その2)
    偏相関係数が導出できる
    重回帰分析の多重共線性がわかる
    重回帰分析は単位に影響されない理由がわかる
    重回帰分析は単位に影響されない理由がわかる(その2)
    重回帰分析のダミー変数の使い方がよくわかる
    偏回帰係数に関する検定と推定がよくわかる
    変数増減法がよくわかる
    重回帰分析のテコ比がよくわかる(その1)
    重回帰分析のテコ比がよくわかる(その2)
    ダービンワトソン比がよくわかる

    重回帰分析の復習ポイント

    重回帰分析から数量化1類へ変化していく際に、比較するために必要な変数を復習しましょう。

    1. 平方和\(S\)
    2. 分散分析
    3. 回帰直線(切片と傾き)
    4. 寄与率\(S_R\)

    この記事では説明変数は2つとし、回帰直線
    \(y=a+bx_1 +cx_2\)
    を考えます。

    ●平方和は
    ・\(S_y\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_{2i}-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})(x_{2i}-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_{1i}-\bar{x_1})(y_i-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_{2i}-\bar{x_2})(y_i-\bar{y})\)

    ●回帰直線(切片と傾き) は
    ◎傾き
    ・\(S_{11}b+S_{12}c=S_{1y}\)
    ・\(S_{12}b+S_{22}c=S_{2y}\)
    ◎切片
    \(\bar{y}=a+b \bar{x_1} +c \bar{x_2}\)

    ●寄与率\(S_R\)は
    \(S_R\)=\(b S_{1y} + c S_{2y}\)

    ➂数量化1類と重回帰分析を比較

    データを用意

    数量化1類と重回帰分析を比較するために、次の3つのデータを用意します。

    データ(type1)

    No x1 x2 y
    1 3 1 3
    2 2 4 4
    3 4 2 4
    4 4 5 7
    5 5 4 7
    6 6 2 5
    合計 24 18 30
    平均 4 3 5

    次に、説明変数\(x_1,x_2\)において、
    ●0~3⇒0
    ●4~6⇒1
    という基準を設けてダミー変数化して
    重回帰分析します。

    データ(type2)は、説明変数\(x_1\)のみ
    データ(type3)は、説明変数\(x_1,x_2\)両方
    とします。

    データ(type2)

    No x1 x2 y
    1 0 1 3
    2 0 4 4
    3 1 2 4
    4 1 5 7
    5 1 4 7
    6 1 2 5
    合計 4 18 30
    平均 0.67 3 5

    データ(type3)

    No x1 x2 y
    1 0 0 3
    2 0 1 4
    3 1 0 4
    4 1 1 7
    5 1 1 7
    6 1 0 5
    合計 4 3 30
    平均 0.67 0.5 5

    分析結果を比較

    平方和、分散分析、回帰直線、寄与率を比較しますが、

    数量化1類も重回帰分析も
    同じ解き方です。

    平方和

    平方和 データ(type1) データ(type2) データ(type3)
    \(S_{11}\) 10 68 68
    \(S_{1y}\) 6 3 3
    \(S_{12}\) -1 -1 50
    \(S_{22}\) 12 12 39
    \(S_{2y}\) 10 10 3
    \(S_{yy}\) 14 14 14

    上表のマーカー部ですが、説明変数\(x_i\)の値が
    変化したところの平方和が変化していますね。

    分散分析

    データ(type1) データ(type2) データ(type3)
    平方和S 自由度φ 平方和S 自由度φ 平方和S 自由度φ
    回帰R 13.042 2 12.089 2 12.75 2
    残差e 0.958 3 1.911 3 1.25 3
    計T 14 5 14 5 14 5

    データtype1から3にかけて、回帰平方和に若干の差が出ていますが、
    総平方和は不変であることがわかりますね。

    回帰直線

    定数項 \(x_1\)の係数 \(x_2\)の係数
    データ(type1) -0.429 0.689 0.891 \(y=\)-0.429+0.689\(x_1\)+0.891\(x_2\)
    データ(type2) 1.778 1.733 0.689 \(y=\)1.778+1.733\(x_1\)+0.689\(x_2\)
    データ(type3) 2.5 2.25 2 \(y=\)2.5+2.25\(x_1\)+2\(x_2\)

    それぞれのケースで若干値が変わっていますね。

    寄与率

    寄与率R
    データ(type1) 0.932
    データ(type2) 0.863
    データ(type3) 0.911

    数量化1類の分析ができましたね!

    まとめ

    「数量化1類の分析ができる」を解説しました。

    • ①数量化1類は重回帰分析
    • ➁重回帰分析の解き方(復習)
    • ➂数量化1類と重回帰分析を比較

  • コレスポンデンス分析ができる

    コレスポンデンス分析ができる

    「コレスポンデンス分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    コレスポンデンス分析ができる

    おさえておきたいポイント

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    コレスポンデンス分析は
    各欄の値が0以上の整数において
    相関係数の最大化する条件を求めるもの
    コレスポンデンス分析は
    数量化3類と数量化4類の解法を合体させたものと
    理解しよう!

    ①コレスポンデンス分析とは

    コレスポンデンス分析とは

    簡単にいうと

    数量化3類の拡張版で
    カテゴリーを数量化と重みづけしたもの。
    重みづけは数量化4類の解法をベースに理解しよう!
    数量化3類と数量化4類の解法を応用したもの

    なので、数量化3類と数量化4類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    数量化4類の分析ができる
    数量化4類の分析ができますか? 本記事では主成分分析、数量化3類の解法をベースに数量化4類の解法をわかりやすく解説します。ツールに頼らず、手計算でできる内容でまとめていますので、早く理解できます。多変量解析を学ぶ人は必読です。

    ➁コレスポンデンス分析の解き方

    解法手順

    では、コレスポンデンス分析の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!
    重みづけデータがあるのは数量化4類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これをコレスポンデンス分析で分析しましょう。

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    ここで、表の意味を説明します。

    (\(a_i\),\(b_j\))においては、その点数が指定されています。
    数量化3類は点数はなく、すべての(\(a_i\),\(b_j\))が1または0(空欄)でしたね。
    1以上の整数が入るのが、コレスポンデンス分析と数量化3類との違いです。

    その中で、表全体の相関係数が最大にとなる条件を考えます。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+3a_2+3a_3}{8}\)=0
    ●\(\bar{b}\)=\(\frac{4b_1+b_2+3b_3}{8}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{8}\frac{(a_i-\bar{a})^2}{8}\)=\(\sum_{i=1}^{8}\frac{a_i}{8}\)
    =\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{8}\frac{(b_i-\bar{b})^2}{8}\)=\(\sum_{i=1}^{8}\frac{b_i}{8}\)
    =\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1

    まとめると、

    \(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)=1
    \(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    解法は数量化3類と全く同じです。

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+3a_2^2+3a_3^2)\)=8
    ●\(S_b\)=\((4b_1^2+b_2^2+3b_3^2)\)=8

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{8} (a_i-\bar{a})(b_i-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)\)-1=0
    ●\(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{8}( a_1 b_2+a_1 b_3 + a_2 b_1 + 2a_2 b_3 + 3a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{8}(2a_1^2+3a_2^2+3a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{8}(4b_1^2+b_2^2+3b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{8}(b_2+b_3)-\frac{λ_1}{2} \frac{4a_1}{8}\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{8}(b_1+2b_3)- \frac{λ_1}{2} \frac{6a_2}{8}\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{8}(3b_1)- \frac{λ_1}{2} \frac{6a_3}{8}\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{8}(a_2+3a_3)- \frac{λ_2}{2} \frac{8b_1}{8}\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{8}(a_1)- \frac{λ_2}{2} \frac{2b_2}{8}\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{8}(a_1+2a_2)- \frac{λ_2}{2} \frac{6b_3}{8}\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    (\(a_1 b_2 + a_1 b_3 – 2λ_1 a_1^2\))+(\(a_2 b_1 + 2a_2 b_3 – 3λ_1 a_2^2\))+(\(3a_3 b_1 – 3λ_1 a_3^2\))=0
    \((a_1 b_2 + a_1 b_3+ a_2 b_1 + 2a_2 b_3+3a_3 b_1)\)-\(λ_1(2a_1^2+3 a_2^2+3 a_3^2)\)=0
    \(8r -8λ_1\)=0
    より、
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    (\(a_2 b_1 +3 a_3 b_1 – 4λ_2 b_1^2\))+(\(a_1 b_2 – λ_2 b_2^2\))+(\(a_1 b_3 +2a_2 b_3 – 3λ_2 b_3^2\))=0
    \((a_2 b_1 +3 a_3 b_1+ a_1 b_2 + a_1 b_3 +2a_2 b_3)\)-\(λ_2(4b_1^2+b_2^2+3 b_3^2)\)=0
    \(8r -8λ_2\)=0
    より、
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +2b_3}{3λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + 2b_3}{3λ}+\frac{3b_1}{λ}\)-\(4λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\(\frac{b_2 + b_3}{2λ}+\frac{2b_1+4b_2}{3λ}\)-\(3λb_3\)=0 …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    10-12λ^2 & 0 & 2 \\
    0 & 1-2λ^2 & 1 \\
    4 & 11 & 3-18λ^2
    \end{vmatrix}\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおいて、行列式を解くと、
    \(λ^2=t\)(\(t\) ≥ 0)
    \((10-12t)(1-2t)(3-18t)\)+0・1・4+2・0・11-2・\((1-2t)\)・4-0・0・\((3-18t)\)-\((10-12t)\)・1・11=0

    \(54t^3-81t^2+16t+11\)=0
    \((t-1)(54t^2-27t-11)\)=0
    より、
    \(t\)=1,-0.2659,0.766

    \(t\) ≥ 0より、
    \(t\)=1,0.766

    数量化3類でありましたように、
    \(t\)=1は相関係数が1となるので、特例として扱わないとします。

    よって、
    \(t\)=0.766
    \(λ\)=0.875
    の1つだけとなります。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が1つ(\(λ\)=0.875)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=0.875のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.808 & 0 & 2 \\
    0 & -0.532 & 1 \\
    4 & 11 & -10.788
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.758 \\
    0.575\\
    0.306
    \end{array}
    \right)
    \)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=0.504
    \(a_2\)=\(\frac{b_1+2b_3}{3λ}\)=0.150
    \(a_3\)=\(\frac{b_1}{λ}\)=-0.866
    \(r\)=\(λ\)=0.875

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=0.575, \(b_3\)=0.306, \(b_1\)=-0.758
    ●\(a_1\)=0.504, \(a_2\)=0.150, \(a_3\)=-0.866
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    データ \(b_1\) \(b_2\) \(b_3\)
    \(a_1\) 0 1 1 2
    \(a_2\) 1 0 2 3
    \(a_3\) 3 0 0 3
    4 1 3 8

    から下表に変化します。

    データ \(b_2\) \(b_3\) \(b_1\)
    \(a_1\) 1 1 0 2
    \(a_2\) 0 2 1 3
    \(a_3\) 0 0 3 3
    1 3 4 8

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これがコレスポンデンス分析で実施したいことです。

    コレスポンデンス分析は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    数量化3類と数量化4類の応用した解法ですね!

    コレスポンデンス分析の分析ができましたね!

    まとめ

    「コレスポンデンス分析ができる」を解説しました。

    • ①コレスポンデンス分析とは
    • ➁コレスポンデンス分析の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化4類の分析ができる

    数量化4類の分析ができる

    「数量化4類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化4類の分析ができる

    おさえておきたいポイント

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化4類のネーミングより
    解法を理解しよう!

    ①数量化4類とは

    数量化4類とは

    簡単にいうと

    互いの親近性から関係を数量化するもの
    数量化3類に親近度の重みづけをしたもの
    数量化3類の解法を応用したもの

    なので、数量化3類の解法がベースとなります。関連記事で事前に確認しましょう。まったく同じ解法で本記事を解説します。

    数量化3類の分析ができる
    数量化3類が説明できますか?分析できますか? 本記事では、数量化3類の本質や解法をデータ事例を使いながらわかりやすく解説します。多変量解析を学ぶ人は必読です。

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化4類の解き方

    解法手順

    では、数量化4類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 距離の平方和が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!
    数量化3類と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!
    数量化4類は
    親近度の重みづけが
    数量化3類の解法から
    追加されます。

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化4類で分析しましょう。

    親近度 \(S_1\) \(S_2\) \(S_3\)
    \(S_1\) 1 2
    \(S_2\) 0 1
    \(S_3\) 3 0

    ここで、表の意味を説明します。

    \(S_i\)と\(S_j\)の親近度は
    ●\(S_i\)にとっての\(S_j\)の親近度\(T_{ij}\)と
    ●\(S_j\)にとっての\(S_i\)の親近度\(T_{ji}\)が
    それぞれあるので、
    \(T_{ij}\)≠\(T_{ji}\)
    も十分起こりえます。この点に注意しましょう。

    その中で、\(S_i\)と\(S_j\)の距離を
    \(x_i\)と\(x_j\)を使って表現し、その距離の平方和Qを考えます。

    Qの式が親近度の重みづけが入る点が
    数量化3類の解法と違って
    数量化4類の解法なのです。

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{x}\)=\(\frac{x_1+x_2+x_3}{3}\)=0

    分散V

    ●\(V\)=\(\sum_{i=1}^{3}\frac{(x_i-\bar{a})^2}{3}\)=\(\sum_{i=1}^{3}\frac{x_i}{3}\)
    =\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1

    まとめると、

    \(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)=1
    後で使う式となります。

    ➃解法2. 距離の平方和が最大になる条件を求める

    距離の平方和Qを計算

    距離の平方和Qは
    Q=1×\((x_1 -x_2)^2\)+2×\((x_1 -x_3)^2\)+0×\((x_2 -x_1)^2\)
    +1×\((x_2 -x_3)^2\)+3×\((x_3 -x_1)^2\)+0×\((x_3 -x_2)^2\)
    =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    Q =\((x_1 -x_2)^2\)+2\((x_1 -x_3)^2\)+\((x_2 -x_3)^2\)+3\((x_3 -x_1)^2\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(x\)の制約条件は、分散の式から
    ●\(\frac{1}{3}(x_1^2+x_2^2+x_3^2)\)-1=0

    関数Fを下式で定義します。

    F=Q-\(\frac{λ}{3}( x_1^2+x_2^2+x_3^2-3)\)

    F,Qが最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial x_1}\)=\(2(x_1 – x_2)+4(x_1 -x_3)-6(x_3 – x_1)-\frac{2}{3}λx_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial x_2}\)=\(-2(x_1 – x_2)+2(x_2 -x_3)-\frac{2}{3}λx_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial x_3}\)=\(-4(x_1 – x_3)-2(x_2 -x_3)+6(x_3 – x_1)-\frac{2}{3}λx_3\)=0 …➂

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~➂の式を整理していきます。

    式を整理

    ①➁➂式を整理すると
    ●\(6x_1 -6x_2 -5x_3 – \frac{1}{3}λx_1\)=0
    ●\(-x_1 +2x_2 -x_3 – \frac{1}{3}λx_2\)=0
    ●\(-5x_1 -x_2 +6x_3 – \frac{1}{3}λx_3\)=0

    固有方程式が結果的にできる

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\frac{1}{3}λ\)=\(a\)と置きます。

    \(\left(
    \begin{array}{cccc}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    6-a & -6 & -5 \\
    -1 & 2-a & -1 \\
    -5 & -1 & 6-a
    \end{vmatrix}\)

    行列式を解くと、
    \((6-a)(2-a)(6-a)\)+(-6)(-1)(-5)+(-5)(-1)(-1)
    -(-5)\((2-a)\)(-5)-(6)(-1)\((6-a)\)-\((6-a)\)(-1)(-1)=0

    3次方程式をまとめると
    \(a^3-14a^2+28a+55\)=0
    実は、因数分解できます!
    \((a-11)(a^2-3a-5)\)=0

    よって\(a\)は
    \(a\)=\(\frac{1}{3}λ\)=11,\(\frac{3±\sqrt{29}}{2}\)
    つまり、
    \(λ\)=33,12.576,-3.579
    が得られます。

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=33,12.576,-3.579)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=33のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -5 & -6 & -5 \\
    -1 & -9 & -1 \\
    -5 & -1 & -5
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.707 \\
    0 \\
    -0.707
    \end{array}
    \right)
    \)
    となります。

    固有値\(λ\)=12.576のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.808 & -6 & -5 \\
    -1 & -2.192 & -1 \\
    -5 & -1 & 1.808
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    0.380 \\
    -0.521 \\
    0.764
    \end{array}
    \right)
    \)

    固有値\(λ\)=-3.579のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    7.193 & -6 & -5 \\
    -1 & 3.193 & -1 \\
    -5 & -1 & 7.193
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    x_1 \\
    x_2 \\
    x_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0.725 \\
    0.402 \\
    0.559
    \end{array}
    \right)
    \)
    となります。

    固有ベクトルからわかること

    解析結果をまとめると下表になり、その関係性を数直線に描いてみましょう。

    \(λ\)=33 \(λ\)=12.576 \(λ\)=-3.579
    \(x_1\) 0.707 0.38 0.725
    \(x_2\) 0 -0.521 0.402
    \(x_3\) -0.707 0.764 0.559

    数量化4類

    どうでしょうか?
    数量化4類で分析すると、親近度の関係性が見えてきます。あとは、これをどう分析に使うかを考えていけばよいのです。

    数量化4類は
    数量化3類と同じ解法で重みづけを加えて
    距離の平方和が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析、数量化3類と同じ解法の流れになりますね!

    数量化4類の分析ができましたね!

    まとめ

    「数量化4類の分析ができる」を解説しました。

    • ①数量化4類とは
    • ➁数量化4類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2. 距離の平方和が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 数量化3類の分析ができる

    数量化3類の分析ができる

    「数量化3類の分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    数量化3類の分析ができる

    おさえておきたいポイント

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    数量化3類のネーミングより
    解法を理解しよう!

    ①数量化3類とは

    数量化3類とは

    簡単にいうと

    縦と横の表項目を
    相関性の高い順に並び替える

    下右図のように相関性が高い順に並び替えると、ある一定の並び方が見えやすくするのが、数量化3類の解析目的です。

    数量化3類

    「数量化○○」と無理にカテゴライズしなくていい

    正直、数量化○○で分類するとかえって理解しにくいです。

    手法を分類するとわかりやすいですが、QCプラネッツは気にしなくていいと考えます。

    ●重回帰分析と数量化1類は
    量的データと質的データの違い
    無理に区別する必要はない!
    なぜなら、解法・目的は同じだから

    変数を0,1などのダミー変数を使ったり、整数値にする場合もあるし、実数を使う場合もありますが、それは解析者の自由でよいでしょうね。そうなると、数量化1類は重回帰分析でいいんですよ!

    ●判別分析と数量化2類も同じでいい

    数量化3類

    ●多変量解析分類すると細かすぎる
    もっとシンプルに分類できないか?
    シンプルだが、解法・目的が一発でわかる分類方法はないのか?

    どの、教科書も同じことを書くので、
    「皆が同じことを書くと正しいと思いがち」ですが、
    自分に合わない、気に入らない考えがあれば、自分に合う定義で分類してもOKですよ!

    ➁数量化3類の解き方

    解法手順

    では、数量化3類の解法を解説します! 次のステップで解いていきます。

    1. データ表を用意
    2. 相関係数が最大になる条件を求める
    3. ラグランジュの未定乗数法を使う
    4. 結果的に固有方程式になる
    5. 最大の固有値解からデータの関係性を求める

    よく見ると、

    主成分分析と同じ解法!

    なので、注意したいのは、

    固有値を計算することより、
    条件式がラグランジュの未定乗数法を用いた結果
    固有方程式になるという意識が大事でしたね!

    主成分分析でも同じことを解説しています。関連記事で紹介します。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    では、実データを使いながら解説します。

    ➂解法1.データ表を用意

    データ表を用意

    あるアンケートを取ったら、下表のようになったとしましょう。これを数量化3類で分析しましょう。

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    データの平均と分散を0,1と標準化する

    解析しやすくするために、
    ●平均0
    ●分散1
    とします。

    平均

    ●\(\bar{a}\)=\(\frac{2a_1+2a_2+a_3}{5}\)=0
    ●\(\bar{b}\)=\(\frac{2b_1+b_2+2b_3}{5}\)=0

    分散V

    ●\(V_a\)=\(\sum_{i=1}^{5}\frac{(a_i-\bar{a})^2}{5}\)=\(\sum_{i=1}^{5}\frac{a_i}{5}\)
    =\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    ●\(V_b\)=\(\sum_{i=1}^{5}\frac{(b_i-\bar{b})^2}{5}\)=\(\sum_{i=1}^{5}\frac{b_i}{5}\)
    =\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1

    まとめると、

    \(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    \(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    後で使う式となります。

    ➃解法2.相関係数が最大になる条件を求める

    相関係数を計算

    相関係数\(r\)は
    \(r\)=\(\frac{S_{ab}}{S_{a} S_{b}}\)
    ですね。

    分母はすでに分散のところで計算済なので、
    ●\(S_a\)=\((2a_1^2+2a_2^2+a_3^2)\)=5
    ●\(S_b\)=\((2b_1^2+b_2^2+2b_3^2)\)=5

    分子を計算すると、
    ●\(S_{ab}\)\(\sum_{i=1}^{5} \sum_{j=1}^{5}(a_i-\bar{a})(b_j-\bar{b})\)
    =\(a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1\)

    よって、相関係数\(r\)は

    \(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)

    ➄解法3.ラグランジュの未定乗数法を使う

    ラグランジュの未定乗数法

    \(a,b\)の制約条件は、分散の式から
    ●\(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)\)-1=0
    ●\(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)\)-1=0

    関数Fを下式で定義します。今回変数が\(a,b\)の2種類があるので\(λ_1,λ_2\)を使います。

    F=\(\frac{1}{5}( a_1 b_2+a_1 b_3 + a_2 b_1 + a_2 b_3 + a_3 b_1)\)
    -\(\frac{λ_1}{2}(\frac{1}{5}(2a_1^2+2a_2^2+a_3^2)-1)\)
    -\(\frac{λ_2}{2}(\frac{1}{5}(2b_1^2+b_2^2+2b_3^2)-1)\)

    相関係数\(r\)が最大になる条件は、
    ●\(\displaystyle \frac{\partial F}{\partial a_1}\)=\(\frac{1}{5}(b_2+b_3)-\frac{2λ_1}{5}a_1\)=0 …①
    ●\(\displaystyle \frac{\partial F}{\partial a_2}\)=\(\frac{1}{5}(b_1+b_3)-\frac{2λ_1}{5}a_2\)=0 …➁
    ●\(\displaystyle \frac{\partial F}{\partial a_3}\)=\(\frac{1}{5}(b_1)-\frac{λ_1}{5}a_3\)=0 …➂
    ●\(\displaystyle \frac{\partial F}{\partial b_1}\)=\(\frac{1}{5}(a_2+a_3)-\frac{2λ_2}{5}b_1\)=0 …➃
    ●\(\displaystyle \frac{\partial F}{\partial b_2}\)=\(\frac{1}{5}(a_1)-\frac{λ_2}{5}b_2\)=0 …➄
    ●\(\displaystyle \frac{\partial F}{\partial b_3}\)=\(\frac{1}{5}(a_1+a_2)-\frac{2λ_2}{5}b_3\)=0 …⑥

    本記事のテーマは
    ラグランジュの未定乗数法を使うことです。
    ここをよく意識しておいてください。

    ⑥解法4.結果的に固有方程式になる

    ①~⑥の式を整理していきます。

    相関係数\(r\)と\(λ_1,λ_2\)の関係式を作る

    ①×\(a_1\)+➁×\(a_2\)+➂×\(a_3\)
    \(\frac{1}{5}(a_1 b_2+a_1 b_3 -2λ_1 a_1^2)\)+\(\frac{1}{5}(a_2 b_1+a_2 b_3 -2λ_1 a_2^2)\)+\(\frac{1}{5}(a_2 b_1 -λ_1 a_3^2)\)=0
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2a_1^2+2a_2^2+a_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_1\)
    とシンプルになります。

    同様に
    ➃×\(b_1\)+⑤×\(b_2\)+⑥×\(b_3\)
    \(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)-\(\frac{λ_2}{5}(2b_1^2+b_2^2+2b_3^2)\)=0 (式1)
    ここで、
    ●\(r\)=\(\frac{1}{5}( a_1 b_2+a_1 b_3+ a_2 b_1+a_2 b_3+ a_2 b_1)\)
    ●\(\frac{λ_1}{5}(2b_1^2+b_2^2+2b_3^2)\)=1
    より、(式1)は
    \(r\)=\(λ_2\)
    とシンプルになります。

    まとめると、

    \(r\)=\(λ_1\)=\(λ_2\)
    の関係式を使っていきます。

    固有方程式が結果的にできる

    \(λ_1\)=\(λ_2\)=\(λ\)として、①➁➂式から
    ●\(a_1\)=\(\frac{b_2 +b_3}{2λ}\) …①
    ●\(a_2\)=\(\frac{b_1 +b_3}{2λ}\) …➁
    ●\(a_3\)=\(\frac{b_1}{λ}\) …➂

    ➃➄⑥式に代入すると
    ●\(\frac{b_1 + b_3}{2λ}-2λb_1\)=0 …➃
    ●\(\frac{b_2 + b_3}{2λ}-λb_2\)=0 …➄
    ●\((\frac{b_2 + b_3}{2λ}+\frac{b_1 + b_3}{2λ})-2λb_3\)= …⑥

    この式を行列表記すると、結果的、固有方程式ができます。

    \(\left(
    \begin{array}{cccc}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    固有値解を解く

    上の固有方程式から、下の行列式=0となる条件を解けばOKです。3次方程式になりますが、頑張って解きます!

    \(\begin{vmatrix}
    \frac{3}{2}-2λ^2 & 0 & \frac{1}{2} \\
    0 & \frac{1}{2}-λ^2 & \frac{1}{2} \\
    \frac{1}{2} & \frac{1}{2} & 1-2λ^2
    \end{vmatrix}\)=0

    行列式を解くと、
    \((\frac{3}{2}-2λ^2)(\frac{1}{2}-λ^2)(1-2λ^2)\)-\(\frac{1}{4}(\frac{1}{2}-λ^2)\)-\(\frac{1}{4}(\frac{3}{2}-2λ^2)\)=0

    \(λ^2=t\)(\(t\) ≥ 0)とおくと、
    \(16t^3-28t^2+13t-1\)=0
    \((t-1)(t-\frac{3-\sqrt{5}}{8})( t-\frac{3+\sqrt{5}}{8})\)=0
    \(t\)=1,0.6545,0.0955
    \(λ\)=1,0.809,0.309 (\(λ\)も正についてのみ考えます。)

    ここまでで、固有値解が計算できました。次は固有ベクトルを計算してデータの関係性を確認します。

    ⑦解法5.最大の固有値解からデータの関係性を求める

    固有値が3つ(\(λ\)=1,0.809,0.309)求まりましたので、それぞれの固有ベクトルを計算しましょう。

    固有値\(λ\)=1のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    -0.5 & 0 & 0.5 \\
    0 & -0.5 & 0.5 \\
    0.5 & 0.5 & -1
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(b_1\)=\(b_2\)=\(b_3\)
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=\(b_1\)
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=\(b_1\)
    \(a_3\)=\(\frac{b_1}{λ}\)=\(b_1\)
    より、
    \(a_1\)=\(a_2\)=\(a_3\)=\(b_1\)=\(b_2\)=\(b_3\)
    \(r\)=1

    たしかに、全部値が同じなら相関係数1ですよね。
    ただ、これは異例なので、相関係数1以下を調べてみましょう。

    固有値\(λ\)=0.809のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    0.191 & 0 & 0.5 \\
    0 & -0.154 & 0.5 \\
    0.5 & 0.5 & -0.309
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -2.617 \\
    3.236 \\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=2.618
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=-0.999
    \(a_3\)=\(\frac{b_1}{λ}\)=-3.234
    \(r\)=\(λ\)=0.809

    固有値\(λ\)=0.309のとき

    固有方程式は

    \(\left(
    \begin{array}{cccc}
    1.31 & 0 & 0.5 \\
    0 & 0.405 & 0.5 \\
    0.5 & 0.5 & 0.809
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=
    \(
    \left(
    \begin{array}{c}
    0 \\
    0 \\
    0
    \end{array}
    \right)
    \)

    計算すると
    \(
    \left(
    \begin{array}{c}
    b_1 \\
    b_2 \\
    b_3
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    -0.382\\
    -1.237\\
    1
    \end{array}
    \right)
    \)
    (\(b_3\)=1とします。)

    \(a_1\),\(a_2\),\(a_3\)は
    \(a_1\)=\(\frac{b_2+b_3}{2λ}\)=-0.385
    \(a_2\)=\(\frac{b_1+b_3}{2λ}\)=1.000
    \(a_3\)=\(\frac{b_1}{λ}\)=-1.236
    \(r\)=\(λ\)=0.309

    固有値\(λ\)=0.809からわかること

    \(a_1\),\(a_2\),\(a_3\)と
    \(b_1\),\(b_2\),\(b_3\)の
    大きい順に並べると

    ●\(b_2\)=3.236, \(b_3\)=1, \(b_1\)=-2.617
    ●\(a_1\)=2.618, \(a_2\)=-0.999, \(a_3\)=-3.234
    の順になります。これを最初の表に適用すると、相関性の高い順に並び変わります。

    元の表は、

    カテゴリー 1 2 3
    サンプル \(b_1\) \(b_2\) \(b_3\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_1\)) (\(a_2,b_3\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    2 1 2 5

    から下表に変化します。

    カテゴリー 1 2 3
    サンプル \(b_2\) \(b_3\) \(b_1\)
    1 \(a_1\) (\(a_1,b_2\)) (\(a_1,b_3\)) 2
    2 \(a_2\) (\(a_2,b_3\)) (\(a_2,b_1\)) 2
    3 \(a_3\) (\(a_3,b_1\)) 1
    1 2 2 5

    どうでしょうか?
    左上から右下への対角線上にデータが乗るように、入れ替わりましたね!
    これが数量化3類で実施したいことです。

    数量化3類は
    相関係数が最大になる条件を
    ラグランジュの未定乗数法から求めます。
    その結果、固有方程式につながります。
    主成分分析と同じ解法の流れになりますね!

    数量化3類の分析ができましたね!

    まとめ

    「数量化3類の分析ができる」を解説しました。

    • ①数量化3類とは
    • ➁数量化3類の解き方
    • ➂解法1.データ表を用意
    • ➃解法2.相関係数が最大になる条件を求める
    • ➄解法3.ラグランジュの未定乗数法を使う
    • ⑥解法4.結果的に固有方程式になる
    • ⑦解法5.固有値解からデータの関係性を求める

  • 【重要】クラスター分析できる

    【重要】クラスター分析できる

    「クラスター分析ってどうやって解くのかがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    クラスター分析できる

    おさえておきたいポイント

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    クラスタ―分析を
    最短距離法、最長距離法、群平均法の3手法の
    違いを理解しながらマスターできる!
    クラスタ―分析を
    マスターできる最強の記事です。

    ①クラスター分析とは

    データをクラスターで分ける

    文字のとおり、データ群をある規模のクラスターで分類することですね。下図のようなイメージが簡単にできますよね!

    クラスター分析

    ここで問題になるのが

    どうやってクラスタ―に分類するの?

    クラスター分析の主な2つの手法

    よくあるのが、

    1. 階層的方法(手計算で考えて解く方法)←これを解説!
    2. 非階層的方法(計算機で解く方法)

    本来は、非階層的方法で、計算機とプログラムを使って解きたいですが、
    何を解いているかがわからないので、手計算で理解できる階層的方法を使ってクラスター分析を理解しましょう。

    ➁最短距離法、最長距離法、群平均法とは

    階層的方法はさらに3つの方法に分類できます。
    比較しながら3手法をマスターしましょう!

    1. 最短距離法(最も基本的)
    2. 最長距離法
    3. 群平均法

    まずは、最短距離法でクラスター分類して、結果を可視化して納得いけばいいですが、
    結果がいまいちな場合は、最長距離法、群平均法を使っていきます。

    結果の吟味は我々人間がやります!

    最短距離法

    クラスターに含まれる対象の対の中で、最短距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(min(d(C_i,C_k),d(C_j,C_k))\)

    「min」から最短とわかればOKです。

    最長距離法

    クラスターに含まれる対象の対の中で、最長距離なものを選びます。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(max(d(C_i,C_k),d(C_j,C_k))\)

    「max」から最長とわかればOKです。

    群平均法

    最短でも最長でもなく、平均的な値で定義したい場合に使います。式で書くと
    \(d(C_i\) ∪ \(C_j,C_k)\)=\(\frac{n_i ×d(C_i,C_k)+n_j ×d(C_j,C_k)}{n_i + n_j}\)

    「平均」を計算しているとわかればOKです。

    ➂クラスター分析の解法

    共通の解き方(最短距離法、最長距離法、群平均法)

    クラスター分析は3つの手法を比較しながら、まとめて解くと、
    統一した解き方が理解できます! 解説しますね!

    おさえておきたい解き方

    3つのステップがあります。

    1. 全手法とも、最初は最短距離なペアでクラスターを作る
    2. 手法別にクラスター間距離を計算
    3. クラスターを合体

    の3ステップを全データが分類し終わるまで繰り返します。

    クラスター分析

    特に注意が必要なのは、

    最長距離法、群平均法でも、最初は最短距離なペアを見つける点に注意しましょう。

    では、実際に解いてみましょう。

    データ事例

    【事例】
    5つのデータがあり、それぞれの距離がわかっている。
    (1)最短距離法
    (2)最長距離法
    (3)群平均法
    を使って、それぞれクラスター分析せよ。
    A B C D E
    A
    B 31.6
    C 20 51
    D 31.6 28.3 42.4
    E 31.6 63.2 14.1 56.6

    ➃最短距離法、最長距離法、群平均法を比較しながら解く

    分類は3回実施しますので、丁寧に解説します。

    分類1回目

    1回目step1

    最短距離なペアを見つけましょう。
    CとEの14.1が最短ですね。見ればわかる!

    クラスター分析

    1回目step2

    CEが1つのクラスターになったので、
    ●AとCEクラスター
    ●BとCEクラスター
    ●DとCEクラスター
    との距離を最短距離法、最長距離法、群平均法で解きます。

    クラスター分析

    ●最短距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から20を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から51を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 42.4を選択

    ●最長距離法では、
    ・AとCEクラスター⇒ 黄色の20と31.6から31.6を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から63.2を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から 56.6を選択

    ●群平均では、
    ・AとCEクラスター⇒ 黄色の20と31.6から平均1/2×(20+31.6)=25.8を選択
    ・BとCEクラスター⇒ 緑色の51と63.2から平均1/2×(51+63.2)=57.1を選択
    ・DとCEクラスター⇒ 青色の 42.4と56.6から平均1/2×(42.4+56.6)=49.5を選択

    1回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで1回目が終了です。3手法の違いが見えましたね。2回目も同様に解けます!

    分類2回目

    2回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、A-CE間の20
    ●最長距離法では、B-D間の28.3
    ●群平均法では、A-CE間の25.8
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    2回目step2

    ●最短距離法では、ACEクラスターとB,Dとの距離
    ●最長距離法では、AとCEクラスターとBDクラスターとの距離
    ●群平均法では、ACEクラスターとB,Dとの距離
    との距離を最短距離法、最長距離法、群平均法で解きます。
    ここが一番難しい所ですが、頑張って乗り越えましょう!

    クラスター分析

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色の31.6と51から31.6を選択
    ・ACEクラスターとD⇒ 緑色の31.6と42.4から31.6を選択

    ●最長距離法では、
    ・AとBDクラスター⇒ 灰色の31.6と31.6から31.6を選択
    ・BDクラスターとCEクラスター⇒ 紫色の63.2と56.6から63.2を選択

    ●最短距離法では、
    ・ACEクラスターとB⇒ 橙色から1/3×31.6+2/3×57.1=48.6を選択
    ・ACEクラスターとD⇒ 緑色の1/3×31.6+2/3×49.5=43.5を選択

    2回目step3

    step2の計算結果を反映します。

    クラスター分析

    ここで2回目が終了です。3手法の違いが見えましたね。3回目も同様に解けます!

    分類3回目

    3回目step1

    最短距離なペアを見つけましょう。
    ●最短距離法では、B-D間の28.3
    ●最長距離法では、A-CE間の31.6
    ●群平均法では、B-D間の28.3
    が最短ですね。見ればわかるけど、
    候補と距離の数字が手法によって変わっていますね。

    クラスター分析

    で、ここで、分類が完了したので、結果を比較すると

    クラスター分析

    となりました。手法間で結果が異なりますが、実データと比較してどれを使うかを吟味すればOKです。

    計算結果をPDFにまとめています。見やすいので、こちらも活用ください。

    クラスター分析ができましたね!

    まとめ

    「クラスター分析ができる」を解説しました。

    • ①クラスター分析とは
    • ➁最短距離法、最長距離法、群平均法とは
    • ➂クラスター分析の解法
    • ➃最短距離法、最長距離法、群平均法を比較しながら解く

  • 【まとめ】因子分析がわかる

    【まとめ】因子分析がわかる

    「因子分析がわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【まとめ】因子分析がわかる

    おさえておきたいポイント

    • ①因子分析は難しい
    • ➁因子分析とは/li>
    • ➂関連記事の紹介
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①因子分析は難しい

    ブログ記事化するのに一番時間がかかった

    QCプラネッツは、正直困りました。
    「因子分析を記事にするまでとても時間がかかりました」
    数週間記事化できなかったですね。

    苦労話を少し紹介します。

    因子分析の難しさ

    一番困ったのは

    因子分析の意図が見えない。。。

    そりゃ、解き方くらいはさっとわかりますが、
    何で、こう解くのか? 何を求めたいのか?
    いくつか定義する仮定の意味がわからない
    共通因子を見つけても意味がわからない
    などなど

    その中で、
    手計算で解きながら、解法の意味を理解できる解説ブログにしたい!
    その思いでQCプラネッツをずっとやってきた!
    そのために、どこから攻めたらいいか?

    因子分析が理解しやすい本

    まず、シンプルなモデルで手計算ができるところから解説したい思いがあり、その思いに合う教科書から入りました。いくつか紹介します。

    その次は、データを使って実際に解析したい思いがあり、次の本を参考にしています。

    などの、本を集めて、QCプラネッツが1つの解法ですべてわかるように交通整理して記事を書き始めました。

    本がいくつかあると、著者のくせがそれぞれちがいので
    味付けを1つに統一してブログ化しています。

    ➁因子分析とは

    因子分析とは

    簡単に言うと

    因子分析はデータを構成する元を見つけるもの

    因子分析

    データを

    (データ)=(係数)×(データの元)+(誤差)

    に分ける分析で、
    ●(係数)⇒因子負荷量
    ●(データの元)⇒共通因子
    と呼んでいます。

    (データ)自身の分散を使って、
    ●(係数)
    ●(データの元)
    ●(誤差)
    に分解します。

    因子分析の注意点

    因子分析を実施する際、いくつか注意点があります。

    1. データは必ず標準化(平均0,標準偏差1)にする
    2. 変数間は独立(共分散はすべて0)とする
    3. 因子負荷量、誤差成分を求める方程式には自由度が余るため解の精度が粗い
    4. 解くためにSMC法などのいくつかモデルを仮定している
    5. 共通因子を抽出しても何を意味するかは人間が考える必要がある
    因子分析は注意して解かないと、
    トンチンカンな結果を招くだけ
    因子分析より主成分分析の方がわかりやすい

    因子分析に関する関連記事を次に紹介します。

    ➂関連記事の紹介

    因子分析手法で説明をいくつか省いた

    因子分析には、
    主因子法
    バリマックス回転
    などの代表的な手法がありますが、
    QCプラネッツではあえて、解説しないことにしました。

    因子分析の解き方を一番理解していただきたいので
    因子分析の原理が理解できる所のみ解説しています。

    因子分析を解説した教科書等を研究して、
    難しい因子分析を手計算で理解できるにはどうしたらよいか?
    他の多変量解析と比較しやくして、理解しやすくするにはどうしたらよいか?
    を最優先にブログを構築しました。

    因子分析の解き方が知りたいより
    因子分析から何がわかるのか?の目的を手に入れたい!

    以下、関連記事を紹介します。順を追って読んでいけば、
    手計算で因子分析ができるようになり、意味が理解できるようになります。

    関連記事を紹介

    1因子モデルで解き方をマスターしよう!

    2記事にわたり、因子分析の解法の根幹を理解しましょう。1記事目は数式で理解し、2記事目は実データを使って計算します。

    因子分析の1因子モデルが導出できる
    因子分析が説明できますか?主成分分析との違いが明確に数式を使って説明できますか?本記事では、因子分析の最も基本的な1因子モデルにおける分析方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    因子分析の1因子モデルが計算できる
    因子分析が計算できますか? 本記事では、因子分析の最も基本的な1因子モデルにおける計算方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    2因子モデルで解き方をマスターしよう!

    2記事にわたり、2因子モデルにおける因子分析の解法の根幹を理解しましょう。1記事目は数式で理解し、2記事目は実データを使って計算します。

    2因子モデルが理解できたら多因子モデルも同様に解けます。ただし、数値解析的な解しか出せない因子分析の限界なところも理解できますね。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    因子分析の2因子モデルが計算できる
    因子分析が計算できますか? 本記事では、因子分析で重要な2因子モデルにおける計算方法をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    主成分分析と因子分析の違いを解法モデルからマスターしよう!

    主成分分析と因子分析はよく、比較されますが、一般的な説明では理解できません。そこで、上の関連記事とQCプラネッツオリジナルの主成分分析記事から、両者の違いをわかりやすく解説します。

    主成分分析と因子分析の違いがわかる
    主成分分析と因子分析の違いが説明できますか? 本記事では、理解しにくい教科書的な説明より、分析手法がイメージできるように、わかりやすく2つの分析手法の違いを解説します。多変量解析を学ぶ人は必読です。

    5つの関連記事を読めば、
    因子分析の解法はよく理解できますが、
    因子分析の難しさも理解できるはずです。

    QCプラネッツ個人は、データの元を調べたいなら
    わかりやすいし、解の精度の高い
    主成分分析の方で行くでしょう。

    まとめ

    「【まとめ】因子分析がわかる」を解説しました。

    • ①因子分析は難しい
    • ➁因子分析とは/li>
    • ➂関連記事の紹介

  • 主成分分析と因子分析の違いがわかる

    主成分分析と因子分析の違いがわかる

    「主成分分析と因子分析の違いがわからない」などと困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    主成分分析と因子分析の違いがわかる

    おさえておきたいポイント

    • ①一般的な説明
    • ➁QCプラネッツの説明
    • ➂主成分分析とは
    • ➃因子分析とは
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】多変量解析問題集を販売します!

    QC検定®1級合格したい方、多変量解析をしっかり学びたい方におススメです。
    【QC検定®合格】「多変量解析」問題集を販売します! 内容は、①回帰分析 単回帰分析・重回帰分析 の復習、➁ 主成分分析、➂判別分析、➃因子分析、➄数量化分析の5章全42題を演習できる問題集です。

    主成分分析も因子分析は自分で解けます!
    Excelや公式は暗記不要!
    自力で導出できるぜ!

    ①一般的な説明

    教科書の説明

    よく教科書で次のように違いを説明していますよね。

    主成分分析と因子分析

    この表の良い所は、

    1. 主成分分析と因子分析が同じ図で矢印の向きの違いで説明できる
    2. 主成分、共通因子と係数で2つの分析ができる

    なんですが、実際に両方の分析を解けるようになると、
    違和感があります。

    教科書の説明では理解できない

    主成分分析の説明図はOKですが、
    因子分析側の説明図では違和感があります。

    主成分分析と因子分析

    この図では、

    1. 「主成分分析はデータ群から主成分を抽出し、
      主成分はデータ群が決める!」⇒理解できる!
    2. 「因子分析は、私たちが勝手に共通因子を決めて、データ群を構成する」⇒と見えてしまい、違和感がある

    因子分析は、共通因子fからデータに矢印があるので、
    主成分分析との違いを意識すると
    主成分分析はデータが主成分(方向)を決める
    対して、因子分析は、共通因子がデータを決める
    の違いがあるように見えてしまいます。

    実際に分析すると、
    因子分析もデータが共通因子を決める分析です。

    ➁QCプラネッツの説明

    分析方法が理解しやすい比較図を作る

    実際に2つの分析方法を解いてみると、

    主成分分析はデータが主成分(方向)を決める
    ⇒主成分方向である新たな座標軸を作るのが主成分分析!

    因子分析はデータが共通因子を決める
    ⇒共通因子は(データを誤差で割り、因子負荷量で割るので)
    \(\frac{データ-誤差}{因子負荷量}\)の式から見ると、
    データをある意味標準化したもの
    データの元(元こそ共通因子)を見つけるのが因子分析!

    まとめると、

    1. 主成分分析は軸方向を抽出するもの
    2. 因子分析はデータを構成する元を見つけるもの

    QCプラネッツが考える両手法のイメージ図は下図となります。

    主成分分析と因子分析

    結論は、

    主成分分析と因子分析は
    全く別物で比較して意味が無い

    ➂主成分分析とは

    主成分分析とは

    データ群は群がっていますが、ある方向に情報量が集まっていることが分かっています。
    ●各データと平均間のベクトルと
    ●主成分方向
    の内積を使って、その2乗和の最大となる条件式を作ります。

    その条件式を解くと、
    固有方程式ができるため、
    主成分分析=固有方程式
    とよく認識されています。

    この固有方程式を解くと、
    変数の個数だけ、主成分方向と、寄与率が出て来ますね。

    寄与率や固有値が大きい順に並べて分析するのが主成分分析です。

    詳細は関連記事で

    ざっと主成分分析の概要を説明しましたが、詳細は関連記事にあります。

    【まとめ】主成分分析を究める
    主成分分析は解けますか?主成分分析は何をやる手法か説明できますか? 本記事では、主成分分析を究めれられるポイントをわかりやすく解説しています。関連記事を読み進めると主成分分析はマスターできます。多変量解析を学ぶ人は必読です。

    ➃因子分析とは

    因子分析とは

    因子分析は、データ群から、そのデータを構成する元(共通因子)をみつけるものです。

    簡単なモデル式を書くと
    (共通因子)=\(\frac{データ-誤差}{因子負荷量}\)
    から、誤差と、因子負荷量を見つけて、計算できます。
    \(z=\frac{x-\bar{x}}{σ}\)のイメージですね。

    誤差と因子負荷量は、変数の分散、共分散から、計算して求めます。
    データ群が作る分散・共分散から共通因子が計算できるため、
    ●共通因子⇒データ
    ではなく、
    ●データ⇒共通因子
    と考えるべきです。

    詳細は関連記事で

    ざっと因子分析の概要を説明しましたが、詳細は関連記事にあります。

    因子分析の2因子モデルが導出できる
    因子分析が計算できますか? 本記事では、因子分析の2因子モデルにおける計算方法を解説します。2因子の解析過程の注意点が理解できれば、多因子でも適用できます。計算ツールに頼らず、手計算で理解できるようにわかりやすく解説しています。多変量解析を学ぶ人は必読です。

    まとめ

    「主成分分析と因子分析の違いがわかる」を解説しました。

    • ①一般的な説明
    • ➁QCプラネッツの説明
    • ➂主成分分析とは
    • ➃因子分析とは

error: Content is protected !!