カテゴリー: 回帰分析

  • スピアマンの順位相関係数の正負の入れ替えがわかる

    スピアマンの順位相関係数の正負の入れ替えがわかる

    「スピアマンの順位相関係数がよくわからない」など、疑問に思いませんか?

    こういう疑問に答えます。

    本記事のテーマ

    スピアマンの順位相関係数の正負の入れ替えがわかる

    おさえておきたいポイント

    • ➀スピアマンの順位相関係数の正負が変わる条件
    • ➁スピアマンの順位相関係数の正負が入れ替わる理由
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    スピアマンの順位相関係数については、特別に公式暗記する必要はありません。自分で導出できます。

    導出過程は関連記事で確認ください。

    スピアマンの順位相関係数が導出できる
    スピアマンの順位相関係数は導出できますか?本記事では、一般的に使うピアソンの相関係数からスピアマンの順位相関係数を導出します。公式暗記は不要で自力で導出できるので、マスターしましょう

    ピアソンの相関係数と比較することで、スピアマンの順位相関係数の理解を深めましょう。大事な記事です!

    ➀スピアマンの順位相関係数の正負が変わる条件

    正負の入れ替え方

    それは、

    ●\(x\)または、\(y\)のどちらかの順位を入れ替えるとスピアマンの順位相関係数の正負は入れ替わる。
    ●\(x\)、\(y\)の両方の順位を入れ替えるとスピアマンの順位相関係数の正負は2回入れ替わるので、もとの正負に戻る。

    正負の入れ替え事例

    実際にやってみましょう。
    下表のように4つ条件を作ります。

    1. 条件1:元データ
    2. 条件2:\(x\)だけ順位を入れ替えた場合
    3. 条件3:\(y\)だけ順位を入れ替えた場合
    4. 条件4:\(x,y\)両方順位を入れ替えた場合
    条件1 条件2 条件3 条件4
    No x y x y x y x y
    1 1 3 10 3 1 8 10 8
    2 2 1 9 1 2 10 9 10
    3 3 2 8 2 3 9 8 9
    4 4 5 7 5 4 6 7 6
    5 5 9 6 9 5 2 6 2
    6 6 7 5 7 6 4 5 4
    7 7 6 4 6 7 5 4 5
    8 8 8 3 8 8 3 3 3
    9 9 10 2 10 9 1 2 1
    10 10 4 1 4 10 7 1 7

    黄色マーカー部分が順位が入れ替わったところです。

    各条件のスピアマンの順位相関係数\(r\)を計算

    実際に、各条件のスピアマンの順位相関係数\(r\)を計算すると下表のようになります。

    条件1 条件2 条件3 条件4
    \(S_{xx}\) 82.5 82.5 82.5 82.5
    \(S_{yy}\) 82.5 82.5 82.5 82.5
    \(S_{yx}\) 51.5 -51.5 -51.5 51.5
    \(r\) 0.624 -0.624 -0.624 0.624

    ●\(x\)または、\(y\)のどちらかの順位を入れ替えるとスピアマンの順位相関係数の正負は入れ替わる。
    ●\(x\)、\(y\)の両方の順位を入れ替えるとスピアマンの順位相関係数の正負は2回入れ替わるので、もとの正負に戻る。

    確かに、正負が入れ替わっていますよね。でも、なぜそうなるか?わかりますか?

    ➁スピアマンの順位相関係数の正負が入れ替わる理由

    大事なのは、ピアソンの相関係数の式からスピアマンの順位相関係数の性質が導出できます!スピアマンの順位相関係数のための公式暗記は一切不要!導出過程を理解しましょう!

    元の条件における平方和の式を立てる

    正負が入れ替わる理由を数式で説明します。

    もともとの平方和は、
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i -\bar{x})^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i -\bar{y})^2\)
    ●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i -\bar{x})(y_i-\bar{y})\)
    ですよね。

    入れ替えとは、
    \(x\)が\((n+1)-x\)、
    \(y\)が\((n+1)-y\)、
    に変換することです。

    例えば、1,2,3,4,5,6,7,8,9,10を逆にすると、
    10,9,87,6,5,4,3,2,1ですよね。
    1を10に変えるには、1を(10+1)-1に変えればOKです。
    これを文字式で書いただけです。

    文字を入れ替えた場合の平方和に「’」をつけて計算します。

    (条件2)\(x\)だけが入れ替わる場合

    平方和は次のように式が変わります。
    ●\(S’_{xx}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x}))^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i -\bar{y})^2\)
    ●\(S’_{xy}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x})) (y_i-\bar{y})\)

    「’」のついた平方和だけ式を変形すると、
    ●\(S’_{xx}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x}))^2\)
    =\(\sum_{i=1}^{n}(-x_i +\bar{x})^2\)
    =\(S_{xx}\)
    と元の\(S_{xx}\)に一致します。
    ●\(S’_{xy}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x})) (y_i-\bar{y})\)
    =\(\sum_{i=1}^{n}(-x_i+\bar{x}) (y_i-\bar{y})\)
    =-\(S_{xy}\)
    と元の\(S_{xy}\)と正負が入れ替わります。

    これが、スピアマンの順位相関係数\(r\)の正負が入れ替わる理由ですね。
    \(r’\)=\(\frac{S’_{xy}}{\sqrt{S’_{xx}}{S_{yy}}}\)
    =-\(\frac{S_{xy}}{\sqrt{S_{xx}}{S_{yy}}}\)
    =-\(r\)

    なるほど、よくわかりますね!

    (条件3)\(y\)だけが入れ替わる場合

    平方和は次のように式が変わります。
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i -\bar{x})^2\)
    ●\(S’_{yy}\)=\(\sum_{i=1}^{n}(((n+1)-y_i )-((n+1)-\bar{y}))^2\)
    ●\(S’_{xy}\)=\(\sum_{i=1}^{n}(x_i -\bar{x})(((n+1)-y_i )-((n+1)-\bar{y}))\)

    同様に解くと、
    ●\(S’_{yy}\)=\(S_{yy}\)
    ●\(S’_{xy}\)=-\(S_{xy}\)
    から

    これが、スピアマンの順位相関係数\(r\)の正負が入れ替わる理由ですね。
    \(r’\)=\(\frac{S’_{xy}}{\sqrt{S_{xx}}{S’_{yy}}}\)
    =-\(\frac{S_{xy}}{\sqrt{S_{xx}}{S_{yy}}}\)
    =-\(r\)

    なるほど、よくわかりますね!

    (条件4)\(x,y\)両方が入れ替わる場合

    平方和は次のように式が変わります。
    ●\(S’_{xx}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x}))^2\)
    ●\(S’_{yy}\)=\(\sum_{i=1}^{n}(((n+1)-y_i )-((n+1)-\bar{y}))^2\)
    ●\(S’_{xy}\)=\(\sum_{i=1}^{n}(((n+1)-x_i )-((n+1)-\bar{x})(((n+1)-y_i )-((n+1)-\bar{y}))\)

    同様に解くと、
    ●\(S’_{xx}\)=-\(S_{xx}\)
    ●\(S’_{yy}\)=-\(S_{yy}\)
    ●\(S’_{xy}\)=\((-1)^2 S_{xy}\)
    から

    これが、スピアマンの順位相関係数\(r\)の正負が元に戻る理由ですね。
    \(r’\)=\(\frac{S’_{xy}}{\sqrt{S’_{xx}}{S’_{yy}}}\)
    =\(\frac{S_{xy}}{\sqrt{S_{xx}}{S_{yy}}}\)
    =\(r\)

    なるほど、よくわかりますね!

    データを再度見て確認しよう!

    データを再掲すると、計算通りの結果になっていますよね。

    条件1 条件2 条件3 条件4
    \(S_{xx}\) 82.5 82.5 82.5 82.5
    \(S_{yy}\) 82.5 82.5 82.5 82.5
    \(S_{yx}\) 51.5 -51.5 -51.5 51.5
    \(r\) 0.624 -0.624 -0.624 0.624

    ちゃんと、説明がつきましたね!

    大事なのは、ピアソンの相関係数の式からスピアマンの順位相関係数の性質が導出できます!スピアマンの順位相関係数のための公式暗記は一切不要!導出過程を理解しましょう!

    まとめ

    「スピアマンの順位相関係数の正負の入れ替えがわかる」を解説しました。

    • ➀スピアマンの順位相関係数の正負が変わる条件
    • ➁スピアマンの順位相関係数の正負が入れ替わる理由

  • スピアマンの順位相関係数が導出できる

    スピアマンの順位相関係数が導出できる

    「スピアマンの順位相関係数がよくわからない」など、疑問に思いませんか?

    こういう疑問に答えます。

    本記事のテーマ

    スピアマンの順位相関係数が導出できる

    おさえておきたいポイント

    • ①スピアマンの順位相関係数とは何か?
    • ➁スピアマンの順位相関係数の導出の流れ
    • ➂スピアマンの順位相関係数を導出(2通り表現できる)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    スピアマンの順位相関係数については、特別に公式暗記する必要はありません。自分で導出できます。
    1. スピアマンの順位相関係数とは何か?
    2. スピアマンの順位相関係数を導出(2通り表現できる)

    に注目して解説します。

    ①スピアマンの順位相関係数とは何か?

    スピアマンの順位相関係数とは何か?

    2変数をそれぞれ順位に並び替えた場合に求められる相関係数です。個人的にはピアソンの相関係数で十分と思いますが、スピアマンの順位相関係数もあります。

    データを下表の左から右のように順位を提示します。

    No x y x(順位) y(順位)
    1 0.15 8.05 1 3
    2 1.2 4.05 2 1
    3 2.08 5.77 3 2
    4 2.42 11.2 4 5
    5 4.82 20.17 5 9
    6 5.93 17.21 6 7
    7 6.15 15.22 7 6
    8 6.5 18.38 8 8
    9 7.32 30.59 9 10
    10 8.45 8.99 10 4

    ピアソンの相関係数との違いは?

    ●ピアソンの相関係数
    \(r\)=\(\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)
    一般的な相関係数ですね。

    スピアマンの順位相関係数

    あとで、導出しますが、ピアソンの相関係数\(r\)=\(\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)から、スピアマンの順位相関係数は導出できますが、以下の式になります。

    ●スピアマンの順位相関係数
    \(r\)=1-\(\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}\)
    ここで、\(d_i\)=\(x_i -y_i\)

    ちょっと見かけない式ですが、導出できます。

    ➁スピアマンの順位相関係数の導出の流れ

    変数の準備

    \(x,y\)がそれぞれ順位の変数に変わるので、それぞれ
    ●\(x\): 1,2,3,…\(n\)
    ●\(y\): 1,2,3,…\(n\)
    の変数に変わります。

    解法の流れ

    以下の通りに計算していきます。

    1. 最初に平均\(\bar{x}\),\(\bar{y}\)を計算
    2. 平方和\(S_{xx}\),\(S_{yy}\),\(S_{xy}\)を計算
    3. 平方和\(S_{yy}\)から解き方が2通りある

    ➂スピアマンの順位相関係数を導出(2通り表現できる)

    (i)平均\(\bar{x}\),\(\bar{y}\)を計算

    まず、最初に平均\(\bar{x}\),\(\bar{y}\)を計算します。

    ●\(\bar{x}\)=E[\(x\)]
    =\(\frac{1}{n}\sum_{i=1}^{n}x_i\)
    =\(\frac{1}{n} \frac{n(n+1)}{2} \)
    =\(\frac{n+1}{2} \)

    ●\(\bar{y}\)=E[\(y\)]
    =\(\frac{1}{n}\sum_{i=1}^{n}y_i\)
    =\(\frac{1}{n} \frac{n(n+1)}{2} \)
    =\(\frac{n+1}{2} \)

    となり、平均\(\bar{x}\),\(\bar{y}\)は同じ\(\frac{n+1}{2} \)となります。

    (ii)平方和\(S_{xx}\),\(S_{yy}\),\(S_{xy}\)を計算

    ここで、平方和\(S_{xx}\),\(S_{yy}\),\(S_{xy}\)を計算します。

    平方和\(S_{xx}\)を計算

    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
    =\(\sum_{i=1}^{n}x_i^2\)-2\(\bar{x}\)\(\sum_{i=1}^{n}x_i\)+\((\bar{x})^2\)\(\sum_{i=1}^{n}1^2\)
    =\(\frac{1}{6}n(n+1)(2n+1)\)-2×\(\frac{n+1}{2}\)×\(\frac{n(n+1)}{2}\)+\(\frac{(n+1)^2}{4}\)×\(n\)
    =\(\frac{1}{6}n(n+1)(2n+1)\)-\(\frac{n}{2}(n+1)^2\)+\(\frac{n}{4}(n+1)^2\)
    =\(\frac{n(n^2-1)}{12}\)

    (iii)平方和\(S_{yy}\)を計算

    ●\(S_{yy}\)も\(S_{xx}\)と同じ
    ●\(S_{xx}\)=\(\frac{n(n^2-1)}{12}\)
    です。

    ここで、解き方が2つあります。
    「その1」の方が自然の流れで解けますが、できる式が複雑!
    「その2」は意図的なので無理矢理感がありますが、シンプルな式になる!
    教科書では「その2」の式がよく扱われています。

    QCプラネッツでは両方解法を紹介します。

    (iv)平方和\(S_{xy}\)を計算(その1)

    (その1)は素直に計算します。
    ●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
    =\(\sum_{i=1}^{n}(x_i y_i)\)-\(\bar{y}\)\(\sum_{i=1}^{n}(x_i)\)- \(\bar{x}\)\(\sum_{i=1}^{n}(y_i)\)+ \(\bar{x}\)\(\bar{y}\)\(\sum_{i=1}^{n}1\)
    =\(\sum_{i=1}^{n}(x_i y_i)\)-\(\frac{n+1}{2}\)×\(\frac{n(n+1)}{2}\)×2+\(\frac{(n+1)^2}{4}\)×\(n\)
    =\(\sum_{i=1}^{n}(x_i y_i)\)-\(\frac{n(n+1)^2}{4}\)

    ここで、\(\sum_{i=1}^{n}(x_i y_i)\)はこれ以上計算できないので式のまま残します。

    そうすると、スピアマンの順位相関係数\(r\)は
    \(r\)=\(\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)
    =\(\frac{\sum_{i=1}^{n}(x_i y_i)-\frac{n(n+1)^2}{4}}{\frac{n(n^2-1)}{12}}\)
    となります。

    ●スピアマンの順位相関係数
    \(r\)=\(\frac{\sum_{i=1}^{n}(x_i y_i)-\frac{n(n+1)^2}{4}}{\frac{n(n^2-1)}{12}}\)
    は見た目が煩雑な式なので、もう少し見やすい式になるように変形します。

    それが(その2)の方法です。

    (v)平方和\(S_{xy}\)を計算(その2)

    ●\(\sum_{i=1}^{n}(x_i -y_i)^2\)
    からスタートします。

    ●\(\sum_{i=1}^{n}(x_i -y_i)^2\)
    =\(\sum_{i=1}^{n}((x_i-\bar{x}) –(y_i-\bar{y}))^2\)
    =\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)-2\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)+\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
    =\(S_{xx}\)-2\(S_{xy}\)+\(S_{yy}\)

    よって、
    ●\(\sum_{i=1}^{n}(x_i -y_i)^2\)=\(S_{xx}\)-2\(S_{xy}\)+\(S_{yy}\)

    さらに、

    ●\( x_i -y_i \)=\(d_i\)と置いて、
    \(\sum_{i=1}^{n}(x_i -y_i)^2\)
    \(\sum_{i=1}^{n} d_i ^2\)
    と整理します。

    そして、
    \(S_{xx}\)=\(S_{yy}\)=\(\frac{n(n^2-1)}{12}\)
    から、

    \(S_{xy}\)=\(\frac{1}{2} (S_{xx}+S_{yy}-\sum_{i=1}^{n} d_i ^2)\)
    となります。

    そうすると、スピアマンの順位相関係数\(r\)は
    \(r\)=\(\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)
    =\(\frac{ S_{xx}+S_{yy}-\sum_{i=1}^{n} d_i ^2}{2S_{xx} S_{yy}}\)
    となります。

    なお、\(S_{xx}\)=\(S_{yy}\)=\(S\)と置くと、
    \(r\)=\(\frac{2S-\sum_{i=1}^{n} d_i ^2}{2S}\)
    =1-\(\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}\)
    とシンプルな公式ができます。

    (vi)スピアマンの順位相関係数の導出結果

    ●スピアマンの順位相関係数は
    \(r\)1-\(\frac{6\sum_{i=1}^{n}d_i^2}{n(n^2-1)}\)
    で、
    \(r\)=\(\frac{\sum_{i=1}^{n}(x_i y_i)-\frac{n(n+1)^2}{4}}{\frac{n(n^2-1)}{12}}\)
    と同じ値になります。
    上の式の方がわかりやすい?

    難しい導出過程でしたが、ちゃんとできましたね!

    公式は導出できてから使いましょう。

    まとめ

    「スピアマンの順位相関係数が導出できる」を解説しました。

    • ①スピアマンの順位相関係数とは何か?
    • ➁スピアマンの順位相関係数の導出の流れ
    • ➂スピアマンの順位相関係数を導出(2通り表現できる)

    スピアマンの順位相関係数が導出できる
  • クラメールの連関係数の値が0、1の条件がわかる

    クラメールの連関係数の値が0、1の条件がわかる

    「クラメールの連関係数の値が0、1の時はどんな条件かがわからない」など、疑問に思いませんか?

    こういう疑問に答えます。

    本記事のテーマ

    クラメールの連関係数の値が0、1の条件がわかる

    おさえておきたいポイント

    • ➀クラメールの連関係数を導出する
    • ②クラメールの連関係数が1の場合
    • ➂クラメールの連関係数が0の場合
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ➀クラメールの連関係数を導出する

    関連記事に解説しています。ご確認ください。

    ②クラメールの連関係数が1の場合

    導出過程は次の5つです。

    1. クラメールの連関係数が1となる条件式を作る
    2. 実測度数を計算
    3. 期待度数を計算
    4. ある文字について\(χ^2\)を計算
    5. 全体の\(χ^2\)を計算

    結果的に、
    \(χ^2\)=\(N(k-1)\)
    となれば、クラメールの連関係数\(r_c\)=1となります。

    では、解説します。

    1.クラメールの連関係数が1となる条件式

    関連記事から、次の条件式を持ってきます。

    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)から
    ●\(\sum_{i=1}^{I} n_{ij}\) ≤ \(f_j\)
    かつ
    ●\(\sum_{j=1}^{J} n_{ij}\) ≤ \(g_i\)
    に注目すると、
    ●\( n_{ij}\) ≤ \(g_i\)
    かつ
    ●\( n_{ij}\) ≤ \(f_j\)が共に成立しますね。

    ここで、不等号が等号条件になる場合を考えます。つまり、

    \( n_{ij}\)=\(g_i\) かつ、\( n_{ij}\)=\(f_j\)

    この等号条件を使っていきます。

    実際に式を書き出してみると
    ●\(n_{i1}+n_{i2}+…+n_{ij}+…+n_{iJ}\)=\(g_i\)=\(n_{ij}\)
    ●\(n_{1j}+n_{2j}+…+n_{ij}+…+n_{Ij}\)=\(f_j\)=\(n_{ij}\)
    を同時に満たすには、

    \( n_{ij}\)=\( n_{ij}\) (ただし、\(i=j\)の場合のみ)
    \( n_{ij}\)=0(それ以外)

    という条件になってしまいます。

    \( n_{ij}\)=\( n_{ij}\) (ただし、\(i=j\)の場合のみ)を
    \( n_{ij}\)=\(f_j\) (ただし、\(I\) ≥ \(J\))と置いて、以後解説します。

    2.実測度数を計算

    \( n_{ij}\)=\(f_j\) (ただし、\(I\) ≥ \(J\))と置くと、実測度数は下表のように置けます。

    \(j\)/\(i\) 1 2 \(J\) \(J+1\) \(I\)
    1 \(f_1\) 0 0 0 0 \(f_1\)
    2 0 \(f_2\) 0 0 0 \(f_2\)
    \(J\) 0 0 \(f_J\) 0 0 \(f_J\)
    \(f_1\) \(f_2\) \(f_J\) 0 0 \(N\)

    ここで、
    \( n_{ij}\)=\(f_j\) (ただし、\(I\) ≥ \(J\))と置いたので、
    \(I\) ≥ \(I\)として考えます。
    よって、\(J+1\)から\(I\)までの値は0とします。

    3.期待度数を計算

    次に期待度数を計算します。期待度数は
    \(\frac{f_j}{N}\)×\(\frac{g_i}{N}\)×\(N\)=\(\frac{f_j g_i}{N}\)に注意して解きます。
    下表の結果になります。

    \(j\)/\(i\) 1 2 \(J\) \(J+1\) \(I\)
    1 \(\frac{f_1^2}{N}\) \(\frac{f_1 f_2}{N}\) \(\frac{f_1 f_J}{N}\) 0 0 \(f_1\)
    2 \(\frac{f_2 f_1}{N}\) \(\frac{f_2^2}{N}\) \(\frac{f_2 f_J}{N}\) 0 0 \(f_2\)
    \(J\) \(\frac{f_J f_1}{N}\) \(\frac{f_J f_2}{N}\) \(\frac{f_J^2}{N}\) 0 0 \(f_J\)
    \(g_1\)=\(f_1\) \(g_2\)=\(f_2\) \(g_J\)=\(f_J\) \(g_{J+1}\)=0 \(g_I\)=0 \(N\)

    ここで、
    \( n_{ij}\)=\(f_j\) (ただし、\(I\) ≥ \(J\))と置いたので、
    \(I\) ≥ \(I\)として考えます。
    よって、\(J+1\)から\(I\)までの値は0とします。

    4.\(χ^2\)を計算(その1)

    まず、\(j=1\)についての\(χ^2\)を計算します。実測度数と期待度数を比較しましょう。下表のとおりです。

    \(j\)/\(i\) 1 2 \(J\) \(J+1\) \(I\)
    1(実測) \(f_1\) 0 0 0 0 \(f_1\)
    1(期待) \(\frac{f_1^2}{N}\) \(\frac{f_1 f_2}{N}\) \(\frac{f_1 f_J}{N}\) 0 0 \(f_1\)

    \(j=1\)についての\(χ^2\)は
    \(χ^2\)=\(\sum_{i=1}^{I}\frac{(実測度数-期待度数)^2}{期待度数}\)
    なので、

    \(χ^2\)=\(\frac{(f_1-\frac{f_1^2}{N})^2}{\frac{f_1^2}{N}}\)
    +\(\frac{(0-\frac{f_1 f_2}{N})^2}{\frac{f_1 f_2}{N}}\)
    +…
    +\(\frac{(0-\frac{f_1 f_J}{N})^2}{\frac{f_1 f_J}{N}}\)
    となります。

    まとめると、
    \(χ^2\)=\(N \frac{f_1^2(1-\frac{f_1}{N})^2}{f_1^2}\)+(\(\frac{f_1 f_2}{N}\)+…+\(\frac{f_1 f_J}{N}\))
    =\(N \frac{f_1^2(1-\frac{f_1}{N})^2}{f_1^2}\)+\(\frac{f_1}{N}(f_2+…+f_J)\)

    ここで、
    \((f_2+…+f_J)\)=\(1-f_1\)なので、代入すると
    \(χ^2\)=\(N \frac{f_1^2(1-\frac{f_1}{N})^2}{f_1^2}\)+\(\frac{f_1}{N}(1-f_1)\)
    =\((1-\frac{f_1}{N})\)\((N(1\frac{f_1}{N}+f_1)\)
    =\(N(1-\frac{f_1}{N})\)
    =\(N-f_1\)
    となります。

    5. \(χ^2\)を計算(その2)

    同様にすべての\(j\)について\(χ^2\)を計算すると、
    \(χ^2\)=\((N-f_1)\)+\((N-f_2)\)+…+\((N-f_J)\)
    =\(NJ\)-\((f_1+f_2+…+f_J)\)
    =\(N(J-1)\)
    となります。

    \(J\)は\(I,J\)の小さい方なので、
    \(N\)=\(n\),\(J\)=\(k\)と置くと、
    \(χ^2\)=\(n(k-1)\)
    となります。

    よって、クラメールの連関係数\(r_c\)は
    \(r_c\)=\(\sqrt{\frac{χ^2}{n(k-1)}}\)
    より、
    \(r_c\)=\(\sqrt{\frac{ n(k-1)}{n(k-1)}}\)=1
    となり、確かに、\(r_c\)=1になりましたね。

    面白い!

    ➂クラメールの連関係数が0の場合

    せっかくなので、0の場合も考えてみましょう。

    \(χ^2\)=0となる条件を探せばいい

    \(χ^2\)はよーく見ると
    \(χ^2\)=\((x_1-a_1)^2\)+\((x_2-a_2)^2\)+…+\((x_n-a_n)^2\)
    の2乗和の形をしています。この2乗和の値を0にするには、

    すべての\(i\)について\((x_i-a_i)^2\)=0
    つまり、\(x_i=a_i\)

    という条件が必要です。

    なので、
    \(χ^2\)=\(\sum_{i=1}^{I}\frac{(実測度数-期待度数)^2}{期待度数}\)
    を見ると、

    すべての\(i\)について、実測度数=期待度数

    となります。具体的なデータを上げると下表のような感じです。

    \(j\)/\(i\) 1 2 \(I\)
    1 \(n_{11}\)=\(\frac{f_1^2}{N}\) \(n_{21}\)=\(\frac{f_2 f_1}{N}\) \(n_{I1}\)=\(\frac{f_I f_1}{N}\) \(f_1\)
    2 \(n_{12}\)=\(\frac{f_1 f_2}{N}\) \(n_{22}\)=\(\frac{f_2^2}{N}\) \(n_{I2}\)=\(\frac{f_I f_2}{N}\) \(f_2\)
    J \(n_{1J}\)=\(\frac{f_1 f_J}{N}\) \(n_{2J}\)=\(\frac{f_2 f_J}{N}\) \(n_{IJ}\)=\(\frac{f_I f_J}{N}\) \(f_J\)
    \(g_1\) \(g_2\) \(g_I\) N

    すべての\(i,j\)について、実測度数\(n_{ij}\)と期待度数\(\frac{f_j g_i}{N}\)が等しい場合に
    クラメールの連関係数は0になります。

    つまり、実測度数がまったくばらつかないデータの場合だけであり、実際はそんなことは起きにくいですね。

    難しい導出過程でしたが、ちゃんとできましたね!

    公式は導出できてから使いましょう。

    まとめ

    「クラメールの連関係数の値が0、1の条件がわかる」を解説しました。

    • ➀クラメールの連関係数を導出する
    • ②クラメールの連関係数が1の場合
    • ➂クラメールの連関係数が0の場合

  • (必読)クラメールの連関係数が導出できる

    (必読)クラメールの連関係数が導出できる

    「クラメールの連関係数の式ってどうやって導出するの?」など、疑問に思いませんか?

    こういう疑問に答えます。

    本記事のテーマ

    (必読)クラメールの連関係数が導出できる

    おさえておきたいポイント

    • ➀クラメールの連関係数とは
    • ②(必読)クラメールの連関係数を導出する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ➀クラメールの連関係数とは

    クラメールの連関係数とは

    ●クラメールの連関係数
    ・\(χ^2\)=各セルについての \(\frac{(実測度数-期待度数)^2}{期待度数}\)
    ・\(n\):データ数
    ・\(k\):少ない方のカテゴリーの個数
    ・\(r_c\):クラメールの連関係数
    \(r_c\)=\(\sqrt{\frac{χ^2}{n(k-1)}}\)

    ここで、おさえるポイントは、

    1. 適合度の検定を使って、\(χ^2\)分布を使うこと
    2. 0 ≤ \(\sqrt{\frac{χ^2}{n(k-1)}}\) ≤1 なので、\(r_c\)を相関係数みたいに使う

    クラメールの連関係数の計算例

    よく、「クラメールの連関係数」で検索したり、教科書を読むと解き方や事例集ばかり解説していますが、

    \(r_c\)=\(\sqrt{\frac{χ^2}{n(k-1)}}\)は
    どうやって導出したの?
    何で、こんな変な式なの?
    何で、適合度の検定\(χ^2\)分布なの?

    と疑問に思いますよね。

    適合度の検定で\(χ^2\)分布を使う理由が説明できますか?

    そもそも、

    適合度の検定で\(χ^2\)分布を使う理由もわからない。。。

    これも、どこにも書いていません。困った!

    なので、関連記事を用意しています。QCプラネッツは、わからないことはすべて解説します!

    【6】分割表(χ2乗分布)に関する検定【QC検定®2級対策】
    QC検定®2級で頻出な、分割表に関する検定と推定の解法を解説します。検定から推定区間まで5分以内に解けるための流れとテクニックについて解説します。QC検定®2級合格したい方は必見です。

    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    この関連記事の、
    「➂【本記事限定】分割表の検定統計量は\(χ^2\)分布である理由がわかる」
    に書いています。

    大事なポイントは

    1. \(A\)=\(\frac{(観測度数-期待度数)}{期待度数}\)
      ≡\(\frac{x-\bar{x}}{σ}\)のように見て
    2. \(\sum A^2\)を分散のように扱うのでχ2乗分布で扱う
    3. 自由度は(列-1)(行-1)も理解しておく

    ですね。関連記事で必ず確認してください。ここがわからないと、クラメールの連関係数は公式暗記で終わってしまいます。。。

    [themoneytizer id=”105233-2″]

    ②クラメールの連関係数を導出する

    クラメールの連関係数を変形

    \(r_c\)=\(\sqrt{\frac{χ^2}{n(k-1)}}\)自身は重要ではなく、

    ●\(χ^2\)が
    0 ≤ \(χ^2\) ≤ \(n(k-1)\)
    を証明することを考えます。

    観測度数と期待度数を用意する

    ここで、行×列が\(J\)×\(I\)の表を用意して、観測度数と期待度数を文字式で表現します。

    観測度数

    下表のようにまとめます。

    \(j\)/\(i\) 1 \(i\) \(I\)
    1 \(n_{11}\) \(n_{i1}\) \(n_{I1}\) \(f_1\)
    \(j\) \(n_{1j}\) \(n_{ij}\) \(n_{Ij}\) \(f_j\)
    \(J\) \(n_{1J}\) \(n_{iJ}\) \(n_{IJ}\) \(f_J\)
    \(g_1\) \(g_i\) \(g_I\) \(N\)

    期待度数

    同様に下表のようにまとめます。ここで、\(j\)行\(i\)列の期待度数\(E_{ij}\)は
    \(E_{ij}\)=\(\frac{g_i}{N}\)×\(\frac{f_j}{N}\)×\(N\)
    =\(\frac{g_i f_j}{N}\)
    と表現できます。抽象的な式なので、具体的な値で式を確認しましょう。

    期待度数を下表にまとめます。

    \(j\)/\(i\) 1 \(i\) \(I\)
    1 \(E_{11}\)=\(\frac{g_1 f_1}{N}\) \(E_{i1}\)=\(\frac{g_i f_1}{N}\) \(E_{I1}\)=\(\frac{g_I f_1}{N}\) \(f_1\)
    \(j\) \(E_{1j}\)=\(\frac{g_1 f_j}{N}\) \(E_{ij}\)=\(\frac{g_i f_j}{N}\) \(E_{Ij}\)=\(\frac{g_I f_j}{N}\) \(f_j\)
    \(J\) \(E_{1J}\)=\(\frac{g_1 f_J}{N}\) \(E_{iJ}\)=\(\frac{g_i f_J}{N}\) \(E_{IJ}\)=\(\frac{g_I f_J}{N}\) \(f_J\)
    \(g_1\) \(g_i\) \(g_I\) \(N\)

    \(χ^2\)を計算

    定義どおり\(χ^2\)を計算します。

    \(χ^2\)=\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{(観測度数-期待度数)^2}{期待度数}\)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{(n_{ij}-E_{ij})^2}{ E_{ij}}\)
    =(式1)

    2乗を展開します。
    (式1)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)(\(\frac{n_{ij}^2}{E_{ij}}-2n_{ij}+E_{ij}\))
    =(式2)

    ここで、(式2)の第1項は
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{E_{ij}}\)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j/N}\)
    =\(N \sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)
    と変形します。

    次に、(式2)の第2項は
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(-2n_{ij}\)
    =\(-2N\)
    です。

    そして、(式2)の第3項は
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\( E_{ij}\)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\( \frac{g_i f_j}{N}\)
    =\(\sum_{i=1}^{I} f_j \) \(\sum_{j=1}^{J}\ f_j /N\)
    =\(\frac{N×N}{N}\)=\(N\)
    です。

    (式2)をまとめると、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)(\(\frac{n_{ij}^2}{E_{ij}}-2n_{ij}+E_{ij}\))
    =\(N \sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j } -2N+N\)
    =\(N (\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }-1\))
    =(式3)
    となります。

    証明のゴールを確認

    で、ここで、ゴールを確認すると、

    ●\(χ^2\)が
    0 ≤ \(χ^2\) ≤ \(n(k-1)\)
    を証明することを考えます。

    0 ≤ \(χ^2\)は明らかですよね!
    \(χ^2\)=\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{(観測度数-期待度数)^2}{期待度数}\)
    より分子は2乗で正かつ、分母の正なので、
    0 ≤ \(χ^2\)は明らかですよね!

    次に、
    \(χ^2\) ≤ \(n(k-1)\)
    と(式3)を比較すると
    \(χ^2\) =\(N \sum_{i=1}^{I}\sum_{j=1}^{J}\)\((\frac{n_{ij}^2}{g_i f_j }-1\))
    \(N→n\)、\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)→\(k\)と置くと、
    \(χ^2\) ≤ \(n(k-1)\)の形になっていますね。
    つまり、ゴールまでもう少しですね。

    証明の最後まで進めると

    (式3)の
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)ですが
    そもそも
    ●\(\sum_{i=1}^{I} n_{ij}\) ≤ \(f_j\)
    かつ
    ●\(\sum_{j=1}^{J} n_{ij}\) ≤ \(g_i\)
    ですよね。

    ここに注目すると
    \( n_{ij}\) ≤ \(g_i\) かつ\( n_{ij}\) ≤ \(f_j\)が共に成立しますね。

    この不等式を\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)に代入すると
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)
    ≤ \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{g_i ×n_{ij}}{g_i f_j }\)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}}{f_j }\)
    =\(\sum_{j=1}^{J}\)\(\frac{n_{1j}+n_{2j}+…+n_{Ij}}{f_j}\)
    =\(\sum_{j=1}^{J}\)\(\frac{f_j}{f_j}\)
    =\(\sum_{j=1}^{J}\)1
    =\(J\)

    まとめると、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\) ≤ \(J\)
    となります。

    同様に、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\)
    ≤ \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}×f_j}{g_i f_j }\)
    =\(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}}{g_i }\)
    =\(\sum_{i=1}^{I}\)\(\frac{n_{i1}+n_{i2}+…+n_{iJ}}{g_i}\)
    =\(\sum_{i=1}^{I}\)\(\frac{g_i}{g_i}\)
    =\(\sum_{i=1}^{I}\)1
    =\(I\)

    まとめると、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\) ≤ \(I\)
    となります。

    つまり、共に上の2つの不等式が
    成り立つわけですから、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\) ≤ \(I\)
    かつ
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\) ≤ \(J\)
    となり、まとめると、
    \(\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }\) ≤ \(k=min(I,J)\)
    とします。

    以上から

    (式3)と上の不等式の関係を代入すると
    \(χ^2\)=(式3)
    =\(N (\sum_{i=1}^{I}\sum_{j=1}^{J}\)\(\frac{n_{ij}^2}{g_i f_j }-1\))
    ≤ \(n(k-1)\)
    (\(N→n\), \(k=min(I,J)\)とする。)

    よって、
    0 ≤ \(χ^2\) ≤ \(n(k-1)\)
    が証明できました。

    両辺を\(n(k-1)\)で割り、\(χ^2\)の2乗を平方根に変えた変数の方が使いやすいということで、

    ●クラメールの連関係数
    \(r_c\)=\(\sqrt{\frac{χ^2}{n(k-1)}}\)
    と置くと、0~1までの変数となり、
    相関係数や寄与率に似た変数として扱える!
    というわけです。

    難しい導出過程でしたが、ちゃんとできましたね!

    公式は導出できてから使いましょう。

    まとめ

    「クラメールの連関係数が導出できる」を解説しました。

    • ➀クラメールの連関係数の計算例
    • ②(必読)クラメールの連関係数を導出する

  • 【必読】相関係数や寄与率が1以上にできない理由がわかる

    【必読】相関係数や寄与率が1以上にできない理由がわかる

    「相関係数や寄与率が1以上にできない理由がわからない。」、と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【必読】相関係数や寄与率が1以上にできない理由がわかる
    確かに、相関係数r=100とかないですよね!
    でも、何で1以上にならないかと言われても知らないし、どこにも書いていないし。。。

    本記事の結論

    相関係数や寄与率は、「コーシーシュワルツの不等式に支配されているから」

    これで、「なるほど!」とわかる人は、ほぼいませんので、わかりやすく解説します。
    \((a+b)^2=a^2+2ab+b^2\)がわかれば、本記事は完璧に理解できます!

    • ①相関係数、寄与率
    • ②コーシーシュワルツの不等式とその証明
    • ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?

    ●You tube動画もごらんください。

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    [themoneytizer id=”105233-2″]

    ①相関係数、寄与率

    相関係数、寄与率について復習しましょう。

    寄与率R

    データ群(\(x_i\),\(y_i\)) (i=1,…,n)に対して、3つの平方和を定義します。
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
    ●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)

    寄与率Rは
    R=\(\frac{S_{xy}^2}{S_{xx}S_{yy}}\)

    0 ≤ R ≤ 1
    が成立しますね。

    皆、暗記して点数化するところですね。

    相関係数r

    相関係数rは寄与率Rの平方根ですね。
    r=\(\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}\)
    -1 ≤ r ≤ 1
    が成立しますね。

    皆、暗記して点数化するところですね。

    確かに、公式暗記で精一杯で、

    相関係数、寄与率がなぜ一定の範囲に支配されているのか、と疑問に思いませんよね。でも疑問に思って、ツッコみましょう!

    ②コーシーシュワルツの不等式とその証明

    コーシーシュワルツの不等式

    大学受験にたまに出て来る不等式です。相加相乗平均の不等式よりはマイナーですけど。

    自然数nに対して、以下の不等式が成り立つ(コーシーシュワルツの不等式)
    \((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)

    コーシーシュワルツの不等式を使ってみよう!

    公式眺めてもピンと来ません。実際に式を使ってみましょう。

    n=1の時

    \((\sum_{i=1}^{1}a_i^2)\) \((\sum_{i=1}^{1}b_i^2)\) ≥ \((\sum_{i=1}^{1}a_i b_i)^2\)
    (左辺)-(右辺)= \(a_1^2\) \(b_1^2\)- \((a_1 b_1)^2\)
    =\(a_1^2\) \(b_1^2\)- \(a_1^2\) \(b_1^2\)=0

    n=2の時

    \((\sum_{i=1}^{2}a_i^2)\) \((\sum_{i=1}^{2}b_i^2)\) ≥ \((\sum_{i=1}^{2}a_i b_i)^2\)
    (左辺)-(右辺)= \((a_1^2+a_2^2)\) \((b_1^2+b_2^2)\)- \((a_1 b_1+a_2 b_2)^2\)
    =\(a_1^2 b_1^2\)+\(a_1^2 b_2^2\)+\(a_2^2 b_1^2\)+\(a_2^2 b_2^2\)
    -\(a_1^2 b_1^2\)-2\(a_1 a_2 b_1 b_2\)-\(a_2^2 b_2^2\)
    =\(a_1^2 b_2^2\)-2\(a_1 a_2 b_1 b_2\)+\(a_2^2 b_1^2\)
    =\((a_1 b_2- a_2 b_1)^2\) ≥ 0

    コーシーシュワルツの不等式の証明

    ●ここで、無理矢理感はありますが、次の2次関数を定義します。
    2次関数 \(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)

    この2次関数は2乗和なので、基本は \(f(x)\) ≥ 0です。つまり、y=\(f(x)\)とy軸との交点の数は1か0です。

    2次関数を展開した式に書き直します。
     \(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)
     \(f(x)\)=\(\sum_{i=1}^{n}(a_i ^2)x^2\)-2\(\sum_{i=1}^{n}(a_i b_i )x\)+\(\sum_{i=1}^{n}(b_i ^2)\)

    y軸との交点の数をチェックする「判別式」ってありましたね。
    y軸との交点の数が1か0なので、判別式D ≤ 0 と自動的になります。(そうなるように2次関数を仕込みました)

    判別式 D/4 =\((\sum_{i=1}^{n}a_i b_i )^2\)-\((\sum_{i=1}^{n}a_i ^2)\)\((\sum_{i=1}^{n}b_i^2 )\) ≤ 0

    (左辺)、(右辺)を逆にすると(コーシーシュワルツの不等式)そのものになるのがわかります。

    (コーシーシュワルツの不等式)
    \((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)

    ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?

    さて、相関係数、寄与率と、全く関係のない、コーシーシュワルツの不等式をつなぎます。

    変数を置き換えるとわかる!

    ●\(x_i -\bar{x}\)=\(a_i\)
    ●\(y_i -\bar{y}\)=\(b_i\)
    と置きます。

    (コーシーシュワルツの不等式)は
    \(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)

    寄与率がコーシーシュワルツの不等式に支配される理由がわかる!

    この式をよく見て、平方和の定義と比較しましょう。
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
    ●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)

    変形した(コーシーシュワルツの不等式)に平方和をあてはめることができますね。
    \(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)
    は、
    \(S_{xx}\) \(S_{yy}\) ≥ \(S_{xy}^2\)
    両辺を(左辺)で割ります。平方和は正の値なので不等号の向きは変わりません
    1 ≥ \(\frac{ S_{xy}^2}{ S_{xx} S_{yy}}\)

    (右辺)は寄与率Rそのものですね。
    つまり、
    R ≤ 1
    が成り立ちます。

    なお、寄与率は、正の値である平方和の比なので、0以上です。よって、
    0 ≤ R ≤ 1
    が常に成り立ちます。

    相関係数、寄与率はコーシーシュワルツの不等式に支配されている!ことがはっきりわかりますよね!なるほど!

    寄与率から相関係数の範囲も支配される!

    寄与率は
    0 ≤ R ≤ 1
    に支配されていますから、平方根である相関係数の範囲は
    (中3の数学レベルですが)
    -1 ≤ r ≤ 1
    に支配されます。

    相関係数、寄与率は-1~1までの値であり、平方和の比なので、
    割合として評価する変数として、うまく作られた変数と言えます。
    相関係数、寄与率はコーシーシュワルツの不等式に支配されている!
    相関係数 寄与率 コーシーシュワルツの不等式 の関係性がわかりましたね!

    まとめ

    相関係数や寄与率が1以上にできない理由をわかりやすく解説しました。

    • ①相関係数、寄与率
    • ②コーシーシュワルツの不等式とその証明
    • ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?

  • 回帰分析と相関係数をマスターする

    回帰分析と相関係数をマスターする

    「回帰分析と相関係数の重要なポイントを速く知りたいけど、どうすればいいの?」

    こういう疑問に答えます。

    本記事のテーマ

    回帰分析と相関係数をマスターする

    おさえておきたいポイント

    • ➀相関係数の導出方法を覚える
    • ②相関係数とグラフのイメージをつかむ
    • ③回帰分析と分散分析
    • ④回帰分析の導出を理解する

    回帰分析の試験問題で、絶対に落とせない範囲です。本記事で重要ポイントを網羅しておさえます。

    ●You tube動画でも解説しています。ご覧ください。

    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ➀相関係数の導出方法を覚える

    相関係数rの公式は、平方和の公式と合わせて覚える

    \(r=\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)

    \(S_{xx}\)=\(\sum_{i=1}^{n} x_i^2-\frac{(\sum_{i=1}^{n} x_i)^2}{n}\)

    \(S_{yy}\)=\(\sum_{i=1}^{n} y_i^2-\frac{(\sum_{i=1}^{n} y_i)^2}{n}\)

    \(S_{xy}\)=\(\sum_{i=1}^{n} x_i y_i – \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n}\)

    平方和と似た公式なので、合わせて覚えると覚えやすいです。

    相関係数は-1≦r≦1と
    寄与率R=r2は0≦R≦1

    ②相関係数とグラフのイメージをつかむ

    相関係数r=-1,0,0.5のグラフ例を作る

    r=-1は、誤差のない完全な右下がりの直線
    r=0、直線ではないもの
    r=0.5は、中途半端にばらつきのある右上がりの直線

    相関係数r=-1、0,0.5のグラフ例(寄与率で表示)

    相関係数

    イメージしておきましょう。

    ③回帰分析と分散分析

    分散分析表はワンパターンなので、表ごと覚えましょう。

    平方和S 自由度φ 不偏分散V 分散比F
    回帰R \(S_R=\frac{(S_{xy})^2}{S_{xx}}\) \(φ_R \)=1 \(V_R \)=\(\frac{S_R}{φ_R}\) F=\(\frac{V_R}{V_e}\)
    残差e \(S_e=S_T-S_R\) \(φ_e \)=n-2 \(V_e \)=\(\frac{S_e}{φ_e}\)
    全変動T \(S_T=S_{yy}\) \(φ_T \)=n-1

    ④回帰分析の導出を理解する

    上の①②③だけでは、物足りないあなたは回帰分析の導出もできるようになっておきましょう。

    1.回帰直線の導出

    回帰直線を\(y=a+bx\)と定義します。
    測定データ(\(x_i,y_i\))と回帰直線との差を最小にする条件が、回帰直線の傾きとy切片です。

    \(Q(a,b)\)=\( \sum_{i=1}^{n} (y_i-(a+bx_i)^2\) → min
    \(Q(a,b)\)=\( \sum_{i=1}^{n} ((y_i-\bar{y})-b(x_i-\bar{x})+(\bar{y}-a-b\bar{x}))^2\)
    =\(S_{xx}(b-\frac{S_{xy}}{S_{xx}})^2\)+\(n(\bar{y}-a-b\bar{x})^2\)+\((S_{yy}-\frac{S_{xy}^2}{S_{xx}})\)

    \(Q(a,b)\)が最小になる条件は、
    \(b-\frac{S_{xy}}{S_{xx}}\)=0かつ、\(\bar{y}-a-b\bar{x}\)=0

    b=\(\frac{S_{xy}}{S_{xx}}\), \(a\)=\(\bar{y}-\frac{S_{xy}}{S_{xx}}\bar{x}\)
    が回帰直線の傾きと、y切片になります。

    演習問題
    \(Q(a,b)\)=\(S_{xx}(b-\frac{S_{xy}}{S_{xx}})^2\)+\(n(\bar{y}-a-b\bar{x})^2\)+\((S_{yy}-\frac{S_{xy}^2}{S_{xx}})\)を導出せよ。

    ブログなので、結論として完結にまとめていますが、実際は泥臭い展開をしています。力アップのためにもぜひ導出してください。

    2.平方和の分解

    ST= SR+ Seを導出します。

    平方和

    ①実測データ(xi, yi)、②回帰直線上の点(xi,y)と③データの平均値(\(\bar{x},\bar{y}\))を用いると、上図から下式のように分解できます。

    \(y_i – \bar{y}\) = \(ε_i\)+ \(r_i\)
    (回帰:\(r_i\)=\(u_i – \bar{y}\),
    残差:\(ε_i\)=\(y_i – u_i\))
    \(y_i – \bar{y}\) = \(b(x_i-\bar{x})+ε_i\)
    と書くことができます。

    平方和を計算します。
    \(\sum_{i=1}^{n} (y_i – \bar{y})^2\)=\(\sum_{i=1}^{n} (b(x_i-\bar{x})+ε_i)^2\)
    =\(b^2\sum_{i=1}^{n} (x_i-\bar{x})^2+2b\sum_{i=1}^{n}(x_i-\bar{x})ε_i +\sum_{i=1}^{n}ε_i^2\)

    ●\(\sum_{i=1}^{n} (y_i – \bar{y})^2\)は合計Tの平方和ST
    ●\(b^2\sum_{i=1}^{n} (x_i-\bar{x})^2\)は回帰Rの平方和SR
    ●\(\sum_{i=1}^{n}ε_i^2\)は残差eの平方和Se
    に一致します。

    つまり、
    ST= SR+2b\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)+ Se
    となります。

    ところで、回帰直線となる条件は残差eを最小にする条件です。
    残差の平方和Se=\(\sum_{i=1}^{n} ε_i ^2\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i))^2\)です。

    回帰直線は、残差Seが最小になる条件なので、次の式が成り立ちます。
    \(\displaystyle \frac{\partial S_e}{\partial a }\)=0, \(\displaystyle \frac{\partial S_e}{\partial b }\)=0

    つまり、
    ●\(\displaystyle \frac{\partial S_e}{\partial a }\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i))\)
    =\(\sum_{i=1}^{n} (ε_i)\)=0
    ●\(\displaystyle \frac{\partial S_e}{\partial b }\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i)) x_i\)
    =\(\sum_{i=1}^{n} (ε_i x_i)\)=0
    が成り立ちます。

    ST= SR+2b\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)+ Se
    の第2項に注目します。
    \(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)=\(\sum_{i=1}^{n}(x_i ε_i \)-\(\bar{x}\sum_{i=1}^{n}ε_i \)
    =0-0=0
    と第2項は0になります。

    つまり、
    ST= SR+Se
    となります。

    3.寄与率の導出

    寄与率Rを平方和の比SR/ STで定義します。
    SR=b2Sxx
    ST= Syy
    b=\(\frac{S_{xy}}{S_{xx}}\)
    を代入します。

    R=\(\frac{S_R}{S_T}\)=\(b^2 \frac{S_{xx}}{S_{yy}}\)
    =\(\frac{S_{xy}^2}{S_{xx}^2} \frac{S_{xx}}{S_{yy}}\)
    =\(\frac{S_{xy}^2}{S_{xx} S_{yy}} \)

    複雑な計算ですが、一通り導出しておけば、試験では完璧です。重回帰分析への準備にもなりますので、ぜひ解いておきましょう。

    まとめ

    回帰分析と相関係数について、おさえておくべき重要事項と導出方法を解説しました。

    • ➀相関係数の導出方法を覚える
    • ②相関係数とグラフのイメージをつかむ
    • ③回帰分析と分散分析
    • ④回帰分析の導出を理解する

  • 無相関の検定がわかる

    無相関の検定がわかる

    「相関係数があるのになんで相関の有無を検定する必要があるの?」、「無相関の検定の検定統計量の式がどうしてあの式なの?」など、疑問に思いませんか?

    こういう疑問に答えます。

    本記事のテーマ

    無相関の検定がわかる

    おさえておきたいポイント

    • ➀相関係数があるのになんで相関の有無を調べたいのか?
    • ②無相関の検定の検定統計量を導出

    試験でよく出る問題なので、公式暗記して代入すれば試験はOKですが、意味がよくわからないはずです。どの教科書にも無相関の検定について十分な説明がないからです。

    ●You tube動画もごらんください。

    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ➀相関係数があるのになんで相関の有無を調べたいのか?

    相関係数rがある(0ではない)のに、無相関の検定ってどういうこと?
    と思いますよね。

    どの教科書にも書いていませんでしたので、私の考えを紹介します。

    標本データから相関係数を算出しますが、母集団は本当に相関性があるのか?は気になります。

    標本データから母集団の相関性を調べるための方法が、無相関の検定と考えるとよいでしょう。イメージ図を下図に書きます。

    無相関の検定

    よくあるのが、たまたま線形性(相関性)の高いデータが集まった標本データをとったが、データ全体を見ると均一にばらついていることがよくあります。木を見て森を見ずです。

    たまたま、標本データに強い相関性が出たからといって、母集団も相関性があるかどうかはわからない。だから、本当にデータ集団全体も相関性があるかを確認する必要あります。

    ②無相関の検定の検定統計量を導出

    検定統計量

    無相関の検定について、検定統計量は次式です。

    \( t(n-2,α)\)=\(\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}\)

    t分布、相関係数の両方が出て来るので、テストによく出題されます。

    でも、どうやって導出したの? 自由度はなんで、n-2なの? 気になりませんか? なので、導出しましょう!

    検定統計量の導出

    F分布から導出

    検定統計量はt分布の式でした。でもなんでF分布なの? と不思議ですが、導出していきます。

    標本データから母集団を推測する方法

    分散を使って、標本データと母集団はそれほど差がなく同じものと仮定します。よって分散比を使ったF分布からスタートします。統計学は数学を使って厳密に解く場合と、統計だけにざっくり定義する場合もあります。

    相関の有無

    相関の有無を式で定義しましょう。相関Rが多いか?それとも残差eが多いか?を比較すればよいのです。

    回帰分析における分散分析は、回帰Rと残差eの比較ですね。

    \(\frac{V_R}{V_e}=F(φ_R,φ_e,α)=F(1, φ_e,α)\)ですね。

    \(\frac{V_R}{V_e}= F(1, φ_e,α)\)は一見難しいですが、分散分析表でF値を計算するときに、分散の比と自由度をそれぞれ使うことがわかれば、この式は理解できますね。

    \(\frac{V_R}{V_e}\)をどんどん変形する

    \(\frac{V_R}{V_e}\)=\(\frac{S_R / φ_R}{S_e / φ_e}\)
    =\(\frac{S_R / 1}{S_e / (n-2)}\)
    (\(S_e=S_T-S_R\)を代入)
    = \(\frac{S_R (n-2)}{S_T – S_R}\)
    =(あ)

    (回帰の自由度)=1,(残差自由度)=n-2ですね。

    また、回帰について、T,R,eの平方和を数式で表現します。
    \(S_T\)=\(S_{yy}\)
    \(S_R\)=\(\frac{S_{xy}^2}{S_{xx}} \)
    を(あ)に代入します。

    (あ)= \(\frac{ \frac{S_{xy}^2}{S_{xx}} (n-2)}{ S_{yy} – \frac{S_{xy}^2}{S_{xx}}}\)

    =\(\frac{S_{xy}^2 (n-2)}{S_{xx} S_{yy}- S_{xy}^2}\)

    =\(\frac{\frac{S_{xy}^2}{S_{yy}S_{xx}}(n-2)}{1-\frac{S_{xy}^2}{S_{yy} S_{xx}}}\)

    =\(\frac{r^2(n-2)}{1-r^2}\)

    ここで、\(r^2\)=\(\frac{S_{xy}^2}{S_{xx} S_{yy}}\)です。

    t分布の検定統計量\( t(n-2,α)\)=\(\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}\)の2乗の式になりました。

    F分布とt分布の関係
    F(1,φA,α)=t(φA,α)2

    よって、無相関の検定で使う、検定統計量がt分布の式で作ることができます。

    \( t(n-2,α)\)=\(\frac{|r|\sqrt{n-2}}{\sqrt{1-r^2}}\)

    導出を見れば気づくと思いますが、

    無相関の検定はF検定でもよいのです。

    F(1,φe,α)ですから、t分布より簡単な式ですね。無相関の検定をt分布で計算させるのは試験だからと思ってもよいでしょう。

    F分布とt分布の関係(補講)

    t分布の確率変数は t=\(\frac{Z}{\sqrt{\frac{W}{n}}}\)
    (分子ZはN(0,12)の標準正規分布、分母は自由度nのχ2乗分布の平方根)
    とします。これは、t分布の定義です。なぜ?ではなく、そう決めたものです。

    両辺を2乗します。
    \(t^2\)=\(\frac{Z^2}{\frac{W}{n}}\)

    =\(\frac{χ^2(1,α)}{χ^2(n,α)}\)

    =F(1,n,α)
    となります。これは、F分布の定義です。なぜ?ではなく、そう決めたものです。

    まとめ

    無相関の検定について解説しました。相関係数があるのに、相関の有無を検定する理由と、無相関の検定の式が複雑な式である理由を解説しました。

    • ➀相関係数があるのになんで相関の有無を調べたいのか?
    • ②無相関の検定の検定統計量を導出

error: Content is protected !!