【必読】相関係数や寄与率が1以上にできない理由がわかる
「相関係数や寄与率が1以上にできない理由がわからない。」、と困っていませんか?
こういう疑問に答えます。
本記事のテーマ
でも、何で1以上にならないかと言われても知らないし、どこにも書いていないし。。。
本記事の結論
これで、「なるほど!」とわかる人は、ほぼいませんので、わかりやすく解説します。
\((a+b)^2=a^2+2ab+b^2\)がわかれば、本記事は完璧に理解できます!
- ①相関係数、寄与率
- ②コーシーシュワルツの不等式とその証明
- ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?
●You tube動画もごらんください。
【QC検定®1級合格】回帰分析問題集を販売します!
【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。 |
①相関係数、寄与率
相関係数、寄与率について復習しましょう。
寄与率R
データ群(\(x_i\),\(y_i\)) (i=1,…,n)に対して、3つの平方和を定義します。
●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
寄与率Rは
R=\(\frac{S_{xy}^2}{S_{xx}S_{yy}}\)
で
0 ≤ R ≤ 1
が成立しますね。
相関係数r
相関係数rは寄与率Rの平方根ですね。
r=\(\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}\)
-1 ≤ r ≤ 1
が成立しますね。
確かに、公式暗記で精一杯で、
②コーシーシュワルツの不等式とその証明
コーシーシュワルツの不等式
大学受験にたまに出て来る不等式です。相加相乗平均の不等式よりはマイナーですけど。
自然数nに対して、以下の不等式が成り立つ(コーシーシュワルツの不等式)
\((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)
コーシーシュワルツの不等式を使ってみよう!
公式眺めてもピンと来ません。実際に式を使ってみましょう。
n=1の時
\((\sum_{i=1}^{1}a_i^2)\) \((\sum_{i=1}^{1}b_i^2)\) ≥ \((\sum_{i=1}^{1}a_i b_i)^2\)
(左辺)-(右辺)= \(a_1^2\) \(b_1^2\)- \((a_1 b_1)^2\)
=\(a_1^2\) \(b_1^2\)- \(a_1^2\) \(b_1^2\)=0
n=2の時
\((\sum_{i=1}^{2}a_i^2)\) \((\sum_{i=1}^{2}b_i^2)\) ≥ \((\sum_{i=1}^{2}a_i b_i)^2\)
(左辺)-(右辺)= \((a_1^2+a_2^2)\) \((b_1^2+b_2^2)\)- \((a_1 b_1+a_2 b_2)^2\)
=\(a_1^2 b_1^2\)+\(a_1^2 b_2^2\)+\(a_2^2 b_1^2\)+\(a_2^2 b_2^2\)
-\(a_1^2 b_1^2\)-2\(a_1 a_2 b_1 b_2\)-\(a_2^2 b_2^2\)
=\(a_1^2 b_2^2\)-2\(a_1 a_2 b_1 b_2\)+\(a_2^2 b_1^2\)
=\((a_1 b_2- a_2 b_1)^2\) ≥ 0
コーシーシュワルツの不等式の証明
●ここで、無理矢理感はありますが、次の2次関数を定義します。
2次関数 \(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)
この2次関数は2乗和なので、基本は \(f(x)\) ≥ 0です。つまり、y=\(f(x)\)とy軸との交点の数は1か0です。
2次関数を展開した式に書き直します。
\(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)
\(f(x)\)=\(\sum_{i=1}^{n}(a_i ^2)x^2\)-2\(\sum_{i=1}^{n}(a_i b_i )x\)+\(\sum_{i=1}^{n}(b_i ^2)\)
y軸との交点の数をチェックする「判別式」ってありましたね。
y軸との交点の数が1か0なので、判別式D ≤ 0 と自動的になります。(そうなるように2次関数を仕込みました)
判別式 D/4 =\((\sum_{i=1}^{n}a_i b_i )^2\)-\((\sum_{i=1}^{n}a_i ^2)\)\((\sum_{i=1}^{n}b_i^2 )\) ≤ 0
(左辺)、(右辺)を逆にすると(コーシーシュワルツの不等式)そのものになるのがわかります。
(コーシーシュワルツの不等式)
\((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)
③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?
さて、相関係数、寄与率と、全く関係のない、コーシーシュワルツの不等式をつなぎます。
変数を置き換えるとわかる!
●\(x_i -\bar{x}\)=\(a_i\)
●\(y_i -\bar{y}\)=\(b_i\)
と置きます。
(コーシーシュワルツの不等式)は
\(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)
寄与率がコーシーシュワルツの不等式に支配される理由がわかる!
この式をよく見て、平方和の定義と比較しましょう。
●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
変形した(コーシーシュワルツの不等式)に平方和をあてはめることができますね。
\(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)
は、
\(S_{xx}\) \(S_{yy}\) ≥ \(S_{xy}^2\)
両辺を(左辺)で割ります。平方和は正の値なので不等号の向きは変わりません
1 ≥ \(\frac{ S_{xy}^2}{ S_{xx} S_{yy}}\)
(右辺)は寄与率Rそのものですね。
つまり、
R ≤ 1
が成り立ちます。
なお、寄与率は、正の値である平方和の比なので、0以上です。よって、
0 ≤ R ≤ 1
が常に成り立ちます。
寄与率から相関係数の範囲も支配される!
寄与率は
0 ≤ R ≤ 1
に支配されていますから、平方根である相関係数の範囲は
(中3の数学レベルですが)
-1 ≤ r ≤ 1
に支配されます。
割合として評価する変数として、うまく作られた変数と言えます。
まとめ
相関係数や寄与率が1以上にできない理由をわかりやすく解説しました。
- ①相関係数、寄与率
- ②コーシーシュワルツの不等式とその証明
- ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119