QCプラネッツ 品質のプロフェッショナルを育成するサイト

【必読】相関係数や寄与率が1以上にできない理由がわかる

回帰分析

「相関係数や寄与率が1以上にできない理由がわからない。」、と困っていませんか?

こういう疑問に答えます。

本記事のテーマ

【必読】相関係数や寄与率が1以上にできない理由がわかる
確かに、相関係数r=100とかないですよね!
でも、何で1以上にならないかと言われても知らないし、どこにも書いていないし。。。

本記事の結論

相関係数や寄与率は、「コーシーシュワルツの不等式に支配されているから」

これで、「なるほど!」とわかる人は、ほぼいませんので、わかりやすく解説します。
\((a+b)^2=a^2+2ab+b^2\)がわかれば、本記事は完璧に理解できます!

  • ①相関係数、寄与率
  • ②コーシーシュワルツの不等式とその証明
  • ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?

●You tube動画もごらんください。

①相関係数、寄与率

相関係数、寄与率について復習しましょう。

寄与率R

データ群(\(x_i\),\(y_i\)) (i=1,…,n)に対して、3つの平方和を定義します。
●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)

寄与率Rは
R=\(\frac{S_{xy}^2}{S_{xx}S_{yy}}\)

0 ≤ R ≤ 1
が成立しますね。

皆、暗記して点数化するところですね。

相関係数r

相関係数rは寄与率Rの平方根ですね。
r=\(\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}\)
-1 ≤ r ≤ 1
が成立しますね。

皆、暗記して点数化するところですね。

確かに、公式暗記で精一杯で、

相関係数、寄与率がなぜ一定の範囲に支配されているのか、と疑問に思いませんよね。でも疑問に思って、ツッコみましょう!

②コーシーシュワルツの不等式とその証明

コーシーシュワルツの不等式

大学受験にたまに出て来る不等式です。相加相乗平均の不等式よりはマイナーですけど。

自然数nに対して、以下の不等式が成り立つ(コーシーシュワルツの不等式)
\((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)

コーシーシュワルツの不等式を使ってみよう!

公式眺めてもピンと来ません。実際に式を使ってみましょう。

n=1の時

\((\sum_{i=1}^{1}a_i^2)\) \((\sum_{i=1}^{1}b_i^2)\) ≥ \((\sum_{i=1}^{1}a_i b_i)^2\)
(左辺)-(右辺)= \(a_1^2\) \(b_1^2\)- \((a_1 b_1)^2\)
=\(a_1^2\) \(b_1^2\)- \(a_1^2\) \(b_1^2\)=0

n=2の時

\((\sum_{i=1}^{2}a_i^2)\) \((\sum_{i=1}^{2}b_i^2)\) ≥ \((\sum_{i=1}^{2}a_i b_i)^2\)
(左辺)-(右辺)= \((a_1^2+a_2^2)\) \((b_1^2+b_2^2)\)- \((a_1 b_1+a_2 b_2)^2\)
=\(a_1^2 b_1^2\)+\(a_1^2 b_2^2\)+\(a_2^2 b_1^2\)+\(a_2^2 b_2^2\)
-\(a_1^2 b_1^2\)-2\(a_1 a_2 b_1 b_2\)-\(a_2^2 b_2^2\)
=\(a_1^2 b_2^2\)-2\(a_1 a_2 b_1 b_2\)+\(a_2^2 b_1^2\)
=\((a_1 b_2- a_2 b_1)^2\) ≥ 0

コーシーシュワルツの不等式の証明

●ここで、無理矢理感はありますが、次の2次関数を定義します。
2次関数 \(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)

この2次関数は2乗和なので、基本は \(f(x)\) ≥ 0です。つまり、y=\(f(x)\)とy軸との交点の数は1か0です。

2次関数を展開した式に書き直します。
 \(f(x)\)=\(\sum_{i=1}^{n}(a_i x- b_i)^2\)
 \(f(x)\)=\(\sum_{i=1}^{n}(a_i ^2)x^2\)-2\(\sum_{i=1}^{n}(a_i b_i )x\)+\(\sum_{i=1}^{n}(b_i ^2)\)

y軸との交点の数をチェックする「判別式」ってありましたね。
y軸との交点の数が1か0なので、判別式D ≤ 0 と自動的になります。(そうなるように2次関数を仕込みました)

判別式 D/4 =\((\sum_{i=1}^{n}a_i b_i )^2\)-\((\sum_{i=1}^{n}a_i ^2)\)\((\sum_{i=1}^{n}b_i^2 )\) ≤ 0

(左辺)、(右辺)を逆にすると(コーシーシュワルツの不等式)そのものになるのがわかります。

(コーシーシュワルツの不等式)
\((\sum_{i=1}^{n}a_i^2)\) \((\sum_{i=1}^{n}b_i^2)\) ≥ \((\sum_{i=1}^{n}a_i b_i)^2\)

③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?

さて、相関係数、寄与率と、全く関係のない、コーシーシュワルツの不等式をつなぎます。

変数を置き換えるとわかる!

●\(x_i -\bar{x}\)=\(a_i\)
●\(y_i -\bar{y}\)=\(b_i\)
と置きます。

(コーシーシュワルツの不等式)は
\(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)

寄与率がコーシーシュワルツの不等式に支配される理由がわかる!

この式をよく見て、平方和の定義と比較しましょう。
●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)
●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)

変形した(コーシーシュワルツの不等式)に平方和をあてはめることができますね。
\(\sum_{i=1}^{n}(x_i -\bar{x})^2\) \(\sum_{i=1}^{n}(y_i -\bar{y})^2\) ≥ \((\sum_{i=1}^{n}(x_i -\bar{x})(y_i -\bar{y}))^2\)
は、
\(S_{xx}\) \(S_{yy}\) ≥ \(S_{xy}^2\)
両辺を(左辺)で割ります。平方和は正の値なので不等号の向きは変わりません
1 ≥ \(\frac{ S_{xy}^2}{ S_{xx} S_{yy}}\)

(右辺)は寄与率Rそのものですね。
つまり、
R ≤ 1
が成り立ちます。

なお、寄与率は、正の値である平方和の比なので、0以上です。よって、
0 ≤ R ≤ 1
が常に成り立ちます。

相関係数、寄与率はコーシーシュワルツの不等式に支配されている!ことがはっきりわかりますよね!なるほど!

寄与率から相関係数の範囲も支配される!

寄与率は
0 ≤ R ≤ 1
に支配されていますから、平方根である相関係数の範囲は
(中3の数学レベルですが)
-1 ≤ r ≤ 1
に支配されます。

相関係数、寄与率は-1~1までの値であり、平方和の比なので、
割合として評価する変数として、うまく作られた変数と言えます。
相関係数、寄与率はコーシーシュワルツの不等式に支配されている!
相関係数 寄与率 コーシーシュワルツの不等式 の関係性がわかりましたね!

まとめ

相関係数や寄与率が1以上にできない理由をわかりやすく解説しました。

  • ①相関係数、寄与率
  • ②コーシーシュワルツの不等式とその証明
  • ③なぜ相関係数、寄与率がコーシーシュワルツの不等式に支配されるのか?


Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119

    Warning: Invalid argument supplied for foreach() in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 122
error: Content is protected !!