回帰分析と相関係数をマスターする
「回帰分析と相関係数の重要なポイントを速く知りたいけど、どうすればいいの?」
こういう疑問に答えます。
本記事のテーマ
おさえておきたいポイント
- ➀相関係数の導出方法を覚える
- ②相関係数とグラフのイメージをつかむ
- ③回帰分析と分散分析
- ④回帰分析の導出を理解する
回帰分析の試験問題で、絶対に落とせない範囲です。本記事で重要ポイントを網羅しておさえます。
●You tube動画でも解説しています。ご覧ください。
➀相関係数の導出方法を覚える
\(r=\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)
\(S_{xx}\)=\(\sum_{i=1}^{n} x_i^2-\frac{(\sum_{i=1}^{n} x_i)^2}{n}\)
\(S_{yy}\)=\(\sum_{i=1}^{n} y_i^2-\frac{(\sum_{i=1}^{n} y_i)^2}{n}\)
\(S_{xy}\)=\(\sum_{i=1}^{n} x_i y_i – \frac{\sum_{i=1}^{n} x_i \sum_{i=1}^{n} y_i}{n}\)
平方和と似た公式なので、合わせて覚えると覚えやすいです。
寄与率R=r2は0≦R≦1
②相関係数とグラフのイメージをつかむ
相関係数r=-1,0,0.5のグラフ例を作る
r=0、直線ではないもの
r=0.5は、中途半端にばらつきのある右上がりの直線
相関係数r=-1、0,0.5のグラフ例(寄与率で表示)
イメージしておきましょう。
③回帰分析と分散分析
分散分析表はワンパターンなので、表ごと覚えましょう。
– | 平方和S | 自由度φ | 不偏分散V | 分散比F |
回帰R | \(S_R=\frac{(S_{xy})^2}{S_{xx}}\) | \(φ_R \)=1 | \(V_R \)=\(\frac{S_R}{φ_R}\) | F=\(\frac{V_R}{V_e}\) |
残差e | \(S_e=S_T-S_R\) | \(φ_e \)=n-2 | \(V_e \)=\(\frac{S_e}{φ_e}\) | – |
全変動T | \(S_T=S_{yy}\) | \(φ_T \)=n-1 | – | – |
④回帰分析の導出を理解する
上の①②③だけでは、物足りないあなたは回帰分析の導出もできるようになっておきましょう。
1.回帰直線の導出
回帰直線を\(y=a+bx\)と定義します。
測定データ(\(x_i,y_i\))と回帰直線との差を最小にする条件が、回帰直線の傾きとy切片です。
\(Q(a,b)\)=\( \sum_{i=1}^{n} (y_i-(a+bx_i)^2\) → min
\(Q(a,b)\)=\( \sum_{i=1}^{n} ((y_i-\bar{y})-b(x_i-\bar{x})+(\bar{y}-a-b\bar{x}))^2\)
=\(S_{xx}(b-\frac{S_{xy}}{S_{xx}})^2\)+\(n(\bar{y}-a-b\bar{x})^2\)+\((S_{yy}-\frac{S_{xy}^2}{S_{xx}})\)
\(Q(a,b)\)が最小になる条件は、
\(b-\frac{S_{xy}}{S_{xx}}\)=0かつ、\(\bar{y}-a-b\bar{x}\)=0
b=\(\frac{S_{xy}}{S_{xx}}\), \(a\)=\(\bar{y}-\frac{S_{xy}}{S_{xx}}\bar{x}\)
が回帰直線の傾きと、y切片になります。
\(Q(a,b)\)=\(S_{xx}(b-\frac{S_{xy}}{S_{xx}})^2\)+\(n(\bar{y}-a-b\bar{x})^2\)+\((S_{yy}-\frac{S_{xy}^2}{S_{xx}})\)を導出せよ。
ブログなので、結論として完結にまとめていますが、実際は泥臭い展開をしています。力アップのためにもぜひ導出してください。
2.平方和の分解
ST= SR+ Seを導出します。
①実測データ(xi, yi)、②回帰直線上の点(xi,y)と③データの平均値(\(\bar{x},\bar{y}\))を用いると、上図から下式のように分解できます。
\(y_i – \bar{y}\) = \(ε_i\)+ \(r_i\)
(回帰:\(r_i\)=\(u_i – \bar{y}\),
残差:\(ε_i\)=\(y_i – u_i\))
\(y_i – \bar{y}\) = \(b(x_i-\bar{x})+ε_i\)
と書くことができます。
平方和を計算します。
\(\sum_{i=1}^{n} (y_i – \bar{y})^2\)=\(\sum_{i=1}^{n} (b(x_i-\bar{x})+ε_i)^2\)
=\(b^2\sum_{i=1}^{n} (x_i-\bar{x})^2+2b\sum_{i=1}^{n}(x_i-\bar{x})ε_i +\sum_{i=1}^{n}ε_i^2\)
●\(\sum_{i=1}^{n} (y_i – \bar{y})^2\)は合計Tの平方和ST、
●\(b^2\sum_{i=1}^{n} (x_i-\bar{x})^2\)は回帰Rの平方和SR、
●\(\sum_{i=1}^{n}ε_i^2\)は残差eの平方和Se
に一致します。
つまり、
ST= SR+2b\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)+ Se
となります。
ところで、回帰直線となる条件は残差eを最小にする条件です。
残差の平方和Se=\(\sum_{i=1}^{n} ε_i ^2\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i))^2\)です。
回帰直線は、残差Seが最小になる条件なので、次の式が成り立ちます。
\(\displaystyle \frac{\partial S_e}{\partial a }\)=0, \(\displaystyle \frac{\partial S_e}{\partial b }\)=0
つまり、
●\(\displaystyle \frac{\partial S_e}{\partial a }\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i))\)
=\(\sum_{i=1}^{n} (ε_i)\)=0
●\(\displaystyle \frac{\partial S_e}{\partial b }\)=\(\sum_{i=1}^{n} (y_i – (a+bx_i)) x_i\)
=\(\sum_{i=1}^{n} (ε_i x_i)\)=0
が成り立ちます。
ST= SR+2b\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)+ Se
の第2項に注目します。
\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)=\(\sum_{i=1}^{n}(x_i ε_i \)-\(\bar{x}\sum_{i=1}^{n}ε_i \)
=0-0=0
と第2項は0になります。
つまり、
ST= SR+Se
となります。
3.寄与率の導出
寄与率Rを平方和の比SR/ STで定義します。
SR=b2Sxx
ST= Syy
b=\(\frac{S_{xy}}{S_{xx}}\)
を代入します。
R=\(\frac{S_R}{S_T}\)=\(b^2 \frac{S_{xx}}{S_{yy}}\)
=\(\frac{S_{xy}^2}{S_{xx}^2} \frac{S_{xx}}{S_{yy}}\)
=\(\frac{S_{xy}^2}{S_{xx} S_{yy}} \)
複雑な計算ですが、一通り導出しておけば、試験では完璧です。重回帰分析への準備にもなりますので、ぜひ解いておきましょう。
まとめ
回帰分析と相関係数について、おさえておくべき重要事項と導出方法を解説しました。
- ➀相関係数の導出方法を覚える
- ②相関係数とグラフのイメージをつかむ
- ③回帰分析と分散分析
- ④回帰分析の導出を理解する
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119