回帰直線の区間推定が導出できる(その2)
「回帰直線の区間推定の求め方かがわからない」など、疑問に思いませんか?
こういう疑問に答えます。
2回に分けて解説します!
本記事のテーマ
おさえておきたいポイント
- ①回帰直線の推定区間とは(その1)
- ➁【重要】回帰直線の区間推定導出のポイント(その1)
- ➂導出過程に必要な値を事前に計算(その1)
- ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
- ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
- ⑥回帰直線の区間推定領域を図示(その2)
①回帰直線の推定区間とは
➁【重要】回帰直線の区間推定導出のポイント
➂導出過程に必要な値を事前に計算
関連記事の(その1)で確認しましょう。
回帰直線の区間推定が導出できる(その1) 回帰直線の区間推定が暗記せず、公式が導出できますか?本記事では2回に分けて導出過程をわかりやすく解説します。公式暗記に頼らず式を理解することがとても大事です。回帰分析を勉強する人は必読です。 |
要するに
期待値と分散を導出して、
期待値±標準偏差の値が回帰直線の区間推定領域を作る!となりますね。
(その2)では、実際に導出していきます。
➃回帰直線の傾き\(a\)の期待値と分散を導出
求めたい値を再度確認
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(a\)]とV[\(a\)]を解きましょう。
回帰直線の傾き\(a\)の期待値E[\(a\)]を導出
回帰直線の傾き\(a\)=\(\frac{S_{xy}}{S_{xx}}\)です。分母分子の関係式を考えます。
\(S_{xy}\)をいじる
特に\(y\)が変数なので、\(S_{xy}\)をいじります。
\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{y}\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \sum_{i=1}^{n}(x_i-\bar{x})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \)×0
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
(マーカの式は後でも使います。)
期待値E[X]を使って変形
次に、期待値E[X]を使って変形していきます。
\(y_i\)=\(ax_i+b+ε_i\)より
E[\(S_{xy}\)]=E[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
=E[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b+ε_i)\)]
展開すると
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]+ \(b\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\)]+E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
ここで、第2項において、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
第2項は0です。
次に第3項において、
\(ε_i\)は\(y\)方向についてのばらつきなので、
\(ε_i\)と\(x_i-\bar{x}\)とは独立です。
独立な場合は期待値には便利な性質があり、
E[XY]=E[X]E[Y]があります。これを使うと、
E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
= E[\(\sum_{i=1}^{n}(x_i-\bar{x}) \)]×E[\(\sum_{i=1}^{n}ε_i\)]
なんと、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
=0×E[\(\sum_{i=1}^{n}ε_i\)]=0です。
まとめると、
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]
です。
さらに、和が0なら式を加えても値は変わらないので、
あえて
\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
をE[\(S_{xy}\)]に加えると、値は変わらないまま
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]-\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)]
=\(a\)E[\(S_{xx}\)]
となります。
\(x\)は定数扱いなので、E[\(S_{xx}\)]の中身はそのまま取り出せて、E[\(S_{xx}\)]= \(S_{xx}\)です。
E[\(a\)]=E[\(\frac{aS_{xx}}{S_{xx}}\)]=\(a\)となります。
回帰直線の傾き\(a\)の分散V[\(a\)]を導出
期待値の計算で難しさをわかったところで、分散も解きましょう。
V[\(a\)]=V[\(\frac{S_{xy}}{S_{xx}}\)]ですから、
変数\(y\)を含むV[\(S_{xy}\)]の計算が必要です。
分散V[\(S_{xy}\)]の計算
先ほどの計算で、以下の3点を意識して分散V[\(S_{xy}\)]を計算します。
- \( S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
- \(y_i=ax_i+b+ε_i\)
- 変数は\(y_i\),\(x_i\)は定数扱い
V[\(S_{xy}\)]= V[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
= V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
(\((x_i-\bar{x})( ax_i+b)\)は\(x\)だけ、\((x_i-\bar{x})ε_i)\)は\(xy\)についてで、互いに独立)
ここで、\(x\)についての値は定数と考えるので、
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]=0
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
となります。
V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2 σ^2\)
(V[\(ε_i \)]=\(σ^2\)より)
=\(σ^2 S_{xx}\)
まとめると、V[\(S_{xy}\)]は
●V[\(S_{xy}\)]=\(σ^2 S_{xx}\)
よって、分散V[\(a\)]は
V[\(a\)]=V[\(\frac{ S_{xy}}{S_{xx}}\)]
より、\( S_{xx}\)は定数扱いなので、Vの外には2乗して出します。ややこしい!
V[\(a\)]=\(\frac{1}{S_{xx}^2}\)V[\(S_{xy}\)]
=\(\frac{1}{S_{xx}^2}\)\(σ^2 S_{xx}\)
=\(\frac{σ^2}{S_{xx}}\)
となります。
V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)となります。
結果はシンプルですが、計算は結構難しいですね。
傾き\(a\)を使って、期待値、分散の計算が慣れてきましたので
Y切片\(b\)の期待値、分散の計算をしましょう。
➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出
求めたい値を再度確認
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(b\)]とV[\(b\)]を解きましょう。
回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出
回帰直線の\(y\)切片 \(b\)=\(-\frac{S_{xy}}{S_{xx}} \bar{x} +\bar{y}\)
=\(-a \bar{x} + \bar{y}\)ですね。
期待値E[\(b\)]は
E[\(b\)]=E[\(-a \bar{x} + \bar{y}\)]=-E[\(a\)] E[\(\bar{x}\)]+ E[\(\bar{y}\)]
となり、それぞれの期待値は以下の値を使うと
●E[\(a\)]=\(a\) (➃で導出しましたね!)
●E[\(\bar{x}\)]=\(\bar{x}\) (定数なのでそのまま期待値E[ ]の外に出る)
●E[\(\bar{y}\)]=\(\bar{y}\) (定数なのでそのまま期待値E[ ]の外に出る)
となります。しっかり計算した結果、当たり前の結果になりましたね。
回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
ここで、
●独立でないなら、V[X+Y]=V[X]+V[Y]+2Cov(X,Y)
という、共分散Cov(X,Y)が出て来ますよね!
結論から言えば
\(-a \bar{x} \)と\( \bar{y}\)は互いに独立なので、
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
と分離でき、
Cov(\(-a \bar{x}\),\( \bar{y}\))=0です。
折角なので、Cov(\(-a \bar{x}\),\( \bar{y}\))=0も計算してみましょう。
まず結論を急ぎます。
V[\(b\)]= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
で\(-\bar{x}\)は\(x\)についての変数なので、定数扱いして、
=\((-1)^2 \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
とします。
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\) (➃で導出しましたね。)
V[\( \bar{y}\)]=\(\frac{σ^2}{n}\) (➂で導出しましたね。)
を使います。導出過程はすでに解いていますので戻って確認しましょう。
よって、
V[\(b\)]=\( \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
=\(\bar{x^2}\)\(\frac{σ^2}{S_{xx}}\)+\(\frac{σ^2}{n}\)
=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
となります。
共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認
折角なので解いてみましょう。関連記事の➂にも解説しています。
回帰直線の区間推定が導出できる(その1) 回帰直線の区間推定が暗記せず、公式が導出できますか?本記事では2回に分けて導出過程をわかりやすく解説します。公式暗記に頼らず式を理解することがとても大事です。回帰分析を勉強する人は必読です。 |
Cov(\(-a \bar{x}\),\( \bar{y}\))
=Cov(\(\frac{S_{xy}}{S_{xx}} \bar{x}\),\( \bar{y}\))
●\(\bar{x}\)と\(S_{xx}\)は定数扱いなので、Covの外に出します。
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
次に、\(S_{xy}\)と\( \bar{y}\)を展開して、Covの中の式を変形します。
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\) (➂で解説済です)
●\(\bar{y}\)=\(\sum_{i=1}^{n}\frac{y_1 +y_2+…+y_n}{n}\)(➁で解説済です)
と
➂のところで事前に紹介しましたが、
共分散の性質で、\(X_i\)と\(Y_j\)が互いに独立ならば、
●Cov(\(X_1+X_2\),\(Y_1,Y_2\))= Cov(\(X_1\),\(Y_1\))+ Cov(\(X_1\),\(Y_2\))+ Cov(\(X_2\),\(Y_1\))+ Cov(\(X_2\),\(Y_2\))
となります。
以上の性質を活用すると、
Cov(\(-a \bar{x}\),\( \bar{y}\))
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
= Cov(\((x_1-\bar{x})y_1\),\(\frac{y_1}{n}\))
+ Cov(\((x_2-\bar{x})y_2\),\(\frac{y_2}{n}\))
+…
+ Cov(\((x_n-\bar{x})y_n\),\(\frac{y_n}{n}\))
となり、\(x,n\)は定数扱いとしてCovの外に出します。
= \(\frac{x_1-\bar{x}}{n}\)Cov(\(y_1,y_1\))
+ \(\frac{x_2-\bar{x}}{n}\)Cov(\(y_2,y_2\))
+…
+ \(\frac{x_n-\bar{x}}{n}\)Cov(\(y_n,y_n\))
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)V[\(y_i\)]
(Cov(X,X)=V[X]ですね。)
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)\(σ^2\)
となりますが、
\(\sum_{i=1}^{n}(x_i -\bar{x})\)=0なので、共分散Covは0になります。
V[\(b\)]=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
⑥回帰直線の区間推定領域を図示
定数\(a,b\)の期待値と分散をまとめると
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
になりましたね。
では、実際に値を使って、回帰直線の区間推定領域を計算してグラフ化しましょう。
データを用意
例えば、次の値を用意します。ついでに平方和もグラフも出します。
No | x | y | A=\((x-\bar{x}\)) | B=\((y-\bar{y}\)) | A2 | B2 | AB |
1 | 1.3 | 2.4 | -8.26 | -9.88 | 68.23 | 97.61 | 81.61 |
2 | 3.4 | 4.5 | -6.16 | -7.78 | 37.95 | 60.53 | 47.92 |
3 | 5.6 | 3.6 | -3.96 | -8.68 | 15.68 | 75.34 | 34.37 |
4 | 7.5 | 6.7 | -2.06 | -5.58 | 4.24 | 31.14 | 11.49 |
5 | 9.1 | 8.9 | -0.46 | -3.38 | 0.21 | 11.42 | 1.55 |
6 | 11.2 | 6.6 | 1.64 | -5.68 | 2.69 | 32.26 | -9.32 |
7 | 13.4 | 14.3 | 3.84 | 2.02 | 14.75 | 4.08 | 7.76 |
8 | 13.7 | 24.5 | 4.14 | 12.22 | 17.14 | 149.33 | 50.59 |
9 | 14.2 | 20.8 | 4.64 | 8.52 | 21.53 | 72.59 | 39.53 |
10 | 16.2 | 30.5 | 6.64 | 18.22 | 44.09 | 331.97 | 120.98 |
合計 | 95.6 | 122.8 | 0 | 0 | 226.5 | 866.28 | 386.5 |
平均 | 9.56 | 12.28 | – | – | ↑\(S_{xx}\) | ↑\(S_{yy}\) | ↑\(S_{xy}\) |
グラフは下図です。
必要な各値を導出しましょう。
●E[\(a\)]=\(\frac{S_{xy}}{S_{xx}}\)=\(\frac{386.5}{226.5}\)=1.706
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)=\(\frac{σ^2}{226.5}\)
●E[\(b\)]=\(-a \bar{x} +\bar{y}\)=-4.033
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
=\(σ^2(\frac{1}{10}+\frac{9.56^2}{226.5})\)
と代入したいのですが、
と不明ですよね!
実際は不明です。なので、
それらしい値を使います。
分散分析に慣れているとピンと来ますよね!
そうです!\(V_e\)ですね!
●回帰分析では
\(V_e\)=\(S_e\)/\(Φ_e\)
=\(\frac{S_e}{n-2}\)=\(σ^2\)
を使います。
●\(S_e\)=\(S_T\)-\(S_R\)
=\(S_{yy}\)-\(\frac{S_{xy}^2}{S_{xx}}\)=206.76
より、
\(V_e\)=\(\frac{S_e}{n-2}\)
=206.76/(10-2)=25.85
となります。
グラフを描いてみる
例えば、2σ分ズレた場合の回帰直線を描きます。定数\(a,b\)は以下のように変化します。
●\(a_{max,min}\)=E[\(a\)]±\(m\)×\(\sqrt{V[a]}\)
●\(b_{max,min}\)=E[\(b\)]±\(m\)×\(\sqrt{V[b]}\)
(ここで2σ分を考えるので、\(m\)=2とします。
値は下表のようになります。
– | σ | a | b | 回帰直線 |
min | -2 | 1.03 | 2.43 | y=1.03x+2.43 |
ave | 0 | 1.71 | -4.03 | y=1.71x-4.03 |
max | 2 | 2.38 | -10.49 | y=2.38x-10.49 |
グラフを描くと下図のようになります。
回帰直線の区間推定をグラフで図示すると
●領域がわかる
●必ず平均(\(\bar{x},\bar{y}\))を通る
ことがわかりますね。
以上、難しい公式を導出して、回帰直線の区間推定領域を求める過程を解説しました。
難しい導出過程でしたが、ちゃんとできましたね!
公式は導出できてから使いましょう。
まとめ
「回帰直線の推定区間が導出できる(その2)」を解説しました。
- ①回帰直線の推定区間とは(その1)
- ➁【重要】回帰直線の区間推定導出のポイント(その1)
- ➂導出過程に必要な値を事前に計算(その1)
- ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
- ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
- ⑥回帰直線の区間推定領域を図示(その2)
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119