QCプラネッツ 品質のプロフェッショナルを育成するサイト

回帰直線の区間推定が導出できる(その2)

回帰分析

「回帰直線の区間推定の求め方かがわからない」など、疑問に思いませんか?

こういう疑問に答えます。

2回に分けて解説します!

本記事のテーマ

回帰直線の推定区間が導出できる(その2)

おさえておきたいポイント

  • ①回帰直線の推定区間とは(その1)
  • ➁【重要】回帰直線の区間推定導出のポイント(その1)
  • ➂導出過程に必要な値を事前に計算(その1)
  • ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
  • ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
  • ⑥回帰直線の区間推定領域を図示(その2)

①回帰直線の推定区間とは

➁【重要】回帰直線の区間推定導出のポイント

➂導出過程に必要な値を事前に計算

関連記事の(その1)で確認しましょう。

回帰直線の区間推定が導出できる(その1)
回帰直線の区間推定が暗記せず、公式が導出できますか?本記事では2回に分けて導出過程をわかりやすく解説します。公式暗記に頼らず式を理解することがとても大事です。回帰分析を勉強する人は必読です。

要するに

回帰直線の傾き\(a\)とy切片\(b\)の
期待値と分散を導出して、
期待値±標準偏差の値が回帰直線の区間推定領域を作る!となりますね。

(その2)では、実際に導出していきます。

➃回帰直線の傾き\(a\)の期待値と分散を導出

求めたい値を再度確認

\(a\),\(b\)の期待値と分散が導出できれば本記事はOKです。
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(a\)]とV[\(a\)]を解きましょう。

回帰直線の傾き\(a\)の期待値E[\(a\)]を導出

回帰直線の傾き\(a\)=\(\frac{S_{xy}}{S_{xx}}\)です。分母分子の関係式を考えます。

\(S_{xy}\)をいじる

特に\(y\)が変数なので、\(S_{xy}\)をいじります。
\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{y}\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \sum_{i=1}^{n}(x_i-\bar{x})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \)×0
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
(マーカの式は後でも使います。)

期待値E[X]を使って変形

次に、期待値E[X]を使って変形していきます。
\(y_i\)=\(ax_i+b+ε_i\)より
E[\(S_{xy}\)]=E[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
=E[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b+ε_i)\)]
展開すると
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]+ \(b\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\)]+E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]

ここで、第2項において、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
第2項は0です。

次に第3項において、
\(ε_i\)は\(y\)方向についてのばらつきなので、
\(ε_i\)と\(x_i-\bar{x}\)とは独立です。
独立な場合は期待値には便利な性質があり、
E[XY]=E[X]E[Y]があります。これを使うと、
E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
= E[\(\sum_{i=1}^{n}(x_i-\bar{x}) \)]×E[\(\sum_{i=1}^{n}ε_i\)]
なんと、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
=0×E[\(\sum_{i=1}^{n}ε_i\)]=0です。

まとめると、
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]
です。

さらに、和が0なら式を加えても値は変わらないので、
あえて
\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
をE[\(S_{xy}\)]に加えると、値は変わらないまま

E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]-\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)]
=\(a\)E[\(S_{xx}\)]
となります。

\(x\)は定数扱いなので、E[\(S_{xx}\)]の中身はそのまま取り出せて、E[\(S_{xx}\)]= \(S_{xx}\)です。

よって、期待値E[\(a\)]は
E[\(a\)]=E[\(\frac{aS_{xx}}{S_{xx}}\)]=\(a\)となります。
E[\(a\)]=\(a\)は当たり前だけど、途中経過が難しいし、期待値の性質を使った式変形の難しさを思い知らされますね!

回帰直線の傾き\(a\)の分散V[\(a\)]を導出

期待値の計算で難しさをわかったところで、分散も解きましょう。

V[\(a\)]=V[\(\frac{S_{xy}}{S_{xx}}\)]ですから、
変数\(y\)を含むV[\(S_{xy}\)]の計算が必要です。

分散V[\(S_{xy}\)]の計算

先ほどの計算で、以下の3点を意識して分散V[\(S_{xy}\)]を計算します。

  1. \( S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
  2. \(y_i=ax_i+b+ε_i\)
  3. 変数は\(y_i\),\(x_i\)は定数扱い

V[\(S_{xy}\)]= V[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
= V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
(\((x_i-\bar{x})( ax_i+b)\)は\(x\)だけ、\((x_i-\bar{x})ε_i)\)は\(xy\)についてで、互いに独立)
ここで、\(x\)についての値は定数と考えるので、
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]=0
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
となります。
V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2 σ^2\)
(V[\(ε_i \)]=\(σ^2\)より)
=\(σ^2 S_{xx}\)

まとめると、V[\(S_{xy}\)]は
●V[\(S_{xy}\)]=\(σ^2 S_{xx}\)

よって、分散V[\(a\)]は
V[\(a\)]=V[\(\frac{ S_{xy}}{S_{xx}}\)]
より、\( S_{xx}\)は定数扱いなので、Vの外には2乗して出します。ややこしい!
V[\(a\)]=\(\frac{1}{S_{xx}^2}\)V[\(S_{xy}\)]
=\(\frac{1}{S_{xx}^2}\)\(σ^2 S_{xx}\)
=\(\frac{σ^2}{S_{xx}}\)
となります。

よって、分散V[\(a\)]は
V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)となります。

結果はシンプルですが、計算は結構難しいですね。

傾き\(a\)を使って、期待値、分散の計算が慣れてきましたので
Y切片\(b\)の期待値、分散の計算をしましょう。

➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出

求めたい値を再度確認

\(a\),\(b\)の期待値と分散が導出できれば本記事はOKです。
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(b\)]とV[\(b\)]を解きましょう。

回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出

回帰直線の\(y\)切片 \(b\)=\(-\frac{S_{xy}}{S_{xx}} \bar{x} +\bar{y}\)
=\(-a \bar{x} + \bar{y}\)ですね。

期待値E[\(b\)]は
E[\(b\)]=E[\(-a \bar{x} + \bar{y}\)]=-E[\(a\)] E[\(\bar{x}\)]+ E[\(\bar{y}\)]
となり、それぞれの期待値は以下の値を使うと
●E[\(a\)]=\(a\) (➃で導出しましたね!)
●E[\(\bar{x}\)]=\(\bar{x}\) (定数なのでそのまま期待値E[ ]の外に出る)
●E[\(\bar{y}\)]=\(\bar{y}\) (定数なのでそのまま期待値E[ ]の外に出る)

E[\(b\)]=\(-a \bar{x} + \bar{y}\)=\(b\)
となります。しっかり計算した結果、当たり前の結果になりましたね。

回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出

V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]

ここで、

●X,Yが互いに独立なら V[X+Y]=V[X]+V[Y]で
●独立でないなら、V[X+Y]=V[X]+V[Y]+2Cov(X,Y)
という、共分散Cov(X,Y)が出て来ますよね!

結論から言えば
\(-a \bar{x} \)と\( \bar{y}\)は互いに独立なので、
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
と分離でき、
Cov(\(-a \bar{x}\),\( \bar{y}\))=0です。

折角なので、Cov(\(-a \bar{x}\),\( \bar{y}\))=0も計算してみましょう。

まず結論を急ぎます。

V[\(b\)]= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
で\(-\bar{x}\)は\(x\)についての変数なので、定数扱いして、
=\((-1)^2 \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
とします。

●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\) (➃で導出しましたね。)
V[\( \bar{y}\)]=\(\frac{σ^2}{n}\) (➂で導出しましたね。)
を使います。導出過程はすでに解いていますので戻って確認しましょう。

よって、
V[\(b\)]=\( \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
=\(\bar{x^2}\)\(\frac{σ^2}{S_{xx}}\)+\(\frac{σ^2}{n}\)
=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
となります。

共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認

折角なので解いてみましょう。関連記事の➂にも解説しています。

回帰直線の区間推定が導出できる(その1)
回帰直線の区間推定が暗記せず、公式が導出できますか?本記事では2回に分けて導出過程をわかりやすく解説します。公式暗記に頼らず式を理解することがとても大事です。回帰分析を勉強する人は必読です。

Cov(\(-a \bar{x}\),\( \bar{y}\))
=Cov(\(\frac{S_{xy}}{S_{xx}} \bar{x}\),\( \bar{y}\))
●\(\bar{x}\)と\(S_{xx}\)は定数扱いなので、Covの外に出します。
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))

次に、\(S_{xy}\)と\( \bar{y}\)を展開して、Covの中の式を変形します。
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\) (➂で解説済です)
●\(\bar{y}\)=\(\sum_{i=1}^{n}\frac{y_1 +y_2+…+y_n}{n}\)(➁で解説済です)

➂のところで事前に紹介しましたが、
共分散の性質で、\(X_i\)と\(Y_j\)が互いに独立ならば、
●Cov(\(X_1+X_2\),\(Y_1,Y_2\))= Cov(\(X_1\),\(Y_1\))+ Cov(\(X_1\),\(Y_2\))+ Cov(\(X_2\),\(Y_1\))+ Cov(\(X_2\),\(Y_2\))
となります。

以上の性質を活用すると、
Cov(\(-a \bar{x}\),\( \bar{y}\))
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
= Cov(\((x_1-\bar{x})y_1\),\(\frac{y_1}{n}\))
+ Cov(\((x_2-\bar{x})y_2\),\(\frac{y_2}{n}\))
+…
+ Cov(\((x_n-\bar{x})y_n\),\(\frac{y_n}{n}\))
となり、\(x,n\)は定数扱いとしてCovの外に出します。

= \(\frac{x_1-\bar{x}}{n}\)Cov(\(y_1,y_1\))
+ \(\frac{x_2-\bar{x}}{n}\)Cov(\(y_2,y_2\))
+…
+ \(\frac{x_n-\bar{x}}{n}\)Cov(\(y_n,y_n\))
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)V[\(y_i\)]
(Cov(X,X)=V[X]ですね。)
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)\(σ^2\)
となりますが、

\(\sum_{i=1}^{n}(x_i -\bar{x})\)=0なので、共分散Covは0になります。

よって、分散V[\(b\)]は
V[\(b\)]=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)

⑥回帰直線の区間推定領域を図示

定数\(a,b\)の期待値と分散をまとめると

導出結果をまとめると、
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
になりましたね。

では、実際に値を使って、回帰直線の区間推定領域を計算してグラフ化しましょう。

データを用意

例えば、次の値を用意します。ついでに平方和もグラフも出します。

No A=\((x-\bar{x}\)) B=\((y-\bar{y}\)) A2 B2 AB
1 1.3 2.4 -8.26 -9.88 68.23 97.61 81.61
2 3.4 4.5 -6.16 -7.78 37.95 60.53 47.92
3 5.6 3.6 -3.96 -8.68 15.68 75.34 34.37
4 7.5 6.7 -2.06 -5.58 4.24 31.14 11.49
5 9.1 8.9 -0.46 -3.38 0.21 11.42 1.55
6 11.2 6.6 1.64 -5.68 2.69 32.26 -9.32
7 13.4 14.3 3.84 2.02 14.75 4.08 7.76
8 13.7 24.5 4.14 12.22 17.14 149.33 50.59
9 14.2 20.8 4.64 8.52 21.53 72.59 39.53
10 16.2 30.5 6.64 18.22 44.09 331.97 120.98
合計 95.6 122.8 0 0 226.5 866.28 386.5
平均 9.56 12.28 ↑\(S_{xx}\) ↑\(S_{yy}\) ↑\(S_{xy}\)

グラフは下図です。
回帰分析

必要な各値を導出しましょう。
●E[\(a\)]=\(\frac{S_{xy}}{S_{xx}}\)=\(\frac{386.5}{226.5}\)=1.706
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)=\(\frac{σ^2}{226.5}\)
●E[\(b\)]=\(-a \bar{x} +\bar{y}\)=-4.033
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
=\(σ^2(\frac{1}{10}+\frac{9.56^2}{226.5})\)

と代入したいのですが、

\(σ^2\)はどこから求めるの?
と不明ですよね!

実際は不明です。なので、
それらしい値を使います。
分散分析に慣れているとピンと来ますよね!
そうです!\(V_e\)ですね!

●回帰分析では
\(V_e\)=\(S_e\)/\(Φ_e\)
=\(\frac{S_e}{n-2}\)=\(σ^2\)
を使います。

●\(S_e\)=\(S_T\)-\(S_R\)
=\(S_{yy}\)-\(\frac{S_{xy}^2}{S_{xx}}\)=206.76
より、
\(V_e\)=\(\frac{S_e}{n-2}\)
=206.76/(10-2)=25.85
となります。

グラフを描いてみる

例えば、2σ分ズレた場合の回帰直線を描きます。定数\(a,b\)は以下のように変化します。
●\(a_{max,min}\)=E[\(a\)]±\(m\)×\(\sqrt{V[a]}\)
●\(b_{max,min}\)=E[\(b\)]±\(m\)×\(\sqrt{V[b]}\)
(ここで2σ分を考えるので、\(m\)=2とします。

値は下表のようになります。

σ a b 回帰直線
min -2 1.03 2.43 y=1.03x+2.43
ave 0 1.71 -4.03 y=1.71x-4.03
max 2 2.38 -10.49 y=2.38x-10.49

グラフを描くと下図のようになります。

回帰分析

回帰直線の区間推定をグラフで図示すると
●領域がわかる
●必ず平均(\(\bar{x},\bar{y}\))を通る
ことがわかりますね。

以上、難しい公式を導出して、回帰直線の区間推定領域を求める過程を解説しました。

難しい導出過程でしたが、ちゃんとできましたね!

公式は導出できてから使いましょう。

まとめ

「回帰直線の推定区間が導出できる(その2)」を解説しました。

  • ①回帰直線の推定区間とは(その1)
  • ➁【重要】回帰直線の区間推定導出のポイント(その1)
  • ➂導出過程に必要な値を事前に計算(その1)
  • ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
  • ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
  • ⑥回帰直線の区間推定領域を図示(その2)


Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119

    Warning: Invalid argument supplied for foreach() in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 122
error: Content is protected !!