「回帰直線の区間推定の求め方かがわからない」など、疑問に思いませんか?
こういう疑問に答えます。
2回に分けて解説します!
本記事のテーマ
回帰直線の推定区間が導出できる(その2)
おさえておきたいポイント
- ①回帰直線の推定区間とは(その1)
- ➁【重要】回帰直線の区間推定導出のポイント(その1)
- ➂導出過程に必要な値を事前に計算(その1)
- ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
- ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
- ⑥回帰直線の区間推定領域を図示(その2)
[themoneytizer id=”105233-2″]
【QC検定®1級合格】回帰分析問題集を販売します!
QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
①回帰直線の推定区間とは
➁【重要】回帰直線の区間推定導出のポイント
➂導出過程に必要な値を事前に計算
関連記事の(その1)で確認しましょう。
要するに
回帰直線の傾き\(a\)とy切片\(b\)の
期待値と分散を導出して、
期待値±標準偏差の値が回帰直線の区間推定領域を作る!となりますね。
(その2)では、実際に導出していきます。
➃回帰直線の傾き\(a\)の期待値と分散を導出
求めたい値を再度確認
\(a\),\(b\)の期待値と分散が導出できれば本記事はOKです。
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(a\)]とV[\(a\)]を解きましょう。
回帰直線の傾き\(a\)の期待値E[\(a\)]を導出
回帰直線の傾き\(a\)=\(\frac{S_{xy}}{S_{xx}}\)です。分母分子の関係式を考えます。
\(S_{xy}\)をいじる
特に\(y\)が変数なので、\(S_{xy}\)をいじります。
\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{y}\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \sum_{i=1}^{n}(x_i-\bar{x})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \)×0
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
(マーカの式は後でも使います。)
期待値E[X]を使って変形
次に、期待値E[X]を使って変形していきます。
\(y_i\)=\(ax_i+b+ε_i\)より
E[\(S_{xy}\)]=E[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
=E[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b+ε_i)\)]
展開すると
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]+ \(b\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\)]+E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
ここで、第2項において、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
第2項は0です。
次に第3項において、
\(ε_i\)は\(y\)方向についてのばらつきなので、
\(ε_i\)と\(x_i-\bar{x}\)とは独立です。
独立な場合は期待値には便利な性質があり、
E[XY]=E[X]E[Y]があります。これを使うと、
E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
= E[\(\sum_{i=1}^{n}(x_i-\bar{x}) \)]×E[\(\sum_{i=1}^{n}ε_i\)]
なんと、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
=0×E[\(\sum_{i=1}^{n}ε_i\)]=0です。
まとめると、
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]
です。
さらに、和が0なら式を加えても値は変わらないので、
あえて
\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
をE[\(S_{xy}\)]に加えると、値は変わらないまま
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]-\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)]
=\(a\)E[\(S_{xx}\)]
となります。
\(x\)は定数扱いなので、E[\(S_{xx}\)]の中身はそのまま取り出せて、E[\(S_{xx}\)]= \(S_{xx}\)です。
よって、期待値E[\(a\)]は
E[\(a\)]=E[\(\frac{aS_{xx}}{S_{xx}}\)]=\(a\)となります。
E[\(a\)]=\(a\)は当たり前だけど、途中経過が難しいし、期待値の性質を使った式変形の難しさを思い知らされますね!
回帰直線の傾き\(a\)の分散V[\(a\)]を導出
期待値の計算で難しさをわかったところで、分散も解きましょう。
V[\(a\)]=V[\(\frac{S_{xy}}{S_{xx}}\)]ですから、
変数\(y\)を含むV[\(S_{xy}\)]の計算が必要です。
分散V[\(S_{xy}\)]の計算
先ほどの計算で、以下の3点を意識して分散V[\(S_{xy}\)]を計算します。
- \( S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
- \(y_i=ax_i+b+ε_i\)
- 変数は\(y_i\),\(x_i\)は定数扱い
V[\(S_{xy}\)]= V[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
= V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
(\((x_i-\bar{x})( ax_i+b)\)は\(x\)だけ、\((x_i-\bar{x})ε_i)\)は\(xy\)についてで、互いに独立)
ここで、\(x\)についての値は定数と考えるので、
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]=0
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
となります。
V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2 σ^2\)
(V[\(ε_i \)]=\(σ^2\)より)
=\(σ^2 S_{xx}\)
まとめると、V[\(S_{xy}\)]は
●V[\(S_{xy}\)]=\(σ^2 S_{xx}\)
よって、分散V[\(a\)]は
V[\(a\)]=V[\(\frac{ S_{xy}}{S_{xx}}\)]
より、\( S_{xx}\)は定数扱いなので、Vの外には2乗して出します。ややこしい!
V[\(a\)]=\(\frac{1}{S_{xx}^2}\)V[\(S_{xy}\)]
=\(\frac{1}{S_{xx}^2}\)\(σ^2 S_{xx}\)
=\(\frac{σ^2}{S_{xx}}\)
となります。
よって、分散V[\(a\)]は
V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)となります。
結果はシンプルですが、計算は結構難しいですね。
傾き\(a\)を使って、期待値、分散の計算が慣れてきましたので
Y切片\(b\)の期待値、分散の計算をしましょう。
➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出
求めたい値を再度確認
\(a\),\(b\)の期待値と分散が導出できれば本記事はOKです。
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(b\)]とV[\(b\)]を解きましょう。
回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出
回帰直線の\(y\)切片 \(b\)=\(-\frac{S_{xy}}{S_{xx}} \bar{x} +\bar{y}\)
=\(-a \bar{x} + \bar{y}\)ですね。
期待値E[\(b\)]は
E[\(b\)]=E[\(-a \bar{x} + \bar{y}\)]=-E[\(a\)] E[\(\bar{x}\)]+ E[\(\bar{y}\)]
となり、それぞれの期待値は以下の値を使うと
●E[\(a\)]=\(a\) (➃で導出しましたね!)
●E[\(\bar{x}\)]=\(\bar{x}\) (定数なのでそのまま期待値E[ ]の外に出る)
●E[\(\bar{y}\)]=\(\bar{y}\) (定数なのでそのまま期待値E[ ]の外に出る)
E[\(b\)]=\(-a \bar{x} + \bar{y}\)=\(b\)
となります。しっかり計算した結果、当たり前の結果になりましたね。
回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
ここで、
●X,Yが互いに独立なら V[X+Y]=V[X]+V[Y]で
●独立でないなら、V[X+Y]=V[X]+V[Y]+2Cov(X,Y)
という、共分散Cov(X,Y)が出て来ますよね!
結論から言えば
\(-a \bar{x} \)と\( \bar{y}\)は互いに独立なので、
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
と分離でき、
Cov(\(-a \bar{x}\),\( \bar{y}\))=0です。
折角なので、Cov(\(-a \bar{x}\),\( \bar{y}\))=0も計算してみましょう。
まず結論を急ぎます。
V[\(b\)]= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
で\(-\bar{x}\)は\(x\)についての変数なので、定数扱いして、
=\((-1)^2 \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
とします。
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\) (➃で導出しましたね。)
V[\( \bar{y}\)]=\(\frac{σ^2}{n}\) (➂で導出しましたね。)
を使います。導出過程はすでに解いていますので戻って確認しましょう。
よって、
V[\(b\)]=\( \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
=\(\bar{x^2}\)\(\frac{σ^2}{S_{xx}}\)+\(\frac{σ^2}{n}\)
=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
となります。
共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認
折角なので解いてみましょう。関連記事の➂にも解説しています。
Cov(\(-a \bar{x}\),\( \bar{y}\))
=Cov(\(\frac{S_{xy}}{S_{xx}} \bar{x}\),\( \bar{y}\))
●\(\bar{x}\)と\(S_{xx}\)は定数扱いなので、Covの外に出します。
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
次に、\(S_{xy}\)と\( \bar{y}\)を展開して、Covの中の式を変形します。
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\) (➂で解説済です)
●\(\bar{y}\)=\(\sum_{i=1}^{n}\frac{y_1 +y_2+…+y_n}{n}\)(➁で解説済です)
と
➂のところで事前に紹介しましたが、
共分散の性質で、\(X_i\)と\(Y_j\)が互いに独立ならば、
●Cov(\(X_1+X_2\),\(Y_1,Y_2\))= Cov(\(X_1\),\(Y_1\))+ Cov(\(X_1\),\(Y_2\))+ Cov(\(X_2\),\(Y_1\))+ Cov(\(X_2\),\(Y_2\))
となります。
以上の性質を活用すると、
Cov(\(-a \bar{x}\),\( \bar{y}\))
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
= Cov(\((x_1-\bar{x})y_1\),\(\frac{y_1}{n}\))
+ Cov(\((x_2-\bar{x})y_2\),\(\frac{y_2}{n}\))
+…
+ Cov(\((x_n-\bar{x})y_n\),\(\frac{y_n}{n}\))
となり、\(x,n\)は定数扱いとしてCovの外に出します。
= \(\frac{x_1-\bar{x}}{n}\)Cov(\(y_1,y_1\))
+ \(\frac{x_2-\bar{x}}{n}\)Cov(\(y_2,y_2\))
+…
+ \(\frac{x_n-\bar{x}}{n}\)Cov(\(y_n,y_n\))
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)V[\(y_i\)]
(Cov(X,X)=V[X]ですね。)
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)\(σ^2\)
となりますが、
\(\sum_{i=1}^{n}(x_i -\bar{x})\)=0なので、共分散Covは0になります。
よって、分散V[\(b\)]は
V[\(b\)]=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
⑥回帰直線の区間推定領域を図示
定数\(a,b\)の期待値と分散をまとめると
導出結果をまとめると、
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
になりましたね。
では、実際に値を使って、回帰直線の区間推定領域を計算してグラフ化しましょう。
データを用意
例えば、次の値を用意します。ついでに平方和もグラフも出します。
No |
x |
y |
A=\((x-\bar{x}\)) |
B=\((y-\bar{y}\)) |
A2 |
B2 |
AB |
1 |
1.3 |
2.4 |
-8.26 |
-9.88 |
68.23 |
97.61 |
81.61 |
2 |
3.4 |
4.5 |
-6.16 |
-7.78 |
37.95 |
60.53 |
47.92 |
3 |
5.6 |
3.6 |
-3.96 |
-8.68 |
15.68 |
75.34 |
34.37 |
4 |
7.5 |
6.7 |
-2.06 |
-5.58 |
4.24 |
31.14 |
11.49 |
5 |
9.1 |
8.9 |
-0.46 |
-3.38 |
0.21 |
11.42 |
1.55 |
6 |
11.2 |
6.6 |
1.64 |
-5.68 |
2.69 |
32.26 |
-9.32 |
7 |
13.4 |
14.3 |
3.84 |
2.02 |
14.75 |
4.08 |
7.76 |
8 |
13.7 |
24.5 |
4.14 |
12.22 |
17.14 |
149.33 |
50.59 |
9 |
14.2 |
20.8 |
4.64 |
8.52 |
21.53 |
72.59 |
39.53 |
10 |
16.2 |
30.5 |
6.64 |
18.22 |
44.09 |
331.97 |
120.98 |
合計 |
95.6 |
122.8 |
0 |
0 |
226.5 |
866.28 |
386.5 |
平均 |
9.56 |
12.28 |
– |
– |
↑\(S_{xx}\) |
↑\(S_{yy}\) |
↑\(S_{xy}\) |
グラフは下図です。

必要な各値を導出しましょう。
●E[\(a\)]=\(\frac{S_{xy}}{S_{xx}}\)=\(\frac{386.5}{226.5}\)=1.706
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)=\(\frac{σ^2}{226.5}\)
●E[\(b\)]=\(-a \bar{x} +\bar{y}\)=-4.033
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
=\(σ^2(\frac{1}{10}+\frac{9.56^2}{226.5})\)
と代入したいのですが、
\(σ^2\)はどこから求めるの?
と不明ですよね!
実際は不明です。なので、
それらしい値を使います。
分散分析に慣れているとピンと来ますよね!
そうです!\(V_e\)ですね!
●回帰分析では
\(V_e\)=\(S_e\)/\(Φ_e\)
=\(\frac{S_e}{n-2}\)=\(σ^2\)
を使います。
●\(S_e\)=\(S_T\)-\(S_R\)
=\(S_{yy}\)-\(\frac{S_{xy}^2}{S_{xx}}\)=206.76
より、
\(V_e\)=\(\frac{S_e}{n-2}\)
=206.76/(10-2)=25.85
となります。
グラフを描いてみる
例えば、2σ分ズレた場合の回帰直線を描きます。定数\(a,b\)は以下のように変化します。
●\(a_{max,min}\)=E[\(a\)]±\(m\)×\(\sqrt{V[a]}\)
●\(b_{max,min}\)=E[\(b\)]±\(m\)×\(\sqrt{V[b]}\)
(ここで2σ分を考えるので、\(m\)=2とします。
値は下表のようになります。
– |
σ |
a |
b |
回帰直線 |
min |
-2 |
1.03 |
2.43 |
y=1.03x+2.43 |
ave |
0 |
1.71 |
-4.03 |
y=1.71x-4.03 |
max |
2 |
2.38 |
-10.49 |
y=2.38x-10.49 |
グラフを描くと下図のようになります。

回帰直線の区間推定をグラフで図示すると
●領域がわかる
●必ず平均(\(\bar{x},\bar{y}\))を通る
ことがわかりますね。
以上、難しい公式を導出して、回帰直線の区間推定領域を求める過程を解説しました。
難しい導出過程でしたが、ちゃんとできましたね!
公式は導出できてから使いましょう。
まとめ
「回帰直線の推定区間が導出できる(その2)」を解説しました。
- ①回帰直線の推定区間とは(その1)
- ➁【重要】回帰直線の区間推定導出のポイント(その1)
- ➂導出過程に必要な値を事前に計算(その1)
- ➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
- ➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
- ⑥回帰直線の区間推定領域を図示(その2)
回帰分析