回帰直線の区間推定が導出できる(その2)

「回帰直線の区間推定の求め方かがわからない」など、疑問に思いませんか？

こういう疑問に答えます。

２回に分けて解説します！

本記事のテーマ

回帰直線の推定区間が導出できる(その2)

おさえておきたいポイント

①回帰直線の推定区間とは(その1)
➁【重要】回帰直線の区間推定導出のポイント(その1)
➂導出過程に必要な値を事前に計算(その1)
➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
⑥回帰直線の区間推定領域を図示(その2)

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

①回帰直線の推定区間とは

➁【重要】回帰直線の区間推定導出のポイント

➂導出過程に必要な値を事前に計算

関連記事の（その１）で確認しましょう。

回帰直線の区間推定が導出できる(その1)
回帰直線の区間推定が暗記せず、公式が導出できますか？本記事では２回に分けて導出過程をわかりやすく解説します。公式暗記に頼らず式を理解することがとても大事です。回帰分析を勉強する人は必読です。

要するに

回帰直線の傾き\(a\)とy切片\(b\)の
期待値と分散を導出して、
期待値±標準偏差の値が回帰直線の区間推定領域を作る！となりますね。

(その２)では、実際に導出していきます。

➃回帰直線の傾き\(a\)の期待値と分散を導出

求めたい値を再度確認

\(a\),\(b\)の期待値と分散が導出できれば本記事はＯＫです。
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
を計算します。E[\(a\)]とV[\(a\)]を解きましょう。

回帰直線の傾き\(a\)の期待値E[\(a\)]を導出

回帰直線の傾き\(a\)=\(\frac{S_{xy}}{S_{xx}}\)です。分母分子の関係式を考えます。

\(S_{xy}\)をいじる

特に\(y\)が変数なので、\(S_{xy}\)をいじります。
\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})(y_i-\bar{y})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{y}\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \sum_{i=1}^{n}(x_i-\bar{x})\)
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)-\(\bar{y} \)×0
=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
(マーカの式は後でも使います。)

期待値E[X]を使って変形

次に、期待値E[X]を使って変形していきます。
\(y_i\)=\(ax_i+b+ε_i\)より
E[\(S_{xy}\)]=E[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
=E[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b+ε_i)\)]
展開すると
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]+ \(b\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\)]+E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]

ここで、第２項において、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
第２項は0です。

次に第３項において、
\(ε_i\)は\(y\)方向についてのばらつきなので、
\(ε_i\)と\(x_i-\bar{x}\)とは独立です。
独立な場合は期待値には便利な性質があり、
E[XY]=E[X]E[Y]があります。これを使うと、
E[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i\)]
= E[\(\sum_{i=1}^{n}(x_i-\bar{x}) \)]×E[\(\sum_{i=1}^{n}ε_i\)]
なんと、\(\sum_{i=1}^{n}(x_i-\bar{x})\)=0なので、
=0×E[\(\sum_{i=1}^{n}ε_i\)]=0です。

まとめると、
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]
です。

さらに、和が0なら式を加えても値は変わらないので、
あえて
\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
をE[\(S_{xy}\)]に加えると、値は変わらないまま
E[\(S_{xy}\)]=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})x_i\)]-\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})\bar{x}\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})(x_i-\bar{x})\)]
=\(a\)E[\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)]
=\(a\)E[\(S_{xx}\)]
となります。

\(x\)は定数扱いなので、E[\(S_{xx}\)]の中身はそのまま取り出せて、E[\(S_{xx}\)]= \(S_{xx}\)です。

よって、期待値E[\(a\)]は
E[\(a\)]=E[\(\frac{aS_{xx}}{S_{xx}}\)]=\(a\)となります。

E[\(a\)]=\(a\)は当たり前だけど、途中経過が難しいし、期待値の性質を使った式変形の難しさを思い知らされますね！

回帰直線の傾き\(a\)の分散V[\(a\)]を導出

期待値の計算で難しさをわかったところで、分散も解きましょう。

V[\(a\)]=V[\(\frac{S_{xy}}{S_{xx}}\)]ですから、
変数\(y\)を含むV[\(S_{xy}\)]の計算が必要です。

分散V[\(S_{xy}\)]の計算

先ほどの計算で、以下の３点を意識して分散V[\(S_{xy}\)]を計算します。

\( S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)
\(y_i=ax_i+b+ε_i\)
変数は\(y_i\),\(x_i\)は定数扱い

V[\(S_{xy}\)]= V[\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\)]
= V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
(\((x_i-\bar{x})( ax_i+b)\)は\(x\)だけ、\((x_i-\bar{x})ε_i)\)は\(xy\)についてで、互いに独立)
ここで、\(x\)についての値は定数と考えるので、
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]=0
●V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
となります。
V[\(\sum_{i=1}^{n}(x_i-\bar{x})( ax_i+b)\)]+ V[\(\sum_{i=1}^{n}(x_i-\bar{x})ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\) V[\(ε_i \)]
=\(\sum_{i=1}^{n}(x_i-\bar{x})^2 σ^2\)
(V[\(ε_i \)]=\(σ^2\)より)
=\(σ^2 S_{xx}\)

まとめると、V[\(S_{xy}\)]は
●V[\(S_{xy}\)]=\(σ^2 S_{xx}\)

よって、分散V[\(a\)]は
V[\(a\)]=V[\(\frac{ S_{xy}}{S_{xx}}\)]
より、\( S_{xx}\)は定数扱いなので、Vの外には２乗して出します。ややこしい！
V[\(a\)]=\(\frac{1}{S_{xx}^2}\)V[\(S_{xy}\)]
=\(\frac{1}{S_{xx}^2}\)\(σ^2 S_{xx}\)
=\(\frac{σ^2}{S_{xx}}\)
となります。

よって、分散V[\(a\)]は
V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)となります。

結果はシンプルですが、計算は結構難しいですね。

傾き\(a\)を使って、期待値、分散の計算が慣れてきましたので
Y切片\(b\)の期待値、分散の計算をしましょう。

➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出

求めたい値を再度確認

回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出

回帰直線の\(y\)切片 \(b\)=\(-\frac{S_{xy}}{S_{xx}} \bar{x} +\bar{y}\)
=\(-a \bar{x} + \bar{y}\)ですね。

期待値E[\(b\)]は
E[\(b\)]=E[\(-a \bar{x} + \bar{y}\)]=-E[\(a\)] E[\(\bar{x}\)]+ E[\(\bar{y}\)]
となり、それぞれの期待値は以下の値を使うと
●E[\(a\)]=\(a\) (➃で導出しましたね!)
●E[\(\bar{x}\)]=\(\bar{x}\) (定数なのでそのまま期待値E[ ]の外に出る)
●E[\(\bar{y}\)]=\(\bar{y}\) (定数なのでそのまま期待値E[ ]の外に出る)

E[\(b\)]=\(-a \bar{x} + \bar{y}\)=\(b\)
となります。しっかり計算した結果、当たり前の結果になりましたね。

回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出

V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]

ここで、

●X,Yが互いに独立なら V[X+Y]=V[X]+V[Y]で
●独立でないなら、V[X+Y]=V[X]+V[Y]+2Cov(X,Y)
という、共分散Cov(X,Y)が出て来ますよね！

結論から言えば
\(-a \bar{x} \)と\( \bar{y}\)は互いに独立なので、
V[\(b\)]=V[\(-a \bar{x} + \bar{y}\)]
= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
と分離でき、
Cov(\(-a \bar{x}\),\( \bar{y}\))=0です。

折角なので、Cov(\(-a \bar{x}\),\( \bar{y}\))=0も計算してみましょう。

まず結論を急ぎます。

V[\(b\)]= V[\(-a \bar{x}\)] +V[\( \bar{y}\)]
で\(-\bar{x}\)は\(x\)についての変数なので、定数扱いして、
=\((-1)^2 \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
とします。

●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\) (➃で導出しましたね。)
V[\( \bar{y}\)]=\(\frac{σ^2}{n}\) (➂で導出しましたね。)
を使います。導出過程はすでに解いていますので戻って確認しましょう。

よって、
V[\(b\)]=\( \bar{x^2}\) V[\(a\)] +V[\( \bar{y}\)]
=\(\bar{x^2}\)\(\frac{σ^2}{S_{xx}}\)+\(\frac{σ^2}{n}\)
=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
となります。

共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認

折角なので解いてみましょう。関連記事の➂にも解説しています。

Cov(\(-a \bar{x}\),\( \bar{y}\))
=Cov(\(\frac{S_{xy}}{S_{xx}} \bar{x}\),\( \bar{y}\))
●\(\bar{x}\)と\(S_{xx}\)は定数扱いなので、Covの外に出します。
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))

次に、\(S_{xy}\)と\( \bar{y}\)を展開して、Covの中の式を変形します。
●\(S_{xy}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})y_i\) (➂で解説済です)
●\(\bar{y}\)=\(\sum_{i=1}^{n}\frac{y_1 +y_2+…+y_n}{n}\)(➁で解説済です)
と

➂のところで事前に紹介しましたが、
共分散の性質で、\(X_i\)と\(Y_j\)が互いに独立ならば、
●Cov(\(X_1+X_2\),\(Y_1,Y_2\))= Cov(\(X_1\),\(Y_1\))+ Cov(\(X_1\),\(Y_2\))+ Cov(\(X_2\),\(Y_1\))+ Cov(\(X_2\),\(Y_2\))
となります。

以上の性質を活用すると、
Cov(\(-a \bar{x}\),\( \bar{y}\))
=\(\frac{\bar{x}}{S_{xx}}\) Cov(\(S_{xy}\),\( \bar{y}\))
= Cov(\((x_1-\bar{x})y_1\),\(\frac{y_1}{n}\))
+ Cov(\((x_2-\bar{x})y_2\),\(\frac{y_2}{n}\))
+…
+ Cov(\((x_n-\bar{x})y_n\),\(\frac{y_n}{n}\))
となり、\(x,n\)は定数扱いとしてCovの外に出します。

= \(\frac{x_1-\bar{x}}{n}\)Cov(\(y_1,y_1\))
+ \(\frac{x_2-\bar{x}}{n}\)Cov(\(y_2,y_2\))
+…
+ \(\frac{x_n-\bar{x}}{n}\)Cov(\(y_n,y_n\))
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)V[\(y_i\)]
(Cov(X,X)=V[X]ですね。)
=\(\sum_{i=1}^{n}\frac{x_i -\bar{x}}{n}\)\(σ^2\)
となりますが、

\(\sum_{i=1}^{n}(x_i -\bar{x})\)=0なので、共分散Covは０になります。

よって、分散V[\(b\)]は
V[\(b\)]=\(σ^2 (\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)

⑥回帰直線の区間推定領域を図示

定数\(a,b\)の期待値と分散をまとめると

導出結果をまとめると、
●E[\(a\)]=\(a\)
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)
●E[\(b\)]=\(b\)
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
になりましたね。

では、実際に値を使って、回帰直線の区間推定領域を計算してグラフ化しましょう。

データを用意

例えば、次の値を用意します。ついでに平方和もグラフも出します。

No	ｘ	ｙ	A=\((x-\bar{x}\))	B=\((y-\bar{y}\))	A²	B²	AB
1	1.3	2.4	-8.26	-9.88	68.23	97.61	81.61
2	3.4	4.5	-6.16	-7.78	37.95	60.53	47.92
3	5.6	3.6	-3.96	-8.68	15.68	75.34	34.37
4	7.5	6.7	-2.06	-5.58	4.24	31.14	11.49
5	9.1	8.9	-0.46	-3.38	0.21	11.42	1.55
6	11.2	6.6	1.64	-5.68	2.69	32.26	-9.32
7	13.4	14.3	3.84	2.02	14.75	4.08	7.76
8	13.7	24.5	4.14	12.22	17.14	149.33	50.59
9	14.2	20.8	4.64	8.52	21.53	72.59	39.53
10	16.2	30.5	6.64	18.22	44.09	331.97	120.98
合計	95.6	122.8	0	0	226.5	866.28	386.5
平均	9.56	12.28	–	–	↑\(S_{xx}\)	↑\(S_{yy}\)	↑\(S_{xy}\)

グラフは下図です。
回帰分析

必要な各値を導出しましょう。
●E[\(a\)]=\(\frac{S_{xy}}{S_{xx}}\)=\(\frac{386.5}{226.5}\)=1.706
●V[\(a\)]=\(\frac{σ^2}{S_{xx}}\)=\(\frac{σ^2}{226.5}\)
●E[\(b\)]=\(-a \bar{x} +\bar{y}\)=-4.033
●V[\(b\)]=\(σ^2(\frac{1}{n}+\frac{\bar{x^2}}{S_{xx}})\)
=\(σ^2(\frac{1}{10}+\frac{9.56^2}{226.5})\)

と代入したいのですが、

\(σ^2\)はどこから求めるの？
と不明ですよね！

実際は不明です。なので、
それらしい値を使います。
分散分析に慣れているとピンと来ますよね!
そうです！\(V_e\)ですね！

●回帰分析では
\(V_e\)=\(S_e\)/\(Φ_e\)
=\(\frac{S_e}{n-2}\)=\(σ^2\)
を使います。

●\(S_e\)=\(S_T\)-\(S_R\)
=\(S_{yy}\)-\(\frac{S_{xy}^2}{S_{xx}}\)=206.76
より、
\(V_e\)=\(\frac{S_e}{n-2}\)
=206.76/(10-2)=25.85
となります。

グラフを描いてみる

例えば、2σ分ズレた場合の回帰直線を描きます。定数\(a,b\)は以下のように変化します。
●\(a_{max,min}\)=E[\(a\)]±\(m\)×\(\sqrt{V[a]}\)
●\(b_{max,min}\)=E[\(b\)]±\(m\)×\(\sqrt{V[b]}\)
(ここで2σ分を考えるので、\(m\)=2とします。

値は下表のようになります。

–	σ	a	b	回帰直線
min	-2	1.03	2.43	y=1.03x+2.43
ave	0	1.71	-4.03	y=1.71x-4.03
max	2	2.38	-10.49	y=2.38x-10.49

グラフを描くと下図のようになります。

回帰分析

回帰直線の区間推定をグラフで図示すると
●領域がわかる
●必ず平均(\(\bar{x},\bar{y}\))を通る
ことがわかりますね。

以上、難しい公式を導出して、回帰直線の区間推定領域を求める過程を解説しました。

難しい導出過程でしたが、ちゃんとできましたね！

公式は導出できてから使いましょう。

まとめ

「回帰直線の推定区間が導出できる(その2)」を解説しました。

①回帰直線の推定区間とは(その1)
➁【重要】回帰直線の区間推定導出のポイント(その1)
➂導出過程に必要な値を事前に計算(その1)
➃回帰直線の傾き\(a\)の期待値と分散を導出(その2)
➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出(その2)
⑥回帰直線の区間推定領域を図示(その2)

回帰分析

回帰直線の区間推定が導出できる(その2)

①回帰直線の推定区間とは

➁【重要】回帰直線の区間推定導出のポイント

➂導出過程に必要な値を事前に計算

➃回帰直線の傾き\(a\)の期待値と分散を導出

求めたい値を再度確認

回帰直線の傾き\(a\)の期待値E[\(a\)]を導出

回帰直線の傾き\(a\)の分散V[\(a\)]を導出

➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出

求めたい値を再度確認

回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出

回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出

共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認

⑥回帰直線の区間推定領域を図示

定数\(a,b\)の期待値と分散をまとめると

データを用意

グラフを描いてみる

まとめ

投稿をさらに読み込む

太平洋戦争が勃発した理由がわかる(ヨーロッパから考えてみる)

日本が朝鮮、台湾を統治した理由(対馬事件、巨文島事件、清仏戦争)

日本の朝鮮・台湾の統治が西洋列強国の植民地支配と全く異なる理由がわかる

【高校数学】中学数学　1次関数の場合分け問題を復習しよう！

回帰直線の区間推定が導出できる(その2)

①回帰直線の推定区間とは

➁【重要】回帰直線の区間推定導出のポイント

➂導出過程に必要な値を事前に計算

➃回帰直線の傾き\(a\)の期待値と分散を導出

求めたい値を再度確認

回帰直線の傾き\(a\)の期待値E[\(a\)]を導出

回帰直線の傾き\(a\)の分散V[\(a\)]を導出

➄回帰直線の\(y\)切片の\(b\)の期待値と分散を導出

求めたい値を再度確認

回帰直線の\(y\)切片\(b\)の期待値E[\(b\)]を導出

回帰直線の\(y\)切片 \(b\)の分散V[\(b\)]を導出

共分散Cov(\(-a \bar{x}\),\( \bar{y}\))=0を確認

⑥回帰直線の区間推定領域を図示

定数\(a,b\)の期待値と分散をまとめると

データを用意

グラフを描いてみる

まとめ

投稿をさらに読み込む

太平洋戦争が勃発した理由がわかる(ヨーロッパから考えてみる)

日本が朝鮮、台湾を統治した理由(対馬事件、巨文島事件、清仏戦争)

日本の朝鮮・台湾の統治が西洋列強国の植民地支配と全く異なる理由がわかる

【高校数学】中学数学 1次関数の場合分け問題を復習しよう！

【高校数学】中学数学　1次関数の場合分け問題を復習しよう！