重回帰分析の推定区間の式が導出できる(その1)
「重回帰分析の推定区間の式の導出がわからない」と困っていませんか?
こういう疑問に答えます。
本記事のテーマ
おさえておきたいポイント
- ①推定区間の式(その1)
- ➁導出に必要な関係式を導出(その1)
- ➂傾き\(β_j\)の期待値が導出できる(その1)
- ➃傾き\(β_j\)の分散が導出できる(その2)
- ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
- ⑥推定区間の式が導出できる(その2)
「➄傾き\(β_j\)の共分散が導出できる」
は完全に証明できていないので、QCプラネッツの宿題となっています(笑)
①推定区間の式(その1)
推定区間の式を紹介
目的変数\(y\)が
\(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
の信頼度(100-α)%の推定区間は、
で与えられる。
(ただし、\(D\)はマハラビノス距離)
なんですけど、本心
ですよね。
推定区間の式をよくみると
\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
はビビりますが、推定区間の式は基本
なので、
●(平均)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
●t(\(n-p-1,α)\)=t(自由度、α)→t分布に従うことは理解できる
●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)って何なん?
となるので、
を導出しましょう。
➁導出に必要な関係式を導出(その1)
後の導出で必要になる関係式を1つ解説します。
重回帰分析の回帰式の作り方については、関連記事で確認ください。
重回帰分析の回帰式が導出できる 重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。 |
平方和\(S_{ij}\)と\(S^{ij}\)
重回帰分析の回帰式は
\(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
で表現しますが、
実測値と回帰直線上の予測値の間の誤差が最小になる条件から回帰式の傾きやy切片を求めます。
具体的には最小2乗法を使うと、次の式ができます。行列を使いますが、
\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)
で表現できますね。なお、Sは各成分の平方和です。
逆行列を使って、\(β_i\)の各値を計算します。つまり、
\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)
となります。
ここで、\(S^{ij}\)は逆行列のi行j列目の値で、添え字を上側とします。
平方和\(S_{ij}\)と\(S^{ij}\)の関係式
互いに逆行列の関係なので、実際に計算してみましょう。
\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
1 & 0 & \ldots & 0 \\
0 & 1 & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & 1
\end{array}
\right)
\)=E(単位行列)
実際に
●(i,j)=(1,1):\(S_{11}S^{11}\)+\(S_{12}S^{21}\)+…+\(S_{1p}S^{p1}\)=1
●(i,j)=(1,2):\(S_{11}S^{12}\)+\(S_{12}S^{22}\)+…+\(S_{1p}S^{p2}\)=0
…
●(i,j)=(1,p):\(S_{11}S^{1p}\)+\(S_{12}S^{2p}\)+…+\(S_{1p}S^{pp}\)=0
とjについて計算し、これをiについてどんどん具体的に計算しましょう。
●(i,j)=(2,1):\(S_{21}S^{11}\)+\(S_{22}S^{21}\)+…+\(S_{2p}S^{p1}\)=0
●(i,j)=(2,2):\(S_{21}S^{12}\)+\(S_{22}S^{22}\)+…+\(S_{2p}S^{p2}\)=1
…
●(i,j)=(2,p):\(S_{21}S^{1p}\)+\(S_{22}S^{2p}\)+…+\(S_{2p}S^{pp}\)=0
…
…
●(i,j)=(p,p):\(S_{p1}S^{1p}\)+\(S_{p2}S^{2p}\)+…+\(S_{pp}S^{pp}\)=1
となりますね。
展開式から規則性を探そう!
いっぱい式を展開しましたが、規則性を探すと
デルタ関数っぽい条件式ができる
\(\sum_{k=1}^{p}S_{ik} S^{kj}\)でまとめられる
シンプルな式でまとめると
\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
となります。この関係式をあとで使います。
丁寧に導出しましたが、ここを手抜きすると、後の導出の理解ができなくなります。下ごしらえは丁寧にやりましょう。
➂傾き\(β_j\)の期待値が導出できる(その1)
傾き\(β_j\)の式
傾きを計算する行列の式を再掲します。
\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)
ここで、j列にある\(β_j\)を求める式を抜き出すと
\(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)
ですね。
傾き\(β_j\)の期待値
上の式の期待値E[\(β_j\)]は、
E[\(β_j\)]=E[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
=(式1)
ですね。
ここで、
(式1)
= \(S^{j1}\)E[\(S_{1y}\)]+ \(S^{j2}\)E[\(S_{2y}\)]+…+ \(S^{jk}\)E[\(S_{ky}\)]+…+ \(S^{jp}\)E[\(S_{py}\)]
=\(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
=(式2)
とまとめることができます。
関係式を代入して傾き\(β_j\)の期待値を計算
ここで、\(S_{ky}\)は、傾き\(β_j\)を求める行列の式から
\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)
\(S_{ky}\)=\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)
と計算できるので、(式2)に代入します。
(式2)= \(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
=\(\sum_{k=1}^{p}S^{jk}\)E[\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)]
=(式3)
期待値Eの[ ]の中は、変数\(x_i\)について値なので、定数扱いとしてE[ ] の外に出せます。よって(式3)は
(式3)= \(\sum_{k=1}^{p}S^{jk} S_{k1}\)\(β_1\)+\(\sum_{k=1}^{p}S^{jk} S_{k2}\)\(β_2\)+…+\(\sum_{k=1}^{p}S^{jk} S_{kp}\)\(β_p\)
=(式4)
となります。
上の「➁導出に必要な関係式を導出」で
●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
を(式4)に代入すると、
(式4)の中の\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)のみ(i=j)が
\(\sum_{k=1}^{p}S_{ik} S^{ki}\)=1×\(β_j\)
となり、それ以外(i≠j)は
\(\sum_{k=1}^{p}S_{ik} S^{ki}\)=0になるので和はすべて0です。
よって、まとめると
(式4) =\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)
=\(β_j\)
となります。
なんて、当たり前じゃん!
ですが、分散の計算に必要な前座でもあるので、期待値を丁寧に導出しました。
では、分散の導出については、
関連記事「重回帰分析の推定区間の式が導出できる(その2))で解説します。
次行ってみよう!
➃傾き\(β_j\)の分散が導出できる(その2)
➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
⑥推定区間の式が導出できる(その2)
まとめ
「重回帰分析の推定区間の式が導出できる(その1)」を解説しました。
- ①推定区間の式(その1)
- ➁導出に必要な関係式を導出(その1)
- ➂傾き\(β_j\)の期待値が導出できる(その1)
- ➃傾き\(β_j\)の分散が導出できる(その2)
- ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
- ⑥推定区間の式が導出できる(その2)
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119