カテゴリー: 重回帰分析

【まとめ】重回帰分析がよくわかる

★ 本記事のテーマ

【まとめ】重回帰分析がよくわかる

★おさえておきたいポイント

①重回帰分析で最も理解すべきこと
➁重回帰分析の基本
➂重回帰分析の検定と推定方法
➃重回帰分析の特徴的な性質
➄ブログ記事のご紹介
⑥プレミアムテキストのご紹介

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【内容】①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題。

①重回帰分析で最も理解すべきこと

重回帰分析を学ぶ上で最も大事なことを挙げると、

単回帰分析と同様に、誤差が最小となる条件式を求めている
データの構造式から平方和の分解、回帰式の導出の流れを理解する
説明変数を増やすと一般には寄与率は高くなる
多変数による便利さと、結果の妥当性の吟味が必要になる
重回帰分析の公式を個別に暗記せずに、導出過程を理解する
単回帰分析、主成分分析などの他の解析方法との違いを理解する

の6点を意識して習得していきましょう。

QCプラネッツでは、重回帰分析の重要ポイントをわかりやすく解説していますので、ご確認ください。

➁重回帰分析の基本

重回帰分析とは何か？

多変量解析はたくさんの解析手法がありますが、目的は１つです。

●必要な成分をなるべく抽出すること
●逆に言えば、不要な誤差成分が最小になる条件で分析すること

生データと回帰データの差をＱとすると、Ｑ→minになる条件式を満たすのが回帰式となります。つまり、生データからなるべく多くの成分を抜き出して特性を見ようとするのが多変量解析の目的です。

その１つが重回帰分析となります。

そして、QCプラネッツでは、実験計画法でも何度も伝えていますが

データの構造式を立てて
データの構造式の2乗和から平方和を分解し
平方和の分解から分散分析して、
誤差の最小条件から回帰式などの条件式を求める

この流れで、多変量解析・重回帰分析を解いていきます。

●重回帰分析の独特な公式が出ますが、導出の考え方は上の1～4の流れで解いていきます。ここ結構大事です！

導出の流れを意識しておかないと、何を解いているかわからなくなります。

➂重回帰分析の検定と推定方法

➁で重回帰分析の流れを理解したところですが、検定と推定の公式が難解なため暗記に頼りがちになります。関連記事では重回帰分析の検定・推定の式について丁寧に導出過程を解説しています。

QCプラネッツでは、

●自分で導出できない公式は使うな！
(間違っているかもしれないぞ！)
自分で確かめてから使おう！

という信念があります。

例えば、マハラビノス距離Ｄが難しい式なので、いきなり使おうとせず、具体例で慣れていきましょう。多変量解析では何度かマハラビノス距離を解説します。

➃重回帰分析の特徴的な性質

単回帰分析と違って、重回帰分析の独特な特徴があります。重回帰分析の強みでもあり弱みでもあります。

★ 強み

●複数の説明変数で分析式が作れる
●1次式の線形式でシンプル
●説明変数は単位を変えても他の説明変数の回帰直線の傾きに影響しない

★弱み

●寄与率が高くなりがち
●正負の相関性と回帰式の傾きの正負が不一致な場合がある

重回帰分析の強み・弱みを意識しながら、独特な特徴を理解していきましょう。

あとは、変数増減法、テコ比、ダービンワトソン比を紹介します。公式暗記ではなく、１つ１つ丁寧に導出していますので、導出過程を理解してから習得しましょう！

➄ブログ記事のご紹介

重回帰分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

★重回帰分析の回帰式が導出できる

重回帰分析の回帰式が導出できる
公式暗記になりがちな重回帰分析の回帰式について途中経過を一切端折らず丁寧に解説します。重回帰分析や多変量解析を勉強する人は必読！

★平方和の分解と分散分析ができる(重回帰分析)

平方和の分解と分散分析ができる(重回帰分析)
重回帰分析の分散分析をする際にデータの構造式を使って平方和の分解が自力で計算できるようにわかりやすく解説！

★重回帰分析のダミー変数の使い方がよくわかる

重回帰分析のダミー変数の使い方がよくわかる
本記事では、ダミー変数の値と重回帰分析の影響についてわかりやすく解説!

★重回帰分析のテコ比がよくわかる

重回帰分析のテコ比がよくわかる
本記事では重回帰分析の回帰直線を求める式から丁寧にハット行列、テコ比を丁寧に導出します。

★ダービンワトソン比がよくわかる

ダービンワトソン比がよくわかる
ダービンワトソン比の導出、範囲の証明、値とグラフの関係についてわかりやすく解説!

⑥プレミアムテキストのご紹介

重回帰分析の流れが理解できる関連記事を紹介します。上から下に沿って、それぞれの関連記事を読んでいってください。

以前、ブログ記事としていましたが、まとめて冊子にしました。
どれも重要なテーマなので勉強しましょう!

●【QCプラネッツ重回帰分析プレミアム勉強プリント】リンク

テーマ	内容
1	重回帰分析の寄与率Rがわかる
2	重回帰分析と単回帰分析の比較がわかる
3	重回帰分析の推定区間の式が導出できる
4	偏相関係数が導出できる
5	重回帰分析の多重共線性がわかる
6	重回帰分析は単位に影響されない理由がわかる(その1)
7	重回帰分析は単位に影響されない理由がわかる(その2)
8	偏回帰係数に関する検定と推定がよくわかる
9	変数増減法がよくわかる

●【QCプラネッツ重回帰分析プレミアム勉強プリント】リンク

しっかり勉強していきましょう！

まとめ

①重回帰分析で最も理解すべきこと
➁重回帰分析の基本
➂重回帰分析の検定と推定方法
➃重回帰分析の特徴的な性質
➄ブログ記事のご紹介
⑥プレミアムテキストのご紹介

2023年2月12日

ダービンワトソン比がよくわかる

★ダービンワトソン比がよくわかる

①ダービンワトソン比とは

➁ダービンワトソン比の範囲を導出

➂ダービンワトソン比の値とデータの特性

★【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

ダービンワトソン比が0～4の範囲になる理由と、
ダービンワトソン比の値とグラフの関係を実例をあげて解説するのはQCプラネッツだけ！

①ダービンワトソン比とは

ダービンワトソン比とは

ある回帰直線において、回帰線分と残差成分に分けた時、
\(y_i\)=\(βx_i\)(回帰)+\(e_i\)(残差) (\(i=1,2,…,n\))
残差\(e_i\)について、ダービンワトソン比を定義します。

DW=\(\frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}\)

隣り合った残差の関係を調べることで、データに異常がないかをチェックします。

ダービンワトソン比の式を展開する

DW=\(\frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}\)を展開します。
DW=\(\frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}\)
=\(\frac{\sum_{i=2}^{n} e_i^2-2\sum_{i=2}^{n} e_{i-1} e_i +\sum_{i=2}^{n} e_{i-1}^2}{\sum_{i=1}^{n}e_i^2}\)
=(式１)

ここで、
●\(\sum_{i=1}^{n} e_i^2\)=\(e_1^2 +\sum_{i=2}^{n} e_i^2\)
●\(\sum_{i=1}^{n} e_i^2\)=\(\sum_{i=2}^{n} e_{i-1}^2+e_n^2\)
に注意して、(式1)に代入します。

(式1)
=\(\frac{(\sum_{i=1}^{n} e_i^2-e_1^2)-2\sum_{i=2}^{n} e_{i-1} e_i +(\sum_{i=1}^{n} e_{i}^2-e_n^2)}{\sum_{i=1}^{n}e_i^2}\)
=\(\frac{2\sum_{i=1}^{n} e_i^2-2\sum_{i=2}^{n} e_{i-1} e_i -(e_1^2+e_n^2)}{\sum_{i=1}^{n}e_i^2}\)
=2-2\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)-\(\frac{ e_1^2+e_n^2}{\sum_{i=1}^{n}e_i^2}\)
=(式3)

(式3)の第３項においては、\(n\)が十分大きいと
\(\frac{ e_1^2+e_n^2}{\sum_{i=1}^{n}e_i^2}\)
=\(\frac{e_1^2+e_n^2}{e_1^2+e_2^2+e_3^2+…+e_n^2}\)
となり、(分子) \(\ll\) (分母)とみなせるので、

\(\frac{ e_1^2+e_n^2}{\sum_{i=1}^{n}e_i^2}\) \(\approx\) 0
とします。

次に第２項の
\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)
ですが、よく相関係数\(ρ\)と定義して、
\(ρ\)=\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)
とおくことがあります。

➁ダービンワトソン比の範囲を導出

残差どうしの相関係数の範囲を導出

\(ρ\)=\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)
の範囲を求めましょう。相関係数というくらいなので、-1 ≤ \(ρ\) ≤ 1となります。

証明してみましょう。

(分子)= \(\sum_{i=2}^{n} e_{i-1} e_i \)をあえて絶対値をつけて
(分子)= |\(\sum_{i=2}^{n} e_{i-1} e_i \)|とします。

(分母)-(分子)
=\(\sum_{i=1}^{n}e_i^2\)-|\(\sum_{i=2}^{n} e_{i-1} e_i \)|
=(\(e_1^2+e_2^2+…+e_n^2\))-(|\(e_1 e_2\)|+|\(e_2 e_3\)|+…+|\(e_{n-1} e_n\)|)
上手く変形すると
=\(\frac{1}{2}(|e_1-e_2|)^2\)+\(\frac{1}{2}(|e_2-e_3|)^2\)+…+\(\frac{1}{2}(|e_{n-1}-e_n|)^2\)+\(\frac{1}{2}e_n^2\)
=\(\frac{1}{2}(e_1-e_2)^2\)+\(\frac{1}{2}(e_2-e_3)^2\)+…+\(\frac{1}{2}(e_{n-1}-e_n)^2\)+\(\frac{1}{2}e_n^2\) ≥ 0

よって、

\(\sum_{i=1}^{n}e_i^2\) ≥ |\(\sum_{i=2}^{n} e_{i-1} e_i \)|
両辺ともに正なので、
\(\frac{|\sum_{i=2}^{n} e_{i-1} e_i |}{\sum_{i=1}^{n}e_i^2}\) ≤ 1
絶対値を外すと
-1 ≤ \(\frac{|\sum_{i=2}^{n} e_{i-1} e_i |}{\sum_{i=1}^{n}e_i^2}\) ≤ 1
-1 ≤ \(ρ\) ≤ 1
となります。

ダービンワトソン比の範囲を導出

もう一度、ダービンワトソン比の式(式3)を再掲します。
DW=2-2\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)-\(\frac{ e_1^2+e_n^2}{\sum_{i=1}^{n}e_i^2}\)
第３項は0で近似して、第２項は-1～1の範囲ですから、

0 ≤ DW ≤ 4
の範囲で動くことになります。
暗記しなくても自力で導出できますね！

➂ダービンワトソン比の値とデータの特性

ダービンワトソン比の範囲と相関の関係

よく、下の3つに分類されます。

DW 相関性相関係数\(ρ\)

0～2 正の相関あり \(ρ\) ≥ 0

2 相関なし \(ρ\) = 1

2～4 負の相関あり \(ρ\) ≤ 0

相関係数\(ρ\)=\(\frac{\sum_{i=2}^{n} e_{i-1} e_i}{\sum_{i=1}^{n}e_i^2}\)の正負や値を見ても、どんなグラフやデータなのかがイメージできませんよね！

なので、実例を使ってダービンワトソン比を調べてみましょう。

– パターン1 パターン2

No x1 y1 x2 y2

1 10 56 10 40

2 12 62 11 60

3 14 64 12 42

4 13 68 13 62

5 10 72 14 44

6 25 76 15 64

7 22 80 16 46

8 25 82 17 66

9 23 80 18 48

10 16 90 19 68

それぞれのデータをプロットします。

ダービンワトソン比が0～2の間の場合

パターン１のデータのダービンワトソン比DWを計算します。

No \(x_1\) \(y\) X=
\(x_1-\bar{x_1}\) Y=
\(y-\bar{y}\) \(X^2\) \(Y^2\) XY \(\hat{y_i}\) \(e_i\)

1 10 56 -7 -17 49 289 119 65.047 -9.047

2 12 62 -5 -11 25 121 55 67.320 -5.320

3 14 64 -3 -9 9 81 27 69.592 -5.592

4 13 68 -4 -5 16 25 20 68.456 -0.456

5 10 72 -7 -1 49 1 7 65.047 6.953

6 25 76 8 3 64 9 24 82.089 -6.089

7 22 80 5 7 25 49 35 78.680 1.320

8 25 82 8 9 64 81 72 82.089 -0.089

9 23 80 6 7 36 49 42 79.817 0.183

10 16 90 -1 17 1 289 -17 71.864 18.136

sum 170 730 0 657 338 994 384 – –

ave 17 73 – – \(S_{xx}\) \(S_{yy}\) \(S_{xy}\) – –

なお、回帰直線と平方和も計算すると、
●ｙ切片=53.687
●傾き＝1.136
●回帰平方和\(S_R\)=436.26
●残差平方和\(S_e\)=557.74
●総平方和\(S_T\)=994
となります。一度は計算してみてくださいね。

★ダービンワトソン比DWを計算

各\(e_i\)の値が求まったので、ダービンワトソン比を計算しましょう。
DW=\(\frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}\)
=\(\frac{((-5.320)-(-9.047))^2}{(-5.320)^2}\)+\(\frac{((-5.592)-(-5.320))^2}{(-5.320)^2}\)+…+\(\frac{((18.136-0.183)^2}{0.183^2}\)
=1.156

ダービンワトソン比が0～2の間になりました。

★ダービンワトソン比DWが0～2の状態とは？

ｘ－ｙグラフと、残差\(e_i\)の変化をプロットします

残差のプロットからは
\(e_i\)が5以下の値で固まっており、２点大きく飛び出ているのが特徴で、相関係数\(ρ\)は正です。

ダービンワトソン比における相関係数が正の場合のデータのイメージです。

では、ダービンワトソン比DWが2～4の状態とは？どんな感じかを調べてみましょう。

ダービンワトソン比が2～4の間の場合

パターン2のデータのダービンワトソン比DWを計算します。

No \(x_1\) \(y\) X=\(x_1-\bar{x_1}\) Y=\(y-\bar{y}\) \(X^2\) \(Y^2\) XY \(\hat{y_i}\) \(e_i\)

1 10 40 -4.5 -14 20.25 196 63 46.909 -6.909

2 11 60 -3.5 6 12.25 36 -21 48.485 11.515

3 12 42 -2.5 -12 6.25 144 30 50.061 -8.061

4 13 62 -1.5 8 2.25 64 -12 51.636 10.364

5 14 44 -0.5 -10 0.25 100 5 53.212 -9.212

6 15 64 0.5 10 0.25 100 5 54.788 9.212

7 16 46 1.5 -8 2.25 64 -12 56.364 -10.364

8 17 66 2.5 12 6.25 144 30 57.939 8.061

9 18 48 3.5 -6 12.25 36 -21 59.515 -11.515

10 19 68 4.5 14 20.25 196 63 61.091 6.909

sum 145 540 0 486 82.5 1080 130 – –

ave 14.5 54 – – \(S_{xx}\) \(S_{yy}\) \(S_{xy}\) – –

なお、回帰直線と平方和も計算すると、
●ｙ切片=31.152
●傾き＝1.576
●回帰平方和\(S_R\)=204.84
●残差平方和\(S_e\)=875.15
●総平方和\(S_T\)=1080
となります。一度は計算してみてくださいね。

★ダービンワトソン比DWを計算

各\(e_i\)の値が求まったので、ダービンワトソン比を計算しましょう。
DW=\(\frac{\sum_{i=2}^{n}(e_i-e_{i-1})^2}{\sum_{i=1}^{n}e_i^2}\)
=\(\frac{(11.515-(-6.909))^2}{(-6.909)^2}\)+\(\frac{((-8.061)-11.515)^2}{11.515^2}\)+…+\(\frac{((6.909-(-11.515))^2}{(-11.515)^2}\)
=3.691

ダービンワトソン比が2～4の間になりました。

★ダービンワトソン比DWが2～4の状態とは？

ｘ－ｙグラフと、残差\(e_i\)の変化をプロットします

残差のプロットからは
\(e_i\)が大きな値と小さな値がジグザグに入れ替わっている特徴がありますね。相関係数\(ρ\)は負です。

ダービンワトソン比における相関係数が負の場合のデータのイメージです。

まとめ

「ダービンワトソン比がよくわかる」を解説しました。

①ダービンワトソン比とは

➁ダービンワトソン比の範囲を導出

➂ダービンワトソン比の値とデータの特性

2023年2月12日

重回帰分析のテコ比がよくわかる

★ 本記事のテーマ

重回帰分析のテコ比がよくわかる

①重回帰分析を解く
➁\(β_k\)の導出式を行列表記する
➂ハット行列\(H\)を導出する
➃ハット行列とテコ比を導出する
➄ハット行列とテコ比を実際に計算する
⑥テコ比がわかる

★【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

テコ比、ハット行列を実際に計算するところまで解説するのはQCプラネッツだけ！

苦手な行列表記も丁寧に解説していきます。
QCプラネッツも行列は苦手です(笑)

①重回帰分析を解く

データの構造式を作る

次のようなデータを重回帰分析することを考えます。
添え字の\(i,j,k\)は
●\(i\)=1,2,…,\(n\)
●\(j\)=1,2,…,\(p\)
●\(k\)=1,2,…,\(p\)
である点に注意してください。

データ \(i\)⇊　\(j,k\)⇒	\(x_{1i}\)	\(x_{2i}\)	…	\(x_{ji}\)	…	\(x_{pi}\)	\(y_i\)
1	\(x_{11}\)	\(x_{21}\)	…	\(x_{j1}\)	…	\(x_{p1}\)	\(y_1\)
2	\(x_{12}\)	\(x_{22}\)	…	\(x_{j2}\)	…	\(x_{p2}\)	\(y_2\)
…	…	…	…	…	…	…	…
\(i\)	\(x_{1i}\)	\(x_{2i}\)	…	\(x_{ji}\)	…	\(x_{pi}\)	\(y_i\)
…	…	…	…	…	…	…	…
\(n\)	\(x_{1n}\)	\(x_{2n}\)	…	\(x_{jn}\)	…	\(x_{pn}\)	\(y_p\)

最小二乗法から正規方程式を作る

上の表をデータの構造式で表現すると、
\(\hat{y_i}-\bar{y}\)=\(\sum_{k=1}^{p}β_k(x_{ki}-\bar{x_k})\) (式1)
ですね。添え字の\(i,j,k\)は
●\(i\)=1,2,…,\(n\)
●\(j\)=1,2,…,\(p\)
●\(k\)=1,2,…,\(p\)
である点に注意してください。

(式1)を書き出すと、
\(\hat{y_i}-\bar{y}\)=\(β_1(x_{1i}-\bar{x_1})\)+\(β_2(x_{2i}-\bar{x_2})\)+…+\(β_p(x_{pi}-\bar{x_p})\)
ですね。

行列表記は抽象的なので
なるべく具体的な式を書きながら
理解していきましょう！

最小二乗法から正規方程式を作って、回帰直線の傾き\(β_k\)を求める式を作ります。これは、関連記事で詳細に解説しているので、ご確認ください。

「【まとめ】重回帰分析がよくわかる」記事の中に、プレミアム冊子PDFがあり、そこで詳細に解説しています。ご覧ください。

★リンク【まとめ】重回帰分析がよくわかる

回帰直線の傾き\(β_k\)を求める式は

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

ですね。Sは各成分の平方和で、逆行列を使って、\(β_i\)の各値を計算します。

回帰直線の傾き\(β_k\)を導出する式を作る

回帰直線の傾き\(β_k\)は、次の行列の式から計算できますね。

\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

となります。

ここで、\(S^{jk}\)は逆行列のj行k列目の値で、添え字を上側とします。

さあ、ここからが本記事の本題になります。

最終的には、行列(太文字で表記)を使って
\(\hat{y}\)=\(X(X^T X)^{-1} X^T y\)=\(Hy\)
として、
\(H\)=\(X(X^T X)^{-1} X^T \)
とハット行列\(H\)を導出することです。

行列を使って式変形するのは、理解が難しいので、なるべく具体的な式を書きながらわかりやすく解説します！

そのために、結構大事なのが、

平方和Sを行列表記して解ける事

例えば、
S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
\(X\)=\(\begin{pmatrix}
x_1-\bar{x}\\
x_2-\bar{x}\\
…\\
x_n-\bar{x}
\end{pmatrix}
\)

がすっと理解できることが大事なのですが、最初は難しいので、丁寧に解説していきます。

➁\(β_k\)の導出式を行列表記する

平方和\(S_{jk}\)の導出式を行列表記する

先ほど紹介しましたが、
S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
が難しいので、丁寧に解説していきます。

平方和Sを書き出すと
S=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
ですね。

この各項の\((x_i-\bar{x})^2\)を
\((x_i-\bar{x})^2\)=\((x_i-\bar{x})\)×\((x_i-\bar{x})\)として、行列の積に当てはめていきます。下図をご覧ください。

上図は\(i\)=1,2についてですが、これを\(i\)=1,2,…,\(n\)まで拡大しても行列の積の式は同じように書けます。

\(\begin{pmatrix}
x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
x_1-\bar{x}\\
x_2-\bar{x}\\
…\\
x_n-\bar{x}
\end{pmatrix}
\)
を計算すると
=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
=S(平方和)になりますね。

つまり、
S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
がよくわかりますね。

次に、同様に考えると平方和\(S_{jk}\)は
\(S_{jk}\)=\(\sum_{i=1}^{n}(x_{ji}-\bar{x_j})(x_{ki}-\bar{x_k})\)より、行列表記すると

\(\begin{pmatrix}
x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & … & x_{jn}-\bar{x_j} \end{pmatrix}\)\(\begin{pmatrix}
x_{k1}-\bar{x_k}\\
x_{k2}-\bar{x_k}\\
…\\
x_{kn}-\bar{x_k}
\end{pmatrix}
\)
となるがわかりますね。

つまり、
\(S_{jk}\)=\(X_j^T X_k\)
と書けることもわかりますね。

★\(j,k\)をすべての場合についての平方和を行列表記する

\(j,k\)は共に1～\(p\)までありますから、すべての\(j,k\)における平方和を行列表記すると下図のようになります。

平方和Sを行列表記して解ける事

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1k} & \ldots& S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2k} & \ldots & S_{2p} \\
\vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
S_{j1} & S_{j2} & \ldots & S_{jk} & \ldots & S_{jp} \\
\vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pk} & \ldots & S_{pp}
\end{array}
\right)
\)

=\(\left(
\begin{array}{cccc}
x_{11}-\bar{x_1} & x_{12}-\bar{x_1} & \ldots & x_{1i}-\bar{x_1} & \ldots& x_{1n}-\bar{x_1} \\
x_{21}-\bar{x_2} & x_{22}-\bar{x_2} & \ldots & x_{2i}-\bar{x_2} & \ldots& x_{2n}-\bar{x_2} \\
\vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & \ldots & x_{ji}-\bar{x_j} & \ldots& x_{jn}-\bar{x_j} \\
\vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
x_{p1}-\bar{x_p} & x_{p2}-\bar{x_p} & \ldots & x_{pi}-\bar{x_p} & \ldots& x_{pn}-\bar{x_p} \\
\end{array}
\right)
\)

\(\left(
\begin{array}{cccc}
x_{11}-\bar{x_1} & x_{21}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{p1}-\bar{x_p} \\
x_{12}-\bar{x_1} & x_{22}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{p2}-\bar{x_p} \\
\vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
x_{1i}-\bar{x_1} & x_{2i}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{pk}-\bar{x_p} \\
\vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
x_{1n}-\bar{x_1} & x_{2n}-\bar{x_2} & \ldots & x_{kn}-\bar{x_k} & \ldots& x_{pn}-\bar{x_p} \\
\end{array}
\right)
\)

ここで注意なのは、

(左辺)はp×pの行列で
(右辺)はn×p行列と、p×n行列の積であること
(右辺)は２つとも正方行列ではない点に注意！

図で描くと下のイメージです。

確かに行列を式で表記すると
S=\(X^T X\)
と書くのでSもXも同じp×p行列と思いがちです。
行列はシンプルに式が書けるけど、中身をちゃんと追わないと
間違えやすいので難しいですね。

★【結論】平方和\(S_{jk}\)を行列表記

\(S\)=\(X^T X\)
となります。

平方和\(S_{jy}\)の導出式を行列表記する

平方和\(S_{jk}\)の行列表記を丁寧に解説しました。同様に、平方和\(S_{jy}\)の導出式を行列表記します。

平方和\(S_{xx}\)を書き出すと
\(S_{xx}\)=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
ですね。

平方和Sを書き出すと
S=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
=\(\begin{pmatrix}
x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
x_1-\bar{x}\\
x_2-\bar{x}\\
…\\
x_n-\bar{x}
\end{pmatrix}
\)
でしたね。

ここで、\((x_i-\bar{x})^2\)を\((x_i-\bar{x})(y_i-\bar{y})\)に変えても同様に行列表記できます。

\(S_{1y}\)=\((x_{j1}-\bar{x_j})(y_1-\bar{y})\)+\((x_{j2}-\bar{x_j})(y_2-\bar{y})\)+…+\((x_{jn}-\bar{x_j})(y_n-\bar{y})\)
=\(\begin{pmatrix}
x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & … & x_{jn}-\bar{x_j} \end{pmatrix}\)\(\begin{pmatrix}
y_1-\bar{y}\\
y_2-\bar{y}\\
…\\
y_n-\bar{y}
\end{pmatrix}
\)
とかけるので、
\(S_{1y}\)=\(X^T Y\)と
行列表記できますね。

また、\(S_{1y}\),\(S_{2y}\),…,\(S_{py}\)も同様にして、まとめて行列表記できます。

\(\left(
\begin{array}{cccc}
x_{11}-\bar{x_1} & x_{12}-\bar{x_1} & \ldots & x_{1n}-\bar{x_1}\\
x_{21}-\bar{x_2} & x_{22}-\bar{x_2} & \ldots & x_{2n}-\bar{x_2}\\
\vdots & \vdots & \ddots & \vdots \\
x_{p1}-\bar{x_p} & x_{p2}-\bar{x_p} & \ldots & x_{pn}-\bar{x_p}\\
\end{array}
\right)
\)\(\begin{pmatrix}
y_{1}-\bar{y}\\
y_{2}-\bar{y}\\
…\\
y_{n}-\bar{y}
\end{pmatrix}
\)=\(\begin{pmatrix}
S_{1y}\\
S_{2y}\\
…\\
S_{py}
\end{pmatrix}
\)

ここで注意なのは、

(左辺)はn×pの行列とnのベクトルの積で
(右辺)はpのベクトルであること
n,p混同しないよう注意！

図で描くと下のイメージです。

★【結論】平方和\(S_{jy}\)を行列表記

\(S_{xy}\)=\(X^T Y\)
となります。

\(β_k\)の導出式を行列表記する

さて、回帰直線の傾きを導出する式を再掲します。

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

この式を行列表記すると下図のように

\(X^T X\)\(β\)=\(X^T Y\)
とシンプルに書けますね。

また、(左辺)は\(β\)のみにしたいので、\(X^T X\)の逆行列を両辺にかけます。すると、

\(β\)=\((X^T X)^{-1}\)\(X^T Y\)
とシンプルに書けますね。

\(β\)について行列表記できました！
ハット行列までもう少しです！

➂ハット行列\(H\)を導出する

回帰\(\hat{Y}\)の導出式を行列表記する

回帰直線を行列表記すると
\(\hat{Y}=Xβ\)
とXが前に、βが後ろに来ます。これをちゃんと理解しましょう！

回帰直線はn個のデータにおいて、次のn個の式が書けますね。
●\(\hat{y_1}-\bar{y}\)=\(β_1 (x_{11}-\bar{x_1})\)+\(β_2 (x_{21}-\bar{x_2})\)+…+\(β_p (x_{p1}-\bar{x_p})\)
●\(\hat{y_2}-\bar{y}\)=\(β_1 (x_{12}-\bar{x_1})\)+\(β_2 (x_{22}-\bar{x_2})\)+…+\(β_p (x_{p2}-\bar{x_p})\)
…
●\(\hat{y_n}-\bar{y}\)=\(β_1 (x_{1n}-\bar{x_1})\)+\(β_2 (x_{2n}-\bar{x_2})\)+…+\(β_p (x_{pn}-\bar{x_p})\)
ですね。これを行列表記すると、下の式になります。じっくり確認してください。

\(\begin{pmatrix}
\hat{y_{1}}-\bar{y}\\
\hat{y_{2}}-\bar{y}\\
…\\
\hat{y_{n}}-\bar{y}
\end{pmatrix}
\)=\(\left(
\begin{array}{cccc}
x_{11}-\bar{x_1} & x_{21}-\bar{x_2} & \ldots & x_{p1}-\bar{x_p}\\
x_{12}-\bar{x_1} & x_{22}-\bar{x_2} & \ldots & x_{p2}-\bar{x_p}\\
\vdots & \vdots & \ddots & \vdots \\
x_{1n}-\bar{x_1} & x_{2n}-\bar{x_2} & \ldots & x_{pn}-\bar{x_p}\\
\end{array}
\right)
\)\(\begin{pmatrix}
β_1\\
β_2\\
…\\
β_p
\end{pmatrix}
\)

確かに\(\hat{Y}=Xβ\)ですよね。
逆の\(βX\)の行列計算はできません。

ハット行列\(H\)を導出する

さあ、ようやくまとめに入ります。

回帰直線は\(\hat{Y}\)=\(Xβ\)
で\(β\)=\((X^T X)^{-1}\)\(X^T Y\)を代入すると
\(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
となります。

\(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
の関係式から\(\hat{Y}\)と\( Y\)の比をテコ比と考えて
ハット行列\(H\)=\(X\)\((X^T X)^{-1}\)\(X^T\)
が導出できます。

ちゃんと導出できました！

➃ハット行列とテコ比を導出する

ハット行列の性質

ハット行列は、

\(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
の関係式から\(\hat{Y}\)と\( Y\)の比をテコ比と考えて
ハット行列\(H\)=\(X\)\((X^T X)^{-1}\)\(X^T\)

でしたね。

実は、ハット行列\(H\)は面白い性質があります。

\(H^2\)=\(H\)
です。つまり、
\(H^3\)=\(H×H^2\)=\(H^2\)=\(H\)
…
\(H^n\)=…=\(H\)
と何乗しても同じ行列です。不思議！

★証明

証明しましょう。
\(H^2\)=[\(X\)\((X^T X)^{-1}\)\(X^T\)][\(X\)\((X^T X)^{-1}\)\(X^T\)]
=\(X\)\((X^T X)^{-1}\)(\(X^T\)\(X\))\((X^T X)^{-1}\)\(X^T\)
(黄色マーカー部は単位行列\(E\)になるので、)
=\(X\)\((X^T X)^{-1}\)\(X^T\)
=\(H\)
となりますね。

ハット行列はn×n行列(n:データ数)

ハット行列は式で書くと、\(X\)\((X^T X)^{-1}\)\(X^T\)ですが、
X、Hの行数、列数がいくらになるかはちゃんと確認しておきましょう。

例として\(X\)行列がn行×p列とします。
(nはデータ数、pは説明変数の数で、基本は n > pです。)
下図で行列の積に注意して、\(X\)\((X^T X)^{-1}\)\(X^T\)が
n×n行列になる流れを理解しましょう！

図ではp=3,n=6で説明しました。

となると、ハット行列\(H\)は次のように表現できます。

\(H\)=\(\left(
\begin{array}{cccc}
h_{11} & h_{12} & \ldots & h_{1n} \\
h_{21} & h_{22} & \ldots & h_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
h_{n1} & h_{n2} & \ldots & h_{nn}
\end{array}
\right)
\)

もともと\(\hat{Y}\)=\(HY\)の関係でしたから、行列表記すると

\(
\left(
\begin{array}{c}
\hat{y_1} \\
\hat{y_2} \\
\vdots \\
\hat{y_n}
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
h_{11} & h_{12} & \ldots & h_{1n} \\
h_{21} & h_{22} & \ldots & h_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
h_{n1} & h_{n2} & \ldots & h_{nn}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
y_1 \\
y_2 \\
\vdots \\
y_n
\end{array}
\right)
\)

となりますね。

テコ比を導出

次に、テコ比を導出します。

上の行列の式から\(\hat{y_i}\)成分だけ取り出すと、次の関係式ができます。
\(\hat{y_i}\)=\(h_{i1} y_1\)+\(h_{i2} y_2\)+…+\(h_{ij} y_j\)+\(h_{in} y_n\)

この式からテコ比\(h_{ii}\)を定義します。

●テコ比\(h_{ii}\)
\(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

ここまで、ハット行列とテコ比の導出を解説してきました。
次に具体的な値で実際計算してみましょう。

行列計算で行数、列数に意識して読んでください。結構大事！

➄ハット行列とテコ比を実際に計算する

データを用意

data x1 x2 y

1 8 3 3

2 11 2 4

3 9 4 4

4 12 4 7

5 11 5 7

6 9 6 5

合計 60 24 30

平均 10 4 5

【問題】
ハット行列\(H\)とテコ比\(h_{ii}\)を求めよ。

ではやってみましょう。

各行列を計算

まず、行列\(X\)を定義します。説明変数p=2、データ数n=6の行列ですね。正方行列ではない点に注意です。

★最も大事な注意点

行列に代入する\(x, \hat{y},y\)はそのまま代入ではなく
●\(x_{ij}-\bar{x_i}\)
●\(\hat{y_i}-\bar{y}\)
●\(y_i-\bar{y}\)
とそれぞれ平均で差分した値を代入すること。

★行列\(X\)

\(x_{ij}-\bar{x_i}\)は下表を参考に行列を作ります。

data x1 x2 \(x_1-\bar{x_1}\) \(x_2-\bar{x_2}\)

1 8 3 -2 -1

2 11 2 1 -2

3 9 4 -1 0

4 12 4 2 0

5 11 5 1 1

6 9 6 -1 2

合計 60 24 – –

平均 10 4 – –

黄色マーカ部分から行列\(X\)を作ります。

\(X\)=\(\left(
\begin{array}{cccc}
-2 & -1 \\
1 & -2 \\
-1 & 0 \\
2 & 0 \\
1 & 1 \\
-1 & 2 \\
\end{array}
\right)
\)

★ 行列\(X^T X\)の計算

転置行列\(X^T\)との\(X\)の積なので、\(X^T X\)=\(\left(
\begin{array}{cccc}
-2 & 1 & -1 & 2 & 1 & -1 \\
-1 & -2 & 0 & 0 & 1 & 2 \\
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
-2 & -1 \\
1 & -2 \\
-1 & 0 \\
2 & 0 \\
1 & 1 \\
-1 & 2 \\
\end{array}
\right)
\)
=\(\left(
\begin{array}{cccc}
12 & -1 \\
-1 & 10 \\
\end{array}
\right)
\)

確かに計算結果は
\(X^T X\)=\(\left(
\begin{array}{cccc}
12 & -1 \\
-1 & 10 \\
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S_{11} & S_{12} \\
S_{12} & S_{22} \\
\end{array}
\right)
\)
で\(X\)の積は確かに平方和になっていますね。

★逆行列\((X^T X)^{-1}\)の計算

逆行列を計算します。2×2の行列なので簡単ですね。規模が大きくなる場合はExcelのMINVERSE関数で計算しましょう。

\((X^T X)^{-1}\)=\(\left(
\begin{array}{cccc}
0.084 & 0.0084 \\
0.0084 & 0.1008 \\
\end{array}
\right)
\)

★\(X(X^T X)^{-1}\)の計算

どんどん計算しましょう。

\(X(X^T X)^{-1}\)
=\(\left(
\begin{array}{cccc}
-2 & -1 \\
1 & -2 \\
-1 & 0 \\
2 & 0 \\
1 & 1 \\
-1 & 2 \\
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
0.084 & 0.0084 \\
0.0084 & 0.1008 \\
\end{array}
\right)
\)
=\(\left(
\begin{array}{cccc}
-0.176 & -0.118 \\
0.067 & -0.193 \\
-0.084 & -0.008 \\
0.168 & 0.017 \\
0.092 & 0.109 \\
-0.067 & 0.193 \\
\end{array}
\right)
\)

確かに　6×2行列になっていますね。

★ハット行列\(H\)の計算

\(H\)=\(X(X^T X)^{-1} X^T\)
=\(\left(
\begin{array}{cccc}
-0.176 & -0.118 \\
0.067 & -0.193 \\
-0.084 & -0.008 \\
0.168 & 0.017 \\
0.092 & 0.109 \\
-0.067 & 0.193 \\
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
-2 & 1 & -1 & 2 & 1 & -1 \\
-1 & -2 & 0 & 0 & 1 & 2 \\
\end{array}
\right)
\)
=\(\left(
\begin{array}{cccc}
0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
-0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
-0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
-0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
\end{array}
\right)
\)

とデータ数n=6の6×6行列がでました。

テコ比を計算

テコ比は

●テコ比\(h_{ii}\)
\(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

より、
●\(h_{11}\)=0.471
●\(h_{22}\)=0.454
●\(h_{33}\)=0.084
●\(h_{44}\)=0.336
●\(h_{55}\)=0.202
●\(h_{66}\)=0.454

と計算ができました。

重回帰分析の結果を比較

先ほどのデータを重回帰分析すると下表の結果になります。実際手を動かして計算してみてください。

\(x_{1i}\) \(x_{2i}\) \(y_i\) \(\hat{y_i}\) \(y_i-\bar{y}\) \(\hat{y_i}-\bar{y}\)

1 8 3 3 2.529 -2 -2.471

2 11 2 4 4.513 -1 -0.487

3 9 4 4 4.109 -1 -0.891

4 12 4 7 6.782 2 1.782

5 11 5 7 6.58 2 1.580

6 9 6 5 5.487 0 0.487

合計 60 24 30 – – –

平均 10 4 5(=\(\bar{y}\)) – – –

平方和値回帰直線値

\(S_{11}\) 12 y切片\(β_0\) -6.664

\(S_{12}\) -1(=\(S_{21}\)) 傾き\(β_1\) 0.891

\(S_{22}\) 10 傾き\(β_2\) 0.689

\(S_{1y}\) 10 – –

\(S_{2y}\) 6 – –

\(S_{yy}\) 14 – –

なお、回帰直線上の点\(\hat{y_i}\)は
\(\hat{y_i}\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)
\(\hat{y_i}\)=-6.664+0.891\( x_1\)+0.689\(x_2\)
で計算できます。

ここで、

\(\hat{Y}\)=\(\left(
\begin{array}{cccc}
\hat{y_1}-\bar{y} \\
\hat{y_2}-\bar{y} \\
\hat{y_3}-\bar{y} \\
\hat{y_4}-\bar{y} \\
\hat{y_5}-\bar{y} \\
\hat{y_6}-\bar{y} \\
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
-2.471 \\
-0.487 \\
-0.891 \\
1.782 \\
1.580 \\
0.487 \\
\end{array}
\right)
\)

\(Y\)=\(\left(
\begin{array}{cccc}
y_1-\bar{y} \\
y_2-\bar{y} \\
y_3-\bar{y} \\
y_4-\bar{y} \\
y_5-\bar{y} \\
y_6-\bar{y} \\
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
-2\\
-1 \\
-1 \\
2 \\
2 \\
0 \\
\end{array}
\right)
\)

\(H\)=\(\left(
\begin{array}{cccc}
0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
-0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
-0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
-0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
\end{array}
\right)
\)

を使って、実際に行列\(\hat{y}=HY\)かを確かめましょう。

\(HY\)=\(\left(
\begin{array}{cccc}
0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
-0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
-0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
-0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
-2\\
-1 \\
-1 \\
2 \\
2 \\
0 \\
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
-2.471 \\
-0.487 \\
-0.891 \\
1.782 \\
1.580 \\
0.487 \\
\end{array}
\right)
\)=\(\hat{Y}\)
と確かに一致します！

重回帰分析の結果とハット行列の計算が一致しました！

⑥テコ比がわかる

テコ比の性質

テコ比は

●テコ比\(h_{ii}\)
\(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

より、
●\(h_{11}\)=0.471
●\(h_{22}\)=0.454
●\(h_{33}\)=0.084
●\(h_{44}\)=0.336
●\(h_{55}\)=0.202
●\(h_{66}\)=0.454

と計算ができましたが、全部足すと
\(h_{11}\)+\(h_{22}\)+\(h_{33}\)+\(h_{44}\)+\(h_{55}\)+\(h_{66}\)
=2
と説明変数の数p=2に一致します。

なぜ\(\sum_{i=1}^{n}h_{ii}=p\)なのかは、
今後の研究テーマとします。わかり次第報告します。

まとめ

「重回帰分析のテコ比がよくわかる」を解説しました。

①重回帰分析を解く

➁\(β_k\)の導出式を行列表記する

➂ハット行列\(H\)を導出する

➃ハット行列とテコ比を導出する

➄ハット行列とテコ比を実際に計算する

⑥テコ比がわかる

2023年2月7日

重回帰分析のダミー変数の使い方がよくわかる

「ダミー変数の入れ方・値によって重回帰分析の結果にどう影響が出るか心配！」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析のダミー変数の使い方がよくわかる

おさえておきたいポイント

①ダミー変数とは

➁説明変数を変換すると重回帰分析がどう変化するかを理解する

➂ダミー変数の入れ方と重回帰分析の変化を理解する

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

ダミー変数の値が変わると
●ダミー変数の回帰直線の傾きの値は変化し、
●回帰直線y切片の値も変化するが、
●他の説明変数の回帰直線の傾きの値は変化しないし、
●平方和(総平方和、回帰平方和、残差平方和)は変化しない
ことを本記事で解説します！

ダミー変数の値の入れ方は
ルールが確定していたら、値は何でもいいけど
回帰直線、平方和、分散分析にどう影響するかを
理解しよう！

では、解説します。

①ダミー変数とは

ダミー変数とは

重回帰分析では、0か1のどちらかの値を取る変数などの「計数値」を変数として使う場合があります。この計数値のことをダミー変数と呼びます。

ダミー変数の入れ方は３パターンある

ダミー変数の入れ方はいろいろなニーズがあります。例えば、
●0と1とか
●0と2とか
●1と2とか
●5と10とか
●-1と1とか
の２値データとか、
たくさんパターンが出ますよね！

●0,1,2,3,…と1ずつ増やしていく多値データとか

いろいろあります。

2値データの応用が多値データなので、2値データで考えましょう。

再掲すると
●0と1とか
●0と2とか
●1と2とか
●5と10とか
●-1と1とか
の２値データとか、
は数式で書くと、3つのパターンに分ける事ができます。

0,1が基本パターンで定数倍したもの(x⇒ax)

0,1が基本パターンで定数値を加減したもの(x⇒x+a)

0,1が基本パターンで定数倍と定数値の加減を組み合わせたもの(x⇒ax+b)

３つに分けてもイマイチ理解できませんよね！
なので、実際に解いてみると下表になります。

パターン 0,1との比較数式

0,2のパターン 0,1に対して2倍 2x

1,2のパターン 0,1に対して1加算 x+1

5,10のパターン 0,1に対して5倍して5加算 5(x+1)

-1,1のパターン 0,1に対して2倍して1引く 2x-1

いろいろな2値データのパターンがありますが、数式で書くと3つしかないことがわかりますよね。

x

ax (a：定数)

ax+b(a,b:定数)

重回帰分析のダミー変数の使い方がわかるには、
●0,1のパターン
●0,1に定数倍したパタン
●0,1に定数倍と定数値を加減したパターン
の３つの違いを理解すればＯＫ
ですね。

➁説明変数を変換すると重回帰分析がどう変化するかを理解する

結論は、

（その１）は \(x_1’\)=\(ax_1\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●総平方和\(S_T\)、回帰平方和\(S_R\)、残差平方和\(S_e\)は変わらない。
となります。

詳細は、関連記事で解説しています。ご確認ください。

重回帰分析は単位に影響されない理由がわかる
重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか？本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。多変量解析を学ぶ人は必読です。

（その２）は \(x_1’\)=\(ax_1+b\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

詳細は、関連記事で解説しています。ご確認ください。

重回帰分析は単位に影響されない理由がわかる(その2)
重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか？本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。(その１)はx’=axの場合、今回(その２)はx’=ax+bの場合について解説します。ダミー変数導入に必要な記事なので、多変量解析を学ぶ人は必読です。

まとめると、

（その２）は \(x_1’\)=\(ax_1+b\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

ダミー変数の入れ方によって回帰直線のダミー変数が関わる所は変化するが、それ以外は変わらないと理解しておきましょう。

説明変数を変換すると、
回帰直線の傾き、ｙ切片が変化する理由や
平方和は不変である理由を関連記事で解説しています。
数式を使った証明は関連記事で確認ください。
本記事は具体的な解説例で確認していきます。

本当かどうか、実例を挙げて確認します。

➂ダミー変数の入れ方と重回帰分析の変化を理解する

データを用意

以下のデータを用意します。

x1 x2 y

?? 3 3

?? 2 4

?? 4 4

?? 4 7

?? 5 7

?? 6 5

\(x_1\)の「??」にダミー変数をいれて、2つの説明変数からなる重回帰分析をやってみましょう。

ダミー変数を代入

次の3種類のダミー変数を用意します。

(i-1)x (i-2)5x (i-3)2x-1

0 0 -1

0 0 -1

0 0 -1

1 5 1

1 5 1

1 5 1

データ表をまとめます。

(i-1)x (i-2)5x (i-3)2x-1 x2 y

0 0 -1 3 3

0 0 -1 2 4

0 0 -1 4 4

1 5 1 4 7

1 5 1 5 7

1 5 1 6 5

では、解析しましょう。

重回帰分析の実施結果

回帰直線\(y=β_0+β_1 x_1+β_2 x_2\)と平方和の解析結果を比較しましょう。
黄色マーカが変化したところです。

– – (i-1)x (i-2)5x (i-3)2x-1

回帰直線 (y切片)\(β_0\) 5.167 5.167 7

回帰直線 (x1傾き)\(β_1\) 3.677 0.733 1.833

回帰直線 (x2傾き)\(β_2\) -0.5 -0.5 -0.5

平方和 \(S_R\) 10.667 10.667 10.667

平方和 \(S_e\) 3.333 3.333 3.333

平方和 \(S_T\) 14 14 14

確かに、

（その１）は \(x_1’\)=\(ax_1\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●総平方和\(S_T\)、回帰平方和\(S_R\)、残差平方和\(S_e\)は変わらない。
となります。

（その２）は \(x_1’\)=\(ax_1+b\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

となっていますね。

ダミー変数の値が変わると
●ダミー変数の回帰直線の傾きの値は変化し、
●回帰直線y切片の値も変化するが、
●他の説明変数の回帰直線の傾きの値は変化しないし、
●平方和(総平方和、回帰平方和、残差平方和)は変化しない
ことがわかりましたね！

理由が気になったら関連記事で確認しましょう。数式で理由をわかりやすく解説しています。

まとめ

「重回帰分析のダミー変数の使い方がよくわかる」を解説しました。

①ダミー変数とは

➁説明変数を変換すると重回帰分析がどう変化するかを理解する

➂ダミー変数の入れ方と重回帰分析の変化を理解する

重回帰分析

2023年2月3日

平方和の分解と分散分析ができる(重回帰分析)

★ 本記事のテーマ

平方和の分解と分散分析ができる(重回帰分析)

★おさえておきたいポイント

①重回帰分析のデータの構造式

➁平方和の分解

➂中間積和項が0になる導出過程をすべて見せます!

➃重回帰分析の分散分析

★ 【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【内容】①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題。

多変量解析はすべて数式で導出できます。導出過程から本質を理解しましょう。

重回帰分析の基礎である、回帰式の導出については関連記事に書いています。この関連記事をベースに本記事を作っています。ご確認ください。

重回帰分析の回帰式が導出できる
本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。

本記事は、暗記しがちな、重回帰分析の分散分析に必要な導出過程を丁寧に解説します。

①重回帰分析のデータの構造式

データの構造式を作る

下図のように、実測値\(y_i\)に対して、回帰直線上にある予測値\(\hat{y_i}\)と平均値\(\bar{y}\)を使って、差を分割します。

つまり、
(\(y_i\)-\(\bar{y}\))=(\(\hat{y_i}\)-\(\bar{y}\))+(\(y_i\)-\(\hat{y_i}\))
(誤差全体)=(回帰成分)＋(残差成分)
に分ける式（データの構造式）を作ります。

誤差を一次式で分割する「データの構造式」は
QCで扱う数学の中で一番大事且つ基本的な式で、
分散分析を扱う
●実験計画法
●回帰分析
●多変量解析
など、すべてに関わってきます。

まず、データの構造式を作りましょう。

➁平方和の分解

データの構造式の２乗和が肝

データの構造式を作ったら、両辺の２乗和を計算します。
すると、２乗項以外の積和がすべて0になるので、
平方和が分解できて、
分散分析ができる！

これも、超基本ですが、超大事ですね！　これを頭で覚えず、ちゃんと計算・導出できてから理解しましょう。自分で計算して平方和が分解できることがわかることが大事です！

平方和の分解

(\(y_i\)-\(\bar{y}\))=(\(\hat{y_i}\)-\(\bar{y}\))+(\(y_i\)-\(\hat{y_i}\))
の両辺の２乗和を取ります。

\(\sum_{i=1}^{n}\)\((y_i-\bar{y})^2\)
=\(\sum_{i=1}^{n}\)(\((\hat{y_i}-\bar{y})\)+\((y_i-\hat{y_i}))^2\)
とします。

(右辺)を変形すると、
\(\sum_{i=1}^{n}\)(\((\hat{y_i}-\bar{y})\)+\((y_i-\hat{y_i}))^2\)
=\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})^2\) →(1)
+2\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})\)\((y_i-\hat{y_i})\) →(2)
+\(\sum_{i=1}^{n}\)\((y_i-\hat{y_i})^2\) →(3)
と変形できます。

実は、
●(1)：\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})^2\)=\(S_R\)(回帰平方和)
●(2)：\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})\)\((y_i-\hat{y_i})\)=0
●(3)：\(\sum_{i=1}^{n}\)\((y_i-\hat{y_i})^2\)=\(S_{er}\)((回帰)残差平方和)
となります。

(左辺)の
\(\sum_{i=1}^{n}\)\((y_i-\bar{y})^2\)は総平方和として、
\(\sum_{i=1}^{n}\)\((y_i-\bar{y})^2\)=\(S_T\)(総平方和)
となるので、

まとめると、
\(S_T\)=\(S_R\)+\(S_{er}\)
(総平方和)=(回帰平方和)+ ((回帰)残差平方和)
と平方和が分解できます。

分散分析をやるので、
\(S_T\)=\(S_R\)+\(S_{er}\)
が当たり前に見えるけど
●(2)：\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})\)\((y_i-\hat{y_i})\)=0
はちゃんと証明できる？

中間積和項である、
\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})\)\((y_i-\hat{y_i})\)=0
はちゃんと導出できますか？
結構難しいのに、ちゃんと書いていない教科書やサイトが多いので、本記事でばっちり解説します！

➂中間積和項が0になる導出過程をすべて見せます!

ポイントは２つあり、

回帰直線上の点である条件を活用する

\((y_i-\hat{y_i})\)を\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\)に分割する

回帰式の成立条件式を活用する

では、丁寧に導出していきます。必ずなぞってください。いい勉強になります。

回帰直線上の点である条件を活用する

ここで、
\(\hat{y_i}\)と\(\hat{y_i}\)は回帰直線\(y=a+bx_1 +cx_2\)上に乗るので
●\(\hat{y_i}\)=\(a+bx_{1i}+cx_{2i}\)
●\(\bar{y}\)=\(a+b \bar{x_1}+c \bar{x_2}\)
が成り立ちます。代入しましょう。

回帰直線上の点である条件を活用する

ここで、
\(\hat{y_i}\)と\(\hat{y_i}\)は回帰直線\(y=a+bx_1 +cx_2\)上に乗るので
●\(\hat{y_i}\)=\(a+bx_{1i}+cx_{2i}\)
●\(\bar{y}\)=\(a+b \bar{x_1}+c \bar{x_2}\)
が成り立ちます。代入しましょう。

\(\sum_{i=1}^{n}\)\(((a+bx_{1i}+cx_{2i})-( a+b \bar{x_1}+c \bar{x_2}))\)\((y_i-\hat{y_i})\)
=\(\sum_{i=1}^{n}\)\( (b(x_{1i}-\bar{x_1})+ c(x_{2i}-\bar{x_2}))\)\((y_i-\hat{y_i})\)
=\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\((y_i-\hat{y_i})\)
+\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\((y_i-\hat{y_i})\) (式1)
と変形します。

\((y_i-\hat{y_i})\)を\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\)に分割する

(式1)の\((y_i-\hat{y_i})\)を\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\)に分割します。

(式1)
=\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\)
+\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\) (式2)
と変形します。

さらに、
回帰直線上の点である条件を活用し、
●\(\hat{y_i}\)=\(a+bx_{1i}+cx_{2i}\)
●\(\bar{y}\)=\(a+b \bar{x_1}+c \bar{x_2}\)
を、(式２)に代入しましょう。

(式2)
=\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\(((y_i-\bar{y})-b(x_{1i}-\bar{x_1})\)\(- c(x_{2i}-\bar{x_2})
)\)
+\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\(((y_i-\bar{y})-b(x_{1i}-\bar{x_1})\)\(- c(x_{2i}-\bar{x_2})
)\) (式3)
と変形します。

回帰式の成立条件式を活用する

(式3)のかっこ（）を掛け算すると
●\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\((y_i-\bar{y})\)=\(bS_{1y}\)
●\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\((-b)(x_{1i}-\bar{x_1})\)=\(-b^2 S_{11}\)
●\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\((-c)(x_{2i}-\bar{x_2})\)=\(-bc S_{12}\)
となりますし、
●\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\((y_i-\bar{y})\)=\(cS_{2y}\)
●\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\(-b)(x_{1i}-\bar{x_1})\)=\(-bcS_{12}\)
●\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\((-c)(x_{2i}-\bar{x_2})\)=\(-c^2 S_{22}\)
となります。

(式3)をまとめると
=\(b\sum_{i=1}^{n}\)\( (x_{1i}-\bar{x_1})\)\(((y_i-\bar{y})-b(x_{1i}-\bar{x_1})\)\(- c(x_{2i}-\bar{x_2})
)\)
+\(c\sum_{i=1}^{n}\)\( (x_{2i}-\bar{x_2})\)\(((y_i-\bar{y})-b(x_{1i}-\bar{x_1})\)\(- c(x_{2i}-\bar{x_2})
)\)
=\(bS_{1y}\)-\(b^2 S_{11}\) -\(bc S_{12}\)
+\(cS_{2y}\) -\(bcS_{12}\) -\(c^2 S_{22}\) =（式4）
となります。

ところで、回帰直線の成立条件を思い出すと、関連記事からみると

重回帰分析の回帰式が導出できる
本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。

●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます！

でしたね。(式4)をよくみると、
(式4)
=\(bS_{1y}\)-\(b^2 S_{11}\) -\(bc S_{12}\)
+\(cS_{2y}\) -\(bcS_{12}\) -\(c^2 S_{22}\)
=\(b\){\( S_{1y}-b S_{11}-c S_{12}\)}
+\(c\){ \(S_{2y}-b S_{12}-c S_{22}\)}=(式5)
となり、「｛｝」の中身が０になるのがわかりますね。

よって、結果は

\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})\)\((y_i-\hat{y_i})\)=0
となり、中間積和は０になります。これが平方和が分解できる理由ですね。

難しいですが、必ず解いてから平方和の分解→分散分析と進めましょう。ＱＣの数学で一番大事なところです！

➂重回帰分析の分散分析

回帰平方和\(S_R\)の導出

平方和が分解できたので、
\(S_T\)=\(S_R\)+\(S_{er}\)
(総平方和)=(回帰平方和)+ ((回帰)残差平方和)
と平方和が分解できます。

回帰平方和\(S_R\)の求め方の１つである次の公式を紹介・証明をします。結構活用します。

\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)

回帰平方和\(S_R\)は定義から
\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})^2\)
から計算してもよいですが、回帰直線の傾き\(β\)を使って求める方が経験上多いです。

公式は暗記ではなく、ちゃんと導出できますので、導出過程をしっかりおさえてください。

★\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)の証明

\(\hat{y_i}\)と\(\bar{y}\)はともに、
回帰直線上の点である条件を活用し、
\((\hat{y_i}-\bar{y})\)=\(β_1(x_{1i}-\bar{x_1})+β_2(x_{2i}-\bar{x_2})\)
を代入します。

\(S_R\)
=\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})^2\)
=\(\sum_{i=1}^{n}\)\((β_1(x_{1i}-\bar{x_1})+β_2(x_{2i}-\bar{x_2}))^2\)
=\(β_1^2 \sum_{i=1}^{n}\)\((x_{1i}-\bar{x_1})^2\)
+\(2β_1 β_2\)\(\sum_{i=1}^{n}\)\((x_{1i}-\bar{x_1})(x_{2i}-\bar{x_2})\)
+\(β_2^2 \sum_{i=1}^{n}\)\((x_{2i}-\bar{x_2})^2\)
=(式6)

(式6)の∑の中身は各々の平方和なので、表記を変えます。
(式6)
=\(β_1^2 S_{11}\)+\(2β_1 β_2 S_{12}\)+\(β_2^2 S_{22}\)
=\(β_1\)(\(β_1 S_{11}+β_2 S{12}\))+\(β_2\)(\(β_1 S_{12}+β_2 S{22}\))
=(式7)

ここで、

●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます！

を使うと、(式7)は
(式7)
=\(β_1\)(\(β_1 S_{11}+β_2 S{12}\))+\(β_2\)(\(β_1 S_{12}+β_2 S{22}\))
=\(β_1\)\(S_{1y}\)+\(β_2\)\(S_{2y}\)
となります。ちゃんと導出できますね！

よって、

\(S_R\)=\(\sum_{i=1}^{n}\)\((\hat{y_i}-\bar{y})^2\)
=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
が導出できます！　暗記より導出方法をしっかりマスターしましょう！

重回帰分析の分散分析表

よく使う分散分析表は下表のとおりです。

– 平方和S 自由度φ

回帰R \(S_R\) k

e \(S_{er}\) n-k-1

T \(S_T\) n-1

ここで、kは説明変数の種類ですね。

なお、重回帰分析の分散分析については別の関連記事で詳しく解説します。

まとめ

「平方和の分解と分散分析ができる(重回帰分析)」を解説しました。

①重回帰分析のデータの構造式

➁平方和の分解

➂中間積和項が0になる導出過程をすべて見せます!

➃重回帰分析の分散分析

2023年1月22日

重回帰分析の回帰式が導出できる

★ 本記事のテーマ

重回帰分析の回帰式が導出できる

★おさえておきたいポイント

①回帰式は誤差を最小にする条件で導出

➁回帰式を導出

➂【実例】回帰式を作る

★ 【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【内容】①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題。

多変量解析はすべて数式で導出できます。導出過程から本質を理解しましょう。

①回帰式は誤差を最小にする条件で導出

データの構造式を作る

本記事は、説明変数が２つ(\(x_1,x_2\))、目的変数\(y\)についての回帰式を作ります。

導出過程を一切端折らず解説しますので、一度などって下さい。理解が深まります！

回帰式をなす、データの構造式は
\(y=a+bx_1+cx_2\)
として、定数\(a,b,c\)を求めていきます。回帰式となる定数\(a,b,c\)を
●\(a\)=\(β_0\)
●\(b\)=\(β_1\)
●\(c\)=\(β_2\)
でよく表現します。

回帰式は誤差を最小にする条件で導出

ここで、同じ\(x_1,x_2\)について、実測値\(y_i\)と回帰式で求められる\(\hat{y_i}\)の２つを考えます。

図は、理解しやすくするために、あえて2次元で描いています。

実測値\(y_i\)と予測値\(\hat{y_i}\)の差を
\(Q(a,b,c)\)と定義して
\(Q(a,b,c)\)=\(\sum_{i=1}^{n}(y_i – \hat{y_i})^2\)
が最小となる条件が、重回帰分析の回帰式を求める条件となります。

つまり、実測値と予測値の差（誤差）を最小にする条件から回帰式を作ります。

「（誤差）を最小にする条件」が最も大事です！

複雑な計算になりますが、エッセンスは、「（誤差）を最小にする条件」です。

➁回帰式を導出

2乗和を展開(導出過程すべて見せます!)

\(Q(a,b,c)\)=\(\sum_{i=1}^{n}(y_i – \hat{y_i})^2\)
を
\(Q(a,b,c)\)=\(\sum_{i=1}^{n}((y_i -\bar{y}) –(\hat{y_i}-\bar{y}))^2\)
と間に\(\bar{y}\)を入れます。

また、\(\bar{y}\)と\(\hat{y_i}\)は回帰式を通るので、
●\(\bar{y}\)=\(a_+b \bar{x_1}+c \bar{x_2}\)
●\(\hat{y}\)=\(a_+b x_{1i}+c x_{2i}\)
が成り立つので、\(Q(a,b,c)\)に代入します。

代入すると、
\(Q(a,b,c)\)= \(\sum_{i=1}^{n}((y_i -\bar{y})\) –\(b(x_{1i}-\bar{x_1})\)-\( c(x_{2i}-\bar{x_2}))^2\)
さらに、意図的に
●\(\bar{y}\)=\(a_+b \bar{x_1}+c \bar{x_2}\)を
0=\(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}\))
として、\(Q(a,b,c)\)に代入します。

よって、
\(Q(a,b,c)\)= \(\sum_{i=1}^{n}((y_i -\bar{y})\)
-\(b(x_{1i}-\bar{x_1})\)
-\( c(x_{2i}-\bar{x_2})\)
+\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2})))^2\)
となります。

2乗和を整理

この長い２乗式を展開します。

\(Q(a,b,c)\)
= \(\sum_{i=1}^{n}\) \( ((y_i -\bar{y})^2 \) →(1)
+\(b^2(x_{1i}-\bar{x_1})^2\) →(2)
+\(c^2(x_{2i}-\bar{x_2})^2\) →(3)
+\(((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\) →(4)
-\(2b(y_i -\bar{y})(x_{1i}-\bar{x_1})\) →(5)
-\(2c (y_i -\bar{y})(x_{2i}-\bar{x_2})\) →(6)
+\(2(y_i -\bar{y})(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\) →(7)
+ \(2bc(x_{1i}-\bar{x_1})(x_{2i}-\bar{x_2})\) →(8)
-\(2b(x_{1i}-\bar{x_1})\)\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\) →(9)
-\(2c(x_{2i}-\bar{x_2})\)\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2})))\) →(10)
と展開します。長いですが、頑張りましょう。

上の計算式を(1)～(10)に分けて、それぞれ見ていきましょう。

●(1)は
\(\sum_{i=1}^{n}\) \( (y_i -\bar{y})^2 \)=\(S_{yy}\)と置けます。
以下、Sは平方和を使って式を簡単に書いていきます。

●(2)は
\(\sum_{i=1}^{n}\) \(b^2(x_{1i}-\bar{x_1})^2\) =\(b^2 S_{11}\)と置けます。

●(3)は
\(\sum_{i=1}^{n}\) \(c^2(x_{2i}-\bar{x_2})^2\) =\(c^2 S_{22}\)と置けます。

●(4)はちょっとややこしいですが、定数を∑するので、
\(\sum_{i=1}^{n}\)\(((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
=\(n((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
となります。あとで定数\(a\)を求めるための大事な式になります。

●(5)は
\(\sum_{i=1}^{n}\)\(2b(y_i -\bar{y})(x_{1i}-\bar{x_1})\)
=\(2b S_{1y}\)と置けます。

●(6)は
\(\sum_{i=1}^{n}\)\(2c (y_i -\bar{y})(x_{2i}-\bar{x_2})\)
= \(2c S_{2y}\)と置けます。

●(7)は、
\(\sum_{i=1}^{n}\)\(2(y_i -\bar{y})(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\)
=2\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\)\(\sum_{i=1}^{n}\)\((y_i -\bar{y})\)
と定数を∑の外に出せて、かつ、
\(\sum_{i=1}^{n}\)\((y_i -\bar{y})\)=0
なので、
(7)=0になります。

●(8)は、
\(\sum_{i=1}^{n}\) \(2bc(x_{1i}-\bar{x_1})(x_{2i}-\bar{x_2})\)
=\(2bc S_{12}\)
と置けます。

●(9)は、
\(\sum_{i=1}^{n}\)\(2b(x_{1i}-\bar{x_1})\)\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\)
=\(2b(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))\)\(\sum_{i=1}^{n}\)\((x_{1i}-\bar{x_1})\)
と定数を∑の外に出せて、かつ、
\(\sum_{i=1}^{n}\)\((x_{1i}-\bar{x_1})\)=0
なので、
(9)=0になります。

●(10)は、
\(\sum_{i=1}^{n}\)\(2c(x_{2i}-\bar{x_2})\)\((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2})))\)
=\(2c(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2})))\)\(\sum_{i=1}^{n}\)\((x_{2i}-\bar{x_2})\)
と定数を∑の外に出せて、かつ、
\(\sum_{i=1}^{n}\)\(\sum_{i=1}^{n}\)\((x_{2i}-\bar{x_2})\)=0
なので、
(10)=0になります。

誤差を最小にする条件

(1)～(10)をまとめると、

\(Q(a,b,c)\)= \(S_{yy}\)-\(b^2 S_{11}\)+\(c^2 S_{22}\)
+\(n((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
-\(2b S_{1y}\)- \(2c S_{2y}\)+\(2bc S_{12}\)
と整理できます。

だいぶスッキリしましたね。機械的に計算しているだけなので、公式暗記の前に一回はなぞって理解しましょう。

回帰式を導出

ここで、回帰式の係数とｙ切片を求めます。つまり、
●\(a\)=\(β_0\)
●\(b\)=\(β_1\)
●\(c\)=\(β_2\)
の各値です。

回帰式は\(Q(a,b,c)\)が最小となる条件です。

★ y切片 \(β_0\)の導出

(Q(a,b,c))が最小となる条件で、定数(a)が有る項は、

\(Q(a,b,c)\)= \(S_{yy}\)-\(b^2 S_{11}\)+\(c^2 S_{22}\)
+\(n((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
-\(2b S_{1y}\)- \(2c S_{2y}\)+\(2bc S_{12}\)
の
\(((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
の部分ですね。

黄色マーカの２乗が最小になるのは、中身が0の時ですね。
よって、
\(\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2})\)=0
が条件となり、変形すると、
\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
が求める式となります。

★ 傾き\(β_1\)、\(β_2\)の導出

\(Q(a,b,c)\)= \(S_{yy}\)-\(b^2 S_{11}\)+\(c^2 S_{22}\)
+\(n((\bar{y}\)-(\(a_+b \bar{x_1}+c \bar{x_2}))^2\)
-\(2b S_{1y}\)- \(2c S_{2y}\)+\(2bc S_{12}\)
は、\(b,c\)の変数なので、
偏微分=0
から求めます。

●\(\displaystyle \frac{\partial Q(b,c)}{\partial b}\)=0
●\(\displaystyle \frac{\partial Q(b,c)}{\partial c}\)=0
から条件式を作ります。

●\(\displaystyle \frac{\partial Q(b,c)}{\partial b}\)
=\(2bS_{11}-2S_{1y}+2cS_{12}\)=0
●\(\displaystyle \frac{\partial Q(b,c)}{\partial c}\)
=\(2cS_{22}-2S_{2y}+2bS_{12}\)=0
となる連立方程式ができます。

よって、
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、
傾き\(b\)=\(β_1\)、\(c\)=\(β_2\)が導出できます。

【結論】回帰式の導出

●y切片 \(β_0\)の導出
\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
から計算し、
●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます！

ちゃんと、導出できましたね！一切途中経過を端折っていないので、なぞるだけでも理解が深まります！

では、具体的な数字を使って回帰式を作ってみましょう。

➂【実例】回帰式を作る

データ例

以下のデータを使って重回帰分析の回帰式を作ってみましょう。

x1 x2 y

3 1 3

2 4 4

4 2 4

4 5 7

5 4 7

6 2 5

導出式から回帰式を計算する

●y切片 \(β_0\)の導出
\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
から計算し、
●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます！

なので、
●平均\(\bar{x_1},\bar{x_2},\bar{y}\)と
●平方和\(S_{11}\),\(S_{12}\),\( S_{1y}\),\( S_{22}\),\( S_{2y}\)
を計算しましょう。結構、計算が必要ですね。
下表に結果をまとめましょう。

– x1 x2 y A=
\(x_1\)-\(\bar{x_1}\) B=
\(x_2\)-\(\bar{x_2}\) C=
\(y-\bar{y}\) \(A^2\)=\(S_{11}\) \(AC\)=\(S_{1y}\) \(AB\)=\(S_{12}\) \(B^2\)=\(S_{22}\) \(BC\)=\(S_{2y}\) \(C^2\)=\(S_{yy}\)

– 3 1 3 -1 -2 -2 1 2 2 4 4 4

– 2 4 4 -2 1 -1 4 2 -2 1 -1 1

– 4 2 4 0 -1 -1 0 0 0 1 1 1

– 4 5 7 0 2 2 0 0 0 4 4 4

– 5 4 7 1 1 2 1 2 1 1 2 4

– 6 2 5 2 -1 0 4 0 -2 1 0 0

合計 24 18 30 0 0 0 10 6 -1 12 10 14

平均 4 3 5 – – – ↑\(S_{11}\) ↑\(S_{1y}\) ↑\(S_{12}\) ↑\(S_{22}\) ↑\(S_{2y}\) ↑\(S_{yy}\)

よって、
●y切片 \(β_0\)の導出
\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
から計算し、
●傾き\(β_1\)、\(β_2\)の導出
\(10b-c\)=6
\(-b+12c\)=10
から、
\(b=β_1\)=\(\frac{82}{119}\)
\(c=β_2\)=\(\frac{106}{109}\)

\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
から
5-\(\frac{82}{119}\)×4-\(\frac{106}{109}\)×3=-\(\frac{51}{109}\)

以上、
\(y\)=-\(\frac{51}{109}\)+\(\frac{82}{119}x_1\)+\(\frac{106}{109}x_2\)
=-0.429+0.689\(x_1\)+0.891\(x_2\)
となります。

Excelから回帰式を計算する

関数を使って一発で出せます。

LINEST関数を使います。下図のように、縦5マス、横3マス分を選択して、
「=LINEST(D3:D8,B3:C8,TRUE,TRUE)」
の関数を入力して
「ctrl+shift」を同時に押して、「enter」すると自動計算されます。

自動計算は一瞬でできて、下図の結果になります。

確かに、手計算で求めた
\(y\)=-\(\frac{51}{109}\)+\(\frac{82}{119}x_1\)+\(\frac{106}{109}x_2\)
=-0.429+0.689\(x_1\)+0.891\(x_2\)
と一致します。

当然、手計算でもExcel関数からでも結果は一致します。Excel関数の方が楽チンですが、意味を理解するためにも手計算で一度解くことを勧めます。

まとめ

「重回帰分析の回帰式が導出できる」を解説しました。

①回帰式は誤差を最小にする条件で導出

➁回帰式を導出

➂【実例】回帰式を作る

2023年1月22日

DW	相関性	相関係数\(ρ\)
0～2	正の相関あり	\(ρ\) ≥ 0
2	相関なし	\(ρ\) = 1
2～4	負の相関あり	\(ρ\) ≤ 0

–	パターン1		パターン2
No	x1	y1	x2	y2
1	10	56	10	40
2	12	62	11	60
3	14	64	12	42
4	13	68	13	62
5	10	72	14	44
6	25	76	15	64
7	22	80	16	46
8	25	82	17	66
9	23	80	18	48
10	16	90	19	68

No	\(x_1\)	\(y\)	X= \(x_1-\bar{x_1}\)	Y= \(y-\bar{y}\)	\(X^2\)	\(Y^2\)	XY	\(\hat{y_i}\)	\(e_i\)
1	10	56	-7	-17	49	289	119	65.047	-9.047
2	12	62	-5	-11	25	121	55	67.320	-5.320
3	14	64	-3	-9	9	81	27	69.592	-5.592
4	13	68	-4	-5	16	25	20	68.456	-0.456
5	10	72	-7	-1	49	1	7	65.047	6.953
6	25	76	8	3	64	9	24	82.089	-6.089
7	22	80	5	7	25	49	35	78.680	1.320
8	25	82	8	9	64	81	72	82.089	-0.089
9	23	80	6	7	36	49	42	79.817	0.183
10	16	90	-1	17	1	289	-17	71.864	18.136
sum	170	730	0	657	338	994	384	–	–
ave	17	73	–	–	\(S_{xx}\)	\(S_{yy}\)	\(S_{xy}\)	–	–

No	\(x_1\)	\(y\)	X=\(x_1-\bar{x_1}\)	Y=\(y-\bar{y}\)	\(X^2\)	\(Y^2\)	XY	\(\hat{y_i}\)	\(e_i\)
1	10	40	-4.5	-14	20.25	196	63	46.909	-6.909
2	11	60	-3.5	6	12.25	36	-21	48.485	11.515
3	12	42	-2.5	-12	6.25	144	30	50.061	-8.061
4	13	62	-1.5	8	2.25	64	-12	51.636	10.364
5	14	44	-0.5	-10	0.25	100	5	53.212	-9.212
6	15	64	0.5	10	0.25	100	5	54.788	9.212
7	16	46	1.5	-8	2.25	64	-12	56.364	-10.364
8	17	66	2.5	12	6.25	144	30	57.939	8.061
9	18	48	3.5	-6	12.25	36	-21	59.515	-11.515
10	19	68	4.5	14	20.25	196	63	61.091	6.909
sum	145	540	0	486	82.5	1080	130	–	–
ave	14.5	54	–	–	\(S_{xx}\)	\(S_{yy}\)	\(S_{xy}\)	–	–

data	x1	x2	\(x_1-\bar{x_1}\)	\(x_2-\bar{x_2}\)
1	8	3	-2	-1
2	11	2	1	-2
3	9	4	-1	0
4	12	4	2	0
5	11	5	1	1
6	9	6	-1	2
合計	60	24	–	–
平均	10	4	–	–

平方和	値	回帰直線	値
\(S_{11}\)	12	y切片\(β_0\)	-6.664
\(S_{12}\)	-1(=\(S_{21}\))	傾き\(β_1\)	0.891
\(S_{22}\)	10	傾き\(β_2\)	0.689
\(S_{1y}\)	10	–	–
\(S_{2y}\)	6	–	–
\(S_{yy}\)	14	–	–

パターン	0,1との比較	数式
0,2のパターン	0,1に対して2倍	2x
1,2のパターン	0,1に対して1加算	x+1
5,10のパターン	0,1に対して5倍して5加算	5(x+1)
-1,1のパターン	0,1に対して2倍して1引く	2x-1

–	–	(i-1)x	(i-2)5x	(i-3)2x-1
回帰直線	(y切片)\(β_0\)	5.167	5.167	7
回帰直線	(x1傾き)\(β_1\)	3.677	0.733	1.833
回帰直線	(x2傾き)\(β_2\)	-0.5	-0.5	-0.5
平方和	\(S_R\)	10.667	10.667	10.667
平方和	\(S_e\)	3.333	3.333	3.333
平方和	\(S_T\)	14	14	14

–	平方和S	自由度φ
回帰R	\(S_R\)	k
e	\(S_{er}\)	n-k-1
T	\(S_T\)	n-1

–	x1	x2	y	A= \(x_1\)-\(\bar{x_1}\)	B= \(x_2\)-\(\bar{x_2}\)	C= \(y-\bar{y}\)	\(A^2\)=\(S_{11}\)	\(AC\)=\(S_{1y}\)	\(AB\)=\(S_{12}\)	\(B^2\)=\(S_{22}\)	\(BC\)=\(S_{2y}\)	\(C^2\)=\(S_{yy}\)
–	3	1	3	-1	-2	-2	1	2	2	4	4	4
–	2	4	4	-2	1	-1	4	2	-2	1	-1	1
–	4	2	4	0	-1	-1	0	0	0	1	1	1
–	4	5	7	0	2	2	0	0	0	4	4	4
–	5	4	7	1	1	2	1	2	1	1	2	4
–	6	2	5	2	-1	0	4	0	-2	1	0	0
合計	24	18	30	0	0	0	10	6	-1	12	10	14
平均	4	3	5	–	–	–	↑\(S_{11}\)	↑\(S_{1y}\)	↑\(S_{12}\)	↑\(S_{22}\)	↑\(S_{2y}\)	↑\(S_{yy}\)

カテゴリー: 重回帰分析

【まとめ】重回帰分析がよくわかる

①重回帰分析で最も理解すべきこと

➁重回帰分析の基本

重回帰分析とは何か？

➂重回帰分析の検定と推定方法

➃重回帰分析の特徴的な性質

➄ブログ記事のご紹介

⑥プレミアムテキストのご紹介

まとめ

ダービンワトソン比がよくわかる

①ダービンワトソン比とは

ダービンワトソン比とは

ダービンワトソン比の式を展開する

➁ダービンワトソン比の範囲を導出

残差どうしの相関係数の範囲を導出

ダービンワトソン比の範囲を導出

➂ダービンワトソン比の値とデータの特性

ダービンワトソン比の範囲と相関の関係

ダービンワトソン比が0～2の間の場合

ダービンワトソン比が2～4の間の場合

まとめ

重回帰分析のテコ比がよくわかる

①重回帰分析を解く

データの構造式を作る

最小二乗法から正規方程式を作る

回帰直線の傾き\(β_k\)を導出する式を作る

➁\(β_k\)の導出式を行列表記する

平方和\(S_{jk}\)の導出式を行列表記する

平方和\(S_{jy}\)の導出式を行列表記する

\(β_k\)の導出式を行列表記する

➂ハット行列\(H\)を導出する

回帰\(\hat{Y}\)の導出式を行列表記する

ハット行列\(H\)を導出する

➃ハット行列とテコ比を導出する

ハット行列の性質

ハット行列はn×n行列(n:データ数)

テコ比を導出

➄ハット行列とテコ比を実際に計算する

データを用意

各行列を計算

テコ比を計算

重回帰分析の結果を比較

⑥テコ比がわかる

テコ比の性質

まとめ

重回帰分析のダミー変数の使い方がよくわかる

①ダミー変数とは

ダミー変数とは

ダミー変数の入れ方は３パターンある

➁説明変数を変換すると重回帰分析がどう変化するかを理解する

➂ダミー変数の入れ方と重回帰分析の変化を理解する

データを用意

ダミー変数を代入

重回帰分析の実施結果

まとめ

平方和の分解と分散分析ができる(重回帰分析)

①重回帰分析のデータの構造式

データの構造式を作る

➁平方和の分解

データの構造式の２乗和が肝

平方和の分解

➂中間積和項が0になる導出過程をすべて見せます!

回帰直線上の点である条件を活用する

回帰直線上の点である条件を活用する

\((y_i-\hat{y_i})\)を\(((y_i-\bar{y})-(\hat{y_i}-\bar{y}))\)に分割する

回帰式の成立条件式を活用する

➂重回帰分析の分散分析

回帰平方和\(S_R\)の導出

重回帰分析の分散分析表

まとめ

重回帰分析の回帰式が導出できる

①回帰式は誤差を最小にする条件で導出

データの構造式を作る

回帰式は誤差を最小にする条件で導出

➁回帰式を導出

2乗和を展開(導出過程すべて見せます!)

2乗和を整理

誤差を最小にする条件

回帰式を導出