QCプラネッツ | QCプラネッツ

重回帰分析は単位に影響されない理由がわかる(その2)

「重回帰分析は、途中で単位を変更しても大丈夫なの？」と疑問に思っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析は単位に影響されない理由がわかる(その2)

おさえておきたいポイント

①説明変数が定数倍変化した場合
➁説明変数が定数倍に定数値を加算した場合
➂回帰直線の値の変化を数式で理解する
➃回帰、残差平方和は変化しない

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

変化する・しない理由を数式で理解しよう！

(その１)は \(x_1’\)=\(ax_1\)の場合
本記事の(その２)は\(x_1’\)=\(ax_1+b\)の場合

定数値\(b\)を加算すると重回帰分析にどう影響するか？を解説します。

本記事も、（その１）と同様に、わかりやすく説明するために説明変数は２つだけの重回帰分析を使って解説します。

①説明変数が定数倍変化した場合

ダミー変数導入の時に本記事が必要

本記事の(その２)は\(x_1’\)=\(ax_1+b\)の場合を解説する理由は、

ダミー変数導入の時に本記事が必要

ダミー変数を使って重回帰分析する場合、ダミー変数をいくらにすればよいか？気になりますよね。

●ダミー変数：０，１、２と１ずつ増やすか？
●ダミー変数：０，５，１０とか一定数ずつ増やした方がいいのか？
などです。

０，１，２と1ずつ増やしたり、
１，６，１１と増やしたりと考える場合、両者の関係は
「５倍して１足す」関係ですよね。
つまり、本記事の
\(x_1’\)=\(ax_1+b\)の場合
がベースとなるので、解説が必要なのです！

詳細は関連記事で確認

（その１）は \(x_1’\)=\(ax_1\)の場合を解説しています。この内容をベースに本記事を解説しますので、先に確認ください。

重回帰分析は単位に影響されない理由がわかる
重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか？本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。多変量解析を学ぶ人は必読です。

説明変数が定数倍変化した場合

➁説明変数が定数倍に定数値を加算した場合

理解に必要な公式と関連記事

本記事で使う重回帰分析の公式とその導出過程を詳細にまとめた関連記事を紹介します。しっかり確認しましょう。

なお、本記事では、わかりやすさを優先するために、説明変数が2つの場合について解説します。

おさえておきたい公式

●平方和の分解
\(S_T\)=\(S_R\)+\(S_{e}\)
(総平方和)=(回帰平方和)+(残差平方和)

●回帰平方和
\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)

●平方和
・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)

●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
から
\(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
\(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

●y切片\(β_0\)の導出
\(β_0\)=\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\)

すべて、計算で解けます。公式暗記は禁物です。解けない場合は関連記事で解けるようにしましょう！

平方和の分解と分散分析ができる(重回帰分析)
重回帰分析の分散分析をする際にデータの構造式を使って平方和の分解が自力で計算できますか？本記事では公式暗記に頼りがちな重回帰分析の分散分析の解析までの流れを途中経過を一切端折らず丁寧に解説します。多変量解析を学ぶ人は必読です。

事例

実際に下表データにおいて、
●(i)説明変数\(x_1\)の場合
●(ii)説明変数\(x_1\)を1/100倍に変えた場合
●(iii)説明変数\(x_1\)を1/100倍に変えて、さらに7/100足した場合
それぞれ重回帰分析しましょう。下表では、左側から右側を比較しましょう。

(i)\(x_1\)	(ii)\(x_1’\)=\(\frac{x_1}{100}\)	(iii)\(x_1’\)=\(\frac{x_1}{100}+\frac{7}{100}\)	\(x_2\)	\(y\)
1	0.01	0.08	3	3
4	0.04	0.11	2	4
2	0.02	0.09	4	4
5	0.05	0.12	4	7
4	0.04	0.11	5	7
2	0.02	0.09	6	5

重回帰分析すると下の結果になります。一度、計算して確かめてみてください！いい練習になります！

–	(i)\(x_1\)	(ii)\(x_1’\)=\(\frac{x_1}{100}\)	(iii)\(x_1’\)=\(\frac{x_1}{100}+\frac{7}{100}\)
y切片\(β_0\)	-0.429	-0.429	-6.664
傾き\(β_1\)	0.891	89.076	89.076
傾き\(β_2\)	0.689	0.689	0.689
総平方和\(S_T\)	14	14	14
回帰平方和\(S_R\)	8.333	8.333	8.333
残差平方和\(S_e\)	5.667	5.667	5.667

確かに、

●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
(今回は\(a=1/100\))
●\(x_2\)の回帰直線の傾きは変わらない。
●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

この理由を数式で証明しましょう。数式で理解するとよくわかります!

➂回帰直線の値と平方和の値の変化を数式で理解する

数式を準備する

上で紹介した式を再掲します。

●平方和
・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)

●傾き\(β_1\)、\(β_2\)の導出
\(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
\(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

●y切片\(β_0\)の導出
\(β_0\)=\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\)

ここで、説明変数\(x_1\)が\(x_1’\)に変化するので、回帰直線の傾きも変化するかもしれません。なので、\(β_0\)⇒\(β_0’\)、\(β_1\)⇒\(β_1’\)、\(β_2\)⇒\(β_2’\)とします。

説明変数は
●\(x_1’\)=\(ax_1\)
●\(x_2’\)=\(x_2\)
ですから、平方和の式に代入しましょう。

平方和の変化

代入します。

●平方和
・\(S_{1’1’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x’_1})^2\)
=\(\sum_{i=1}^{n}((ax_1+b)-(\bar{ax_1}+b))^2\)
=\(a^2\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
=\(a^2 S_{11}\)
ですね。

あと同様に、
・\(S_{2’2’}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})^2\)
=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
=\(S_{22}\)

・\(S_{1’2’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(x_2’-\bar{x_2’})\)
=\(\sum_{i=1}^{n}((ax_1+b)-(\bar{ax_1}+b))(x_2-\bar{x_2})\)
=\(a\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
=\(a_S{12}\)

・\(S_{1’y}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(y-\bar{y})\)
=\(a S_{1y}\)
・\(S_{2’y}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})(y-\bar{y})\)
=\(S_{2y}\)

まとめると
●\(S_{1’1’}\)=\(a^2 S_{11}\)
●\(S_{2’2’}\)=\(S_{22}\)
●\(S_{1’2’}\)=\(a_S{12}\)
●\(S_{1’y}\)=\(a S_{1y}\)
●\(S_{2’y}\)=\(S_{2y}\)
となります。

回帰直線の係数を計算

傾きの式に\(x_1’\),\(x_2’\)を代入します。

回帰直線の傾き\(β_1’\)

\(β_1’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (S_{2’2’} S_{1’y} – S_{1’2’} S_{2’y})\)
=\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (a S_{22} S_{1y} – a S_{12} S_{2y})\)
=\(\frac{1}{a}\frac{1}{S_{11} S_{22} – S_{12}^2} ( S_{22} S_{1y} – S_{12} S_{2y})\)
=\(\frac{1}{a} β_1\)
となりますね。

回帰直線の傾き\(β_2’\)

\(β_2’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (-S_{1’2’} S_{1’y} +S_{1’1’} S_{2’y})\)
=\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (-a^2 S_{12} S_{1y} +a^2 S_{11} S_{2y})\)
=\(\frac{1}{ S_{11} S_{22} –S_{12}^2} (-S_{12} S_{1y} + S_{11} S_{2y})\)
=\(β_2\)
となりますね。

回帰直線のy切片\(β_0’\)

\(β_0’\)=\(\bar{y}\)-\(β_1’ \bar{x_1’}\)-\(β_2’ \bar{x_2’}\)
=\(\bar{y}\)-\(\frac{1}{a}β_1 (a\bar{x_1}+b)\)-\(β_2 \bar{x_2}\)
=\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(\frac{b}{a}β_1\)-\(β_2 \bar{x_2}\)
=(\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\))-\(\frac{b}{a}β_1\)
=\(β_0\)-\(\frac{b}{a}β_1\)
となりますね。

次に平方和を計算してみましょう。

➃回帰、残差平方和は変化しない

平方和の分解

平方和の式を書きましょう。関連記事にもあるように、

モデル式 (\(y-\bar{y}\))=(\(\hat{y}-\bar{y}\))+(\(y-\hat{y}\))は
(\(\hat{y}\)は回帰直線上にのる値)
\(\sum_{i=1}^{n} (y-\bar{y})^2\)=\(\sum_{i=1}^{n} (\hat{y}-\bar{y})^2\)+\(\sum_{i=1}^{n} (y-\hat{y})^2\)
となり、
\(S_T\)=\(S_R\)+\(S_e\)
ですね。

平方和、回帰平方和、残差平方和は変化しない

実は、説明変数\(x_i\)が変化して影響を受けるのは、\(\hat{y}\)がある成分です。

よって、

●総平方和\(S_T\)は変わらない

回帰平方和\(S_R\)を計算

次に回帰平方和\(S_R\)を計算しましょう。

\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
ですから、
\(S_R\)=\(β_1’ S_{1’y}\)+\(β_2’ S_{2’y}\)
とすると、
=\(\frac{1}{a}β_1 a S_{1y}\)+\(β_2 S_{2y}\)
=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
\(S_R\)
となります。よって、

●回帰平方和\(S_R\)は変わらないし
●残差平方和\(S_e\)=\(S_T\)-\(S_R\)も変わらない
つまり、各平方和の成分は変化しないとわかります。

ちゃんと証明できましたね。結論を再掲すると

（その２）は \(x_1’\)=\(ax_1+b\)の場合
●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

まとめ

「重回帰分析は単位に影響されない理由がわかる(その2)」を解説しました。

①説明変数が定数倍変化した場合
➁説明変数が定数倍に定数値を加算した場合
➂回帰直線の値の変化を数式で理解する
➃回帰、残差平方和は変化しない

重回帰分析

2023年2月2日

重回帰分析は単位に影響されない理由がわかる

「重回帰分析は、途中で単位を変更しても大丈夫なの？」と疑問に思っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析は単位に影響されない理由がわかる

おさえておきたいポイント

①単位を変えた場合
➁単位を変えた説明変数の傾きだけが変わる理由
➂単位を変えても回帰、残差平方和は変化しない

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

変化する・しない理由を数式で理解しよう！

①単位を変えた場合

理解に必要な公式と関連記事

本記事で使う重回帰分析の公式とその導出過程を詳細にまとめた関連記事を紹介します。しっかり確認しましょう。

なお、本記事では、わかりやすさを優先するために、説明変数が2つの場合について解説します。

おさえておきたい公式

●平方和の分解
\(S_T\)=\(S_R\)+\(S_{e}\)
(総平方和)=(回帰平方和)+(残差平方和)

●回帰平方和
\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)

●平方和
・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)

●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
から
\(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
\(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

すべて、計算で解けます。公式暗記は禁物です。解けない場合は関連記事で解けるようにしましょう！

平方和の分解と分散分析ができる(重回帰分析)
重回帰分析の分散分析をする際にデータの構造式を使って平方和の分解が自力で計算できますか？本記事では公式暗記に頼りがちな重回帰分析の分散分析の解析までの流れを途中経過を一切端折らず丁寧に解説します。多変量解析を学ぶ人は必読です。

変わるものと変わらないものがある

ここで、説明変数\(x_1\)の単位が変わって

\(x_1’\)=\(ax_1\) (\(a\)は定数倍)

に変化したとしましょう。

すると、結論は、

●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●総平方和、回帰平方和、残差平方和は変わらない。
となります。

事例

実際に下表データにおいて、説明変数\(x_1\)を1/100に変えて、それぞれ重回帰分析しましょう。下表では、左側から右側を比較しましょう。

x1	x2	y	⇒	x1′	x2	y
1	3	3	⇒	0.01	3	3
4	2	4	⇒	0.04	2	4
2	4	4	⇒	0.02	4	4
5	4	7	⇒	0.05	4	7
4	5	7	⇒	0.04	5	7
2	6	5	⇒	0.02	6	5

重回帰分析すると下の結果になります。一度、計算して確かめてみてください！いい練習になります！

	\(x_1\)の場合	\(x_1’\)=\(\frac{x_1}{100}\)の場合
y切片\(β_0\)	-0.429	-0.429
\(x1\)の傾き\(β_1\)	0.891	89.076
\(x1\)の傾き\(β_2\)	0.691	0.691
総平方和\(S_T\)	14	14
回帰平方和\(S_R\)	8.333	8.333
残差平方和\(S_e\)	5.667	5.667

確かに、

●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
(今回は\(a=1/100\))
●\(x_2\)の回帰直線の傾きは変わらない。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

この理由を数式で証明しましょう。数式で理解するとよくわかります!

➁単位を変えた説明変数の傾きだけが変わる理由

傾きを導出する式

上で紹介した式を再掲します。

●平方和
・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)

●傾き\(β_1\)、\(β_2\)の導出
\(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
\(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

ここで、説明変数\(x_1\)が\(x_1’\)に変化するので、回帰直線の傾きも変化するかもしれません。なので、\(β_1\)⇒\(β_1’\)、\(β_2\)⇒\(β_2’\)とします。

説明変数は
●\(x_1’\)=\(ax_1\)
●\(x_2’\)=\(x_2\)
ですから、平方和の式に代入しましょう。

平方和の変化

代入します。

●平方和
・\(S_{1’1’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x’_1})^2\)
=\(\sum_{i=1}^{n}(ax_1-\bar{ax_1})^2\)
=\(a^2\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
=\(a^2 S_{11}\)
ですね。

あと同様に、
・\(S_{2’2’}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})^2\)
=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
=\(S_{22}\)

・\(S_{1’2’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(x_2’-\bar{x_2’})\)
=\(\sum_{i=1}^{n}(ax_1-\bar{ax_1})(x_2-\bar{x_2})\)
=\(a\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
=\(a_S{12}\)

・\(S_{1’y}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(y-\bar{y})\)
=\(a S_{1y}\)
・\(S_{2’y}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})(y-\bar{y})\)
=\(S_{2y}\)

まとめると
●\(S_{1’1’}\)=\(a^2 S_{11}\)
●\(S_{2’2’}\)=\(S_{22}\)
●\(S_{1’2’}\)=\(a_S{12}\)
●\(S_{1’y}\)=\(a S_{1y}\)
●\(S_{2’y}\)=\(S_{2y}\)
となります。

単位を変えた説明変数の傾きだけが変わる理由

傾きの式に\(x_1’\),\(x_2’\)を代入します。

回帰直線の傾き\(β_1’\)

\(β_1’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (S_{2’2’} S_{1’y} – S_{1’2’} S_{2’y})\)
=\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (a S_{22} S_{1y} – a S_{12} S_{2y})\)
=\(\frac{1}{a}\frac{1}{S_{11} S_{22} – S_{12}^2} ( S_{22} S_{1y} – S_{12} S_{2y})\)
=\(\frac{1}{a} β_1\)
となりますね。

回帰直線の傾き\(β_2’\)

\(β_2’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (-S_{1’2’} S_{1’y} +S_{1’1’} S_{2’y})\)
=\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (-a^2 S_{12} S_{1y} +a^2 S_{11} S_{2y})\)
=\(\frac{1}{ S_{11} S_{22} –S_{12}^2} (-S_{12} S_{1y} + S_{11} S_{2y})\)
=\(β_2\)
となりますね。

つまり、

●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
となります。

➂単位を変えても回帰、残差平方和は変化しない

平方和の分解

平方和の式を書きましょう。関連記事にもあるように、

モデル式 (\(y-\bar{y}\))=(\(\hat{y}-\bar{y}\))+(\(y-\hat{y}\))は
(\(\hat{y}\)は回帰直線上にのる値)
\(\sum_{i=1}^{n} (y-\bar{y})^2\)=\(\sum_{i=1}^{n} (\hat{y}-\bar{y})^2\)+\(\sum_{i=1}^{n} (y-\hat{y})^2\)
となり、
\(S_T\)=\(S_R\)+\(S_e\)
ですね。

平方和、回帰平方和、残差平方和は変化しない

実は、説明変数\(x_i\)が変化して影響を受けるのは、\(\hat{y}\)がある成分です。

よって、

●総平方和\(S_T\)は変わらない

回帰平方和\(S_R\)を計算

次に回帰平方和\(S_R\)を計算しましょう。

\(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
ですから、
\(S_R\)=\(β_1’ S_{1’y}\)+\(β_2’ S_{2’y}\)
とすると、
=\(\frac{1}{a}β_1 a S_{1y}\)+\(β_2 S_{2y}\)
=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
\(S_R\)
となります。よって、

●回帰平方和\(S_R\)は変わらないし
●残差平方和\(S_e\)=\(S_T\)-\(S_R\)も変わらない
つまり、各平方和の成分は変化しないとわかります。

ちゃんと証明できましたね。結論を再掲すると

●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
●\(x_2\)の回帰直線の傾きは変わらない。
●総平方和、回帰平方和、残差平方和は変わらない。
となっていますね。

まとめ

「重回帰分析は単位に影響されない理由がわかる」を解説しました。

①単位を変えた場合
➁単位を変えた説明変数の傾きだけが変わる理由
➂単位を変えても回帰、残差平方和は変化しない

重回帰分析

2023年2月1日

重回帰分析の多重共線性がわかる

「多重共線性がわからない」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析の多重共線性がわかる

おさえておきたいポイント

①多重共線性がわかる
➁説明変数が２つの場合の多重共線性
➂説明変数が３つの場合の多重共線性
➃多重共線性より重回帰分析の結果の妥当性を考えるべき

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

[themoneytizer id=”105233-2″]

①多重共線性がわかる

多重共線性とは

多重共線性を簡単に説明すると、

説明変数と目的変数は正（または負）の相関があるのに、
重回帰モデルを作ると係数が負（または正）と逆の符号がついてしまうこと

例として（あとで事例紹介しますが、）
説明変数\(x_1,x_2\)と目的変数\(y\)があります。
説明変数と目的変数には、
●\(ρ_{x1y}\)=0.772 (正の相関)
●\(ρ_{x1y}\)=0.801 (正の相関)
とあるのに、回帰式を解くと、
\(y\)=\(3.1\)-0.1<\mark>\(x_1+0.4x_2\)
と負の係数がついてしまう現象のことです。

説明変数\(x_1,x_2\)も目的変数\(y\)は正の相関があるわけですから、
●\(x_1\)が増加すれば\(y\)も増加するはず
●\(x_2\)が増加すれば\(y\)も増加するはず
ですが、

回帰式は
●\(x_1\)が増加すれば\(y\)は減少する式になっています。

重回帰分析しないと多重共線性はわからない

厄介なことに

多重共線性が起こる条件式は作れない。
重回帰分析の結果オーライ的なところがある

なので、解析するしかありません。

ただし、よく言われるのが、

目的変数間の相関係数が大きい場合、多重共線性になりやすい

この性質を活用して、多重共線性が起こる場合と起きない場合の事例をこれから解説します。

➁説明変数が２つの場合の多重共線性

回帰直線と係数の求め方

説明変数が２つの場合においては、関連記事に説明していますので、ご確認ください。

重回帰分析の回帰式が導出できる
重回帰分析の回帰式は自力で導出できますか？本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

計算結果だけ書くと

●y切片 \(β_0\)の導出
\(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
から計算し、
●傾き\(β_1\)、\(β_2\)の導出
\(S_{11}b+S_{12}c\)=\(S_{1y}\)
\(S_{12}b+S_{22}c\)=\(S_{2y}\)
を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます！

つまり、

●傾き\(β_1\)、\(β_2\)の導出
\(β_1\)=\(\frac{1}{S_{11} S_{22} -S_{12}^2}(S_{22} S_{1y}- S_{12} S_{2y})\)
\(β_2\)=\(\frac{1}{S_{11} S_{22} -S_{12}^2}(-S_{12} S_{1y}+ S_{11} S_{2y})\)

なお、

●寄与率R=\(\frac{S_{12}^2}{S_{11} S_{22}}\) ≤ 1より
\( S_{11} S_{22} -S_{12}^2\) ≥0 なので、

傾き\(β_1\)、\(β_2\)の正負は、分子の
●\(β_1\)⇒\((S_{22} S_{1y}- S_{12} S_{2y})\)
●\(β_2\)⇒\(-S_{12} S_{1y}+ S_{11} S_{2y}\)
の正負で決まりますね。

多重共線性が無い事例

下表のデータを用意します。

x1	x2	y
1	3	3
4	2	4
2	4	4
5	4	7
4	5	7
2	6	5

さて、ここで問題です。

【問題】
上表において、回帰直線
\(y\)=\(a+bx_1 +cx_2\)の
定数\(a,b,c\)を求めよ。

良問なので是非解いてみてください。

結果は
\(y\)=\(-0.429 +0.891x_1 +0.689x_2\)
回帰平方和\(S_R\)=13.04
残差平方和\(S_e\)=0.960
総平方和\(S_T\)=14
です。

●説明変数\(x_1\)と目的変数\(y\)との相関関係
●説明変数\(x_2\)と目的変数\(y\)との相関関係
●説明変数\(x_1\)と説明変数\(x_2\)との相関関係
をそれぞれ見ると下図のようになります。

たしかに、
●説明変数\(x_1\)と目的変数\(y\)とは、正の相関関係
●説明変数\(x_2\)と目的変数\(y\)とは、正相関関係
●説明変数\(x_1\)と説明変数\(x_2\)は相関性なし
がわかりますね。

回帰式の傾きの値も相関関係と同じ正になりました。この場合は多重共線性にならないとなります。

多重共線性が起きる事例

では、先の表の\(x2\)を下表のように値をあえて変えてみましょう。

x1	x2	y
1	2	3
4	8	4
2	5	4
5	10	7
4	7	7
2	4	5

値の違いを図で確認しましょう。

つまり、

説明変数\(x1,x2\)の相関係数を1にあえて近づけてみました。

さて、ここでも問題です。

【問題】
上表において、回帰直線
\(y\)=\(a+bx_1 +cx_2\)の
定数\(a,b,c\)を求めよ。

良問なので是非解いてみてください。

結果は
\(y\)=\(2.9 +2.3x_1 \)-0.8\(x_2\)
回帰平方和\(S_R\)=8.33
残差平方和\(S_e\)=5.67
総平方和\(S_T\)=14
です。

たしかに、
●説明変数\(x_1\)と目的変数\(y\)とは、正の相関関係
●説明変数\(x_2\)と目的変数\(y\)とは、正相関関係
●説明変数\(x_1\)と説明変数\(x_2\)とは、正相関関係
がわかりますね。

ところが、回帰式の傾きの１つが逆符号の結果になりましたね。この場合は多重共線性になったとなります。

多重共線性が起こる理由

結局

傾き\(β_1\)、\(β_2\)の正負は、分子の
●\(β_1\)⇒\((S_{22} S_{1y}- S_{12} S_{2y})\)
●\(β_2\)⇒\(-S_{12} S_{1y}+ S_{11} S_{2y}\)
の正負で決まりますね。

実際に重回帰分析しないと傾きの正負と相関関係の正負の一致・不一致はわからない。ただ、相関性の強い説明変数を用意すると多重共線性が起こることが確認できました。

２変数でも多重共線性が起こることがわかりましたし、手計算できるレベルなので、実際解くと実感がわくはずです。

次は、教科書によく出て来る、説明変数3つの場合について解説します。変数の種類が増えただけで考え方は同じです。

➂説明変数が３つの場合の多重共線性

多重共線性が無い事例

実は、本音で言うと

説明変数が３つの場合の多重共線性が無いデータを用意するのは結構大変

頑張って探しました！

–	ｘ１	x2	x3	y
1	2	5	4	21
2	0	4	10	15
3	3	10	8	32
4	11	15	26	60
5	14	8	15	33
6	8	8	14	50
sum	38	50	77	211
ave	6.33	8.33	12.83	35.17

互いの相関係数を計算します。

相関係数ρ	x1	x2	x3
x1	1	0.591	0.724
x2	0.591	1	0.805
x3	0.724	0.805	1
y	0.684	0.865	0.828

回帰直線と分散分析を求めます。Excelやpython使いましょう。手計算はキツイです。

ー	平方和	自由度	平均平方	F	ー	係数
回帰	1183.448	3	394.483	2.865	切片	4.234
残差	275.385	2	137.692	ー	X 値 1	0.524
合計	1458.833	5	ー	ー	X 値 2	2.442
ー	ー	ー	ー	ー	X 値 3	0.566

たしかに、どの傾きの値も正で、相関係数の正と一致していますね。これは確かに多重共線性が起きていません。

多重共線性が起きる事例

では、\(x_2\)のデータを変えてみましょう。変えたことによって相関係数の変化と回帰直線の傾きの値に注目です。

–	ｘ１	x2	x3	y
1	2	4	4	21
2	0	1	10	15
3	3	5	8	32
4	11	18	26	60
5	14	30	15	33
6	8	15	14	50
sum	38	73	77	211
ave	6.333	12.167	12.833	35.167

マーカー部が変化したところです。相関係数も解きましょう。

相関係数ρ	x1	x2	x3
x1	1	0.982	0.724
x2	0.982	1	0.616
x3	0.724	0.616	1
y	0.684	0.546	0.828

確かに、マーカー部の相関係数は１に上がったのがわかりますね。

そうすると、分散分析と回帰直線の傾きを計算すると、下表になります。

ー	平方和	自由度	平均平方	F	ー	係数
回帰	1351.303	3	450.434	8.378	切片	21.524
残差	107.53	2	53.765	ー	X 値 1	13.577
合計	1458.833	5		ー	X 値 2	-5.831
ー	ー	ー	ー	ー	X 値 3	-0.109

確かに、正の相関係数であるが、回帰直線の傾きは負になる多重共線性が起こることがわかりますね。

多重共線性が起こる理由

計算して結果オーライなので、数学的に理由を説明するのは難しいですね。

➃多重共線性より重回帰分析の結果の妥当性を考えるべき

多重共線性が起こる・起こらないより
結果の妥当性やその結果になる原因や因果関係を
考察する方がはるかに重要です。

解析方法は手段にすぎません。目的を明確に結果を考えるようにしましょう。

まとめ

「重回帰分析の多重共線性がわかる」を解説しました。

①多重共線性がわかる
➁説明変数が２つの場合の多重共線性
➂説明変数が３つの場合の多重共線性
➃多重共線性より重回帰分析の結果の妥当性を考えるべき

重回帰分析

2023年1月31日

偏相関係数が導出できる

「偏相関係数の導出がわからない」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

偏相関係数が導出できる

おさえておきたいポイント

①偏相関係数とは
➁偏相関係数が導出できる
➂偏相関係数を計算する

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

①偏相関係数とは

偏相関係数とは

変数\(x\)と変数\(y\)はある程度の相関関係があり、
変数\(x\)と変数\(z\)にもある程度の相関関係があるとします。

その場合、変数\(y\)と変数\(z\)の間にも相関関係がありますが、
変数\(x\)の影響が含まれています。

変数\(x\)の影響を含まない、
変数\(y\)と変数\(z\)の相関関係を
偏相関係数といいます。

図で描くと、下図のイメージです。

偏相関係数の式

偏相関係数の式は下の式になります。

\(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)

でも、

なんじゃこりゃ！
公式暗記も厳しい!

なので、

導出過程を理解して
偏相関係数の式を理解しましょう。

➁偏相関係数が導出できる

偏相関係数の式の理解する方法

導出過程は以下のとおりです。流れで理解しましょう。

\(y(x)\),\(z(x)\)の回帰式を作る
相関係数\(ρ\),標準偏差\(σ\)と平方和\(S\)の関係式を駆使して、相関係数\(ρ\)だけで表現した偏相関係数の式を求める
\(y(x)\),\(z(x)\)の残差(\(x\)に影響しない誤差の部分)どうしの相関係数が偏相関係数である

では、導出していきます。

1.回帰式を作る

\(y\),\(z\)について\(x\)についての回帰モデルを作ります。その残差を\(y’\),\(z’\)とします。

回帰式を書くと、それぞれ
●\(\hat{y}\)=\(\bar{y}\)+\(a(x-\bar{x})\)
●\(\hat{z}\)=\(\bar{z}\)+\(b(x-\bar{x})\)
になります。これは単回帰分析の領域なので簡単ですね。

なお、\(y\),\(z\)と回帰成分\(\hat{y}\),\(\hat{z}\)と残差成分\(y’\),\(z’\)には、
●\(y\)=\(\hat{y}\)+\(y’\)
●\(z\)=\(\hat{z}\)+\(z’\)
の関係があるので、

残差を\(y’\),\(z’\)は
●\(y’\)=\(y\)-(\(\bar{y}\)+\(a(x-\bar{x})\))
●\(z’\)=\(z\)-(\(\bar{z}\)+\(b(x-\bar{x})\))
となります。この式を使っていきます。

2.関係式をまとめる

相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式

相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式を挙げます。導出できるので、暗記不要です。

相関係数\(ρ\)は2者間つまり単回帰分析の相関係数なので、
\(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
ですね。これは簡単です。

ここで、平方和の式を展開すると、
●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(nσ_x^2\)
●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)=\(nσ_y^2\)
(平方和を個数で割ると、分散。分散の平方根は標準偏差の関係を式にしています。

すると、
\(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
\(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{n} σ_x \sqrt{n}σ_y }\)
よって
\(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
となります。

回帰式の傾き\(a,b\)を\(ρ,σ\)で表現

また、回帰式の傾き\(a,b\)を\(ρ,σ\)で表現します。
●\(a\)=\(\frac{S_{xy}}{S_{xx}}\)
=\(\frac{ρ_{xy} n σ_x σ_y }{ nσ_x^2}\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
●\(b\)=\(\frac{S_{xz}}{S_{xx}}\)
=\(\frac{ρ_{xz} n σ_x σ_z }{ nσ_x^2}\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)
と表現します。

関係式をまとめます。あとで必要なので、

【関係式】
(1)平方和について
●\(S_{xx}\)=\(nσ_x^2\)
●\(S_{yy}\)=\(nσ_y^2\)
●\(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
(2)傾きについて
●\(a\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
●\(b\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)

では、偏相関係数の式を導出します。

3.偏相関係数を導出する

偏相関係数を導出する最初の式は
\(y’\)と\(z’\)の相関係数を求める式なので、単純に
\(ρ_{y’z’}\)=\(\frac{S_{y’z’}}{\sqrt{S_{y’y’} S_{z’z’}}}\) (式1)

あとは、平方和\( S_{y’y’}\),\( S_{z’z’}\), \( S_{y’z’}\)を\(ρ\)だけの式になるように変形していきます。

平方和の式を整理

(式1)において、平方和を展開します。
●\( S_{y’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})^2\)
=\(\sum_{i=1}^{n}(y’_i)^2\)
(ここで、残差の平均\(\bar{y’}\)は０になります)
=\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))^2\)
=\(\sum_{i=1}^{n}(y-\bar{y})^2\)-\(2a\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)+\(a^2\sum_{i=1}^{n}(x-\bar{x})^2\)

よく見ると、それぞれ
=\(S_{yy}\)-\(2aS_{xy}\)+\(a^2S_{xx}\)
\(S\)を\(ρ,σ\)で表現すると、
=\(nσ_y^2\)-\(2aρ_{xy} n σ_x σ_y\)+\(a^2 nσ_x^2\)
\(a\)を\(ρ,σ\)で表現すると、
=\(nσ_y^2\)-\(2(ρ_{xy}\frac{σ_y}{σ_x})ρ_{xy} n σ_x σ_y\)+\((ρ_{xy}\frac{σ_y}{σ_x})^2 nσ_x^2\)
=\(nσ_y^2\)-\(2ρ_{xy}^2 n σ_y\)+\(ρ_{xy}^2 σ_y^2 n\)
=\(nσ_y^2 (1-ρ_{xy}^2)\)
となります。

同様に
●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
とy→zに変えるだけでＯＫです。

●\( S_{z’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})(z’_i-\bar{z’})\)
=\(\sum_{i=1}^{n}y’_i z’_i\)
(ここで、残差の平均\(\bar{y’}\),\(\bar{z’}\)は０になります)
=\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))((z-\bar{z})-b(x-\bar{x}))\)
=\(\sum_{i=1}^{n}(y-\bar{y})(z-\bar{z})\)-\(b\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)
-\(a\sum_{i=1}^{n}(x-\bar{x})(z-\bar{z})\)+\(ab\sum_{i=1}^{n}(x-\bar{x})^2\)
=\(S_{yz}\)-\(bS_{xy}\)-\(aS_{xz}\)+\(abS_{xx}\)
\(S\)を\(ρ,σ\)で表現すると、
=\(ρ_{yz} n σ_y σ_z\)-\(bρ_{xy} n σ_x σ_y\)-\(aρ_{xz} n σ_x σ_z\)+\(abnσ_x^2\)
\(a,b\)を\(ρ,σ\)で表現すると、
=\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xz}\frac{σ_z}{σ_x}\)\(ρ_{xy} n σ_x σ_y\)
-\(ρ_{xy}\frac{σ_y}{σ_x}\)\(ρ_{xz} n σ_x σ_z\)
+\(ρ_{xy}\frac{σ_y}{σ_x} ρ_{xz}\frac{σ_z}{σ_x}\)\(nσ_x^2\)
=\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)+\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
=\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
=\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

●平方和を整理すると
●\( S_{y’y’}\)=\(nσ_y^2 (1-ρ_{xy}^2)\)
●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
●\( S_{z’y’}\)=\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

偏相関係数\(ρ_{y’z’}\)の導出

ここまで来たら、ゴールはもうすぐです。

\(ρ_{y’z’}\)=\(\frac{ S_{z’y’}}{\sqrt{ S_{y’y’} S_{z’z’}}}\)
=\(\frac{ n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})}{\sqrt{ nσ_y^2 (1-ρ_{xy}^2) nσ_z^2 (1-ρ_{xz}^2)}}\)
=\(\frac{ ρ_{yz}-ρ_{xy} ρ_{xz}}{\sqrt{ (1-ρ_{xy}^2) (1-ρ_{xz}^2)}}\)

\(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
になりましたね！

偏相関係数\(ρ_{y’z’}\)は\(ρ_{yz,x}\)と書くこともあります。

ちゃんと導出できましたね！

偏相関係数\(ρ_{y’z’}\)の導出の大事なポイント

\(y(x)\),\(z(x)\)の回帰式を作る
\(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する
\(ρ\)だけの文字式で整理する

\(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する過程を理解することが最も大切です。公式暗記は不要ですね。

➂偏相関係数を計算する

せっかくなので、具体的な偏相関係数の値を求めてみましょう。

データ事例

下のデータを例に挙げます。別にどんなデータでも構いません。

No	年齢x	睡眠時間y	点数z
1	10	8	56
2	12	7	62
3	14	7.5	64
4	13	9	68
5	10	6.5	72
6	25	6	76
7	22	6.5	80
8	24	7	82
9	22	5.5	84
10	16	7	90

10人（年齢、睡眠時間ばらばら）であるテストを実施した結果とします。
年齢xと点数z、睡眠時間yと点数z、年齢xと睡眠時間yの関係を考えます。

相関係数を計算

互いの相関係数を計算しましょう。（計算してみてください）

平方和	値	相関係数	値
Sxx	311.6	Rxy	0.343
Syy	9	ρxy	-0.585
Szz	1064.4	Rxz	0.456
Sxy	-31	ρxz	0.675
Sxz	388.8	Ryz	0.304
Syz	-54	ρyz	-0.552

偏相関係数を計算

2者間の相関係数を求める際、もう１つの影響を除去した偏相関係数をそれぞれ計算してみましょう。
●\(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
=-0.262
●\(ρ_{xz,y}\)=\(\frac{ρ_{xz}-ρ_{xy}ρ_{yz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{yz}^2}}\)
=0.521
●\(ρ_{xy,z}\)=\(\frac{ρ_{yz}-ρ_{xz}ρ_{xy}}{\sqrt{1-ρ_{xz}^2} \sqrt{1-ρ_{xy}^2}}\)
=-0.356

一応値はでますが、フーんな感じですよね。
ただ、偏相関係数がほぼ0の場合は、２者間に相関係数がある程度の値をもっていたとしても相関関係がないことがわかります。

２者間の相関関係を調べる時に活用する偏相関係数がよくわかりましたね。

まとめ

「偏相関係数が導出できる」を解説しました。

①偏相関係数とは
➁偏相関係数が導出できる
➂偏相関係数を計算する

重回帰分析

2023年1月30日

重回帰分析の推定区間の式が導出できる(その2）

「重回帰分析の推定区間の式の導出がわからない」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析の推定区間の式が導出できる(その2）

おさえておきたいポイント

①推定区間の式(その１）
➁導出に必要な関係式を導出(その１）
➂傾き\(β_j\)の期待値が導出できる(その１）
➃傾き\(β_j\)の分散が導出できる(その2）
➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）
⑥推定区間の式が導出できる(その2）

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

2回に分けて解説！
「➄傾き\(β_j\)の共分散が導出できる」
は完全に証明できていないので、QCプラネッツの宿題となっています(笑)

①推定区間の式(その１）

➁導出に必要な関係式を導出(その１））

➂傾き\(β_j\)の期待値が導出できる(その１））

期待値の導出までは、関連記事「重回帰分析の推定区間の式が導出できる(その1）」で解説済です。読んでください。本記事は続編を解説します。

重回帰分析の推定区間の式が導出できる(その１）
重回帰分析の推定区間の式は導出できますか？公式代入だけで終わっていませんか？本記事では２記事にわたり、重回帰分析の推定区間の式が導出をわかりやすく解説します。多変量解析を学ぶ人は必読です。

では、分散の導出に行ってみよう！

➃傾き\(β_j\)の分散が導出できる(その2）

（復習）大事な関係式を再掲

関連記事「重回帰分析の推定区間の式が導出できる(その1）」で解説しましたが、本記事でも扱うので再掲します。

\(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)

\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
となります。この関係式をあとで使います。

分散の式を作る

では行きましょう。傾き\(β_j\)の分散は
V[\(β_j\)]
=V[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
=(式1)
ですね。では行きますね。

(式1)を展開していきます。
(式1)=
V[\(\sum_{k=1}^{p} S^{jk}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(y_i-\bar{y})\)]
=(式2)

(式2)の中の
\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)\((y_i-\bar{y})\)
=\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)-\(\bar{y}\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)
で第２項の\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)=0なので、
\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)\((y_i-\bar{y})\)=\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)
です。これを(式2)に代入します。

(式2)
= V[\(\sum_{k=1}^{p} S^{jk}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)]
=V[\(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}) y_i )\)]
=(式3)
とxについての項だけでまとめます。

(式3)について、xについての項は定数扱いなので、２乗にしてV[ ] の外に出せます。
(式3)= \(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}))^2\)V[\(y_i\)]
=\(σ^2\)\(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}))^2\)
=(式4)
(V[\(y_i\)]=\(σ^2\)を代入しました。)

(式4)は
(式4)= \(σ^2\)\(\sum_{i=1}^{n} \sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k})\)\(\sum_{l=1}^{p} S^{jl} (x_{il}-\bar{x_l})\)
=\(σ^2\)\(\sum_{k=1}^{p} \sum_{l=1}^{p}\)\( S^{jk} S^{jl}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(x_{il}-\bar{x_l})\)
=(式5)

(式５)で、\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(x_{il}-\bar{x_l})\)=\(S_{kl}\)なので、代入すると
(式5)
=\(σ^2\)\(\sum_{k=1}^{p} \sum_{l=1}^{p}\)\( S^{jk} S^{jl}\)\(S_{kl}\)
=\(σ^2\)\(\sum_{k=1}^{p} S^{jk} δ_{jk}\)
=\(σ^2\)\(S^{jj}\)

出ました！まとめると、

V[\(β_j\)]=\(σ^2\)\(S^{jj}\)

まとめると、
V[\(β_j\)]=\(σ^2\)\(S^{jj}\)

➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）

実は、これはまだよくわかっていませんが、

V[\(β_j\)]=\(σ^2\)\(S^{jj}\)
V[\(β_j\)]=Cov(\(β_j\),\(β_j\))=\(σ^2\)\(S^{jj}\)
と見立てると
Cov(\(β_i\),\(β_j\))=\(σ^2\)\(S^{ij}\)
とできる！

ちょっと強引だし、「何で？」となるので、わかり次第報告しますが、この式を使わせていただきます。

⑥推定区間の式が導出できる(その2）

だいぶ準備かけましたが、いよいよ推定区間の式を導出しましょう。

推定区間の式

目的変数\(y\)は
\(y\)=\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)
ですね。この値の分散V[\(y\)]を計算しましょう。マハラビノス距離が出て来ます。

分散V[\(y\)]を計算

V[\(y\)]=V[\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)]
=V[\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)]
とマーカで３つに分けます。分散を展開すると
V[\(y\)]=V[\(\bar{y}\))]+V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+V[\(ε\)]
+2Cov(\(\bar{y}\)),\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\))
+2Cov(\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\),\(ε\))
+2Cov(\(\bar{y}\),\(ε\))

ここで、\(\bar{y}\),\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\),\(ε\)は互いに独立と仮定するので、共分散Covはすべて0になります。

また、
●V[\(\bar{y}\)]=V[\(\frac{y}{n}\)]=\(\frac{1}{n}\)V[\(y\)]=\(\frac{σ^2}{n}\)
●V[\(ε\)]=\(σ^2\)
代入すると

V[\(y\)]
= V[\(\bar{y}\))]+V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+V[\(ε\)]
=\(\frac{σ^2}{n}\)+ V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+\(σ^2\)
=(式6)となります。

あとは、
V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
=(式7)
を計算すればよいことになります。やってみましょう。

(式7)を計算して、V[\(y\)] =(式6)をまとめましょう。

(続)分散V[\(y\)]を計算

(式7)において、まず\((x_i-\bar{x_i})\)は定数扱いなので、分散V、共分散Covの外側に出せます。分散の加法性を使って、めっちゃ展開します。

(式7)= V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
=\(\sum_{i=1}^{p}\)\((x_i -\bar{x_i})^2 \)V[\(β_i\)]
+\(\sum_{i=1}^{p-1}\)\(\sum_{j=1}^{p}\)\((x_i -\bar{x_i})(x_j -\bar{x_j})\)Cov(\(β_i,β_j\))
=(式8)
第１項目は同じ添え字を掛け算するp個について、第２項目は違う添え字同士で共分散を求めるp(p-1)個についてまとめました。ちょっと難しいけど、時間かけて確認ください。いい勉強になります！

(式8)にV[\(β_i\)]=\(σ^2 S^{ii}\), Cov(\(β_i,β_j)\)=\(σ^2 S^{ij}\)を代入すると、
(式8)= \(\sum_{i=1}^{p}\)\((x_i -\bar{x_i})^2 \)\(σ^2 S^{ii}\)
+\(\sum_{i=1}^{p-1}\)\(\sum_{j=1}^{p}\)\((x_i -\bar{x_i})(x_j -\bar{x_j})\)\(σ^2 S^{ij}\)
=(式9)

一旦、(式9)の\(σ^2\)は外した残りを計算しましょう。（式9’）とします。

(式９’)は行列表記できます。
\((x_i -\bar{x_i})^2 S^{ii}\)=\((x_i -\bar{x_i}) S^{ii} (x_i -\bar{x_i})\)
\((x_i -\bar{x_i})(x_j -\bar{x_j}) S^{ij}\)=\((x_i -\bar{x_j}) S^{ij} (x_i -\bar{x_j})\)
という形を意識すると、

(式9’)=
\(\begin{pmatrix}
x_1-\bar{x_1} & x_2-\bar{x_2} & \ldots & x_p-\bar{x_p}
\end{pmatrix}\)\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)\)\(\left(
\begin{array}{c}
x_1-\bar{x_1} \\
x_2-\bar{x_2} \\
\vdots \\
x_p-\bar{x_p}
\end{array}
\right)\)

とまとめることができ、この式こそ、マハラビノス距離\(D^2\)と表記できます。
(式9)=(式9’)×\(σ^2\)より
(式9)=\(σ^2\)\(D^2\)
となります。

よって
(式7)= V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
=\(\sum_{i=1}^{p}\)(\(x_i -\bar{x_i})^2 \)V[\(β_i\)]
=(式8,9)と計算して
=\(σ^2\)\(D^2\) (マハラビノス距離)
となります。

V[\(y\)]をまとめると

V[\(y\)] =(式6)
=\(\frac{σ^2}{n}\)+ V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+\(σ^2\)
=\(\frac{σ^2}{n}\)+ \(σ^2\)\(D^2\) +\(σ^2\)
=\(σ^2\)(\(1+\frac{1}{n}+D^2\))
とまとめることができます。

V[\(y\)]=\(σ^2\)(\(1+\frac{1}{n}+D^2\))

できましたね！

公式と比べるとちょっと違う？

結果を比較すると、
●V[\(y\)]=\(σ^2\)(\(1+\frac{1}{n}+D^2\)) (式11)
ですが、元々
●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\) (式12)
でしたよね。

よく見ると、(式12)を2乗して、\(σ^2\)=\(V_e\)として比較すると、
●V[\(y\)]=(\(1+\frac{1}{n}+D^2\)\(V_e\)) (式11A)
ですが、元々
●V[\(y\)]=(\(1+\frac{1}{n}+\frac{D^2}{n-1})V_e\) (式12A)
とちかづきますが、

上の式は\(D^2\)なのに、下の式は\(\frac{D^2}{n-1}\)
と違う？何で？　となりますね。

実は、

下の式のDは上の式のDの値に\(n-1)\)をかけたものとして定義しています。
なので、一緒です。おそらく、推定区間の式は\(Ve/ne\)とnで割ったように見せたいからと思われます。ちゃんと導出すると、別に要らないとわかりました。

QCプラネッツは別に、
V[\(y\)]=(\(1+\frac{1}{n}+D^2)\)\(V_e\))
としてもOKです。

と、細かくみてきましたが、ちゃんと、

\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
が導出できました。

目的変数\(y\)が
\(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
の信頼度(100-α)%の推定区間は、

\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
で与えられる。
(ただし、\(D\)はマハラビノス距離)

の導出がちゃんとできました！　めでたしめでたし！

導出が難しい式だからといって、暗記に走らず、ちゃんと導出しましょう。

まとめ

「重回帰分析の推定区間の式が導出できる(その2）」を解説しました。

①推定区間の式(その１）
➁導出に必要な関係式を導出(その１）
➂傾き\(β_j\)の期待値が導出できる(その１）
➃傾き\(β_j\)の分散が導出できる(その2）
➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）
⑥推定区間の式が導出できる(その2）

重回帰分析

2023年1月28日

重回帰分析の推定区間の式が導出できる(その１）

「重回帰分析の推定区間の式の導出がわからない」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析の推定区間の式が導出できる(その１）

おさえておきたいポイント

①推定区間の式(その１）
➁導出に必要な関係式を導出(その１）
➂傾き\(β_j\)の期待値が導出できる(その１）
➃傾き\(β_j\)の分散が導出できる(その2）
➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）
⑥推定区間の式が導出できる(その2）

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

2回に分けて解説！
「➄傾き\(β_j\)の共分散が導出できる」
は完全に証明できていないので、QCプラネッツの宿題となっています(笑)

①推定区間の式(その１）

推定区間の式を紹介

目的変数\(y\)が
\(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
の信頼度(100-α)%の推定区間は、

\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
で与えられる。
(ただし、\(D\)はマハラビノス距離)

なんですけど、本心

なんじゃこりゃ！

ですよね。

推定区間の式をよくみると

\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
はビビりますが、推定区間の式は基本

(平均)±t(自由度、α)\(\sqrt{V_e/n_e}\)

なので、
●(平均)＝\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
●t(\(n-p-1,α)\)=t(自由度、α)→t分布に従うことは理解できる
●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)って何なん？

となるので、

\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
を導出しましょう。

➁導出に必要な関係式を導出(その１）

後の導出で必要になる関係式を１つ解説します。

重回帰分析の回帰式の作り方については、関連記事で確認ください。

重回帰分析の回帰式が導出できる
重回帰分析の回帰式は自力で導出できますか？本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

平方和\(S_{ij}\)と\(S^{ij}\)

重回帰分析の回帰式は
\(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
で表現しますが、

実測値と回帰直線上の予測値の間の誤差が最小になる条件から回帰式の傾きやｙ切片を求めます。
具体的には最小２乗法を使うと、次の式ができます。行列を使いますが、

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

で表現できますね。なお、Sは各成分の平方和です。

逆行列を使って、\(β_i\)の各値を計算します。つまり、

\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

となります。

ここで、\(S^{ij}\)は逆行列のi行j列目の値で、添え字を上側とします。

平方和\(S_{ij}\)と\(S^{ij}\)の関係式

互いに逆行列の関係なので、実際に計算してみましょう。

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
1 & 0 & \ldots & 0 \\
0 & 1 & \ldots & 0 \\
\vdots & \vdots & \ddots & \vdots \\
0 & 0 & \ldots & 1
\end{array}
\right)
\)=E(単位行列)

実際に
●(i,j)=(1,1):\(S_{11}S^{11}\)+\(S_{12}S^{21}\)+…+\(S_{1p}S^{p1}\)=1
●(i,j)=(1,2):\(S_{11}S^{12}\)+\(S_{12}S^{22}\)+…+\(S_{1p}S^{p2}\)=0
…
●(i,j)=(1,p):\(S_{11}S^{1p}\)+\(S_{12}S^{2p}\)+…+\(S_{1p}S^{pp}\)=0
とjについて計算し、これをiについてどんどん具体的に計算しましょう。
●(i,j)=(2,1):\(S_{21}S^{11}\)+\(S_{22}S^{21}\)+…+\(S_{2p}S^{p1}\)=0
●(i,j)=(2,2):\(S_{21}S^{12}\)+\(S_{22}S^{22}\)+…+\(S_{2p}S^{p2}\)=1
…
●(i,j)=(2,p):\(S_{21}S^{1p}\)+\(S_{22}S^{2p}\)+…+\(S_{2p}S^{pp}\)=0
…
…
●(i,j)=(p,p):\(S_{p1}S^{1p}\)+\(S_{p2}S^{2p}\)+…+\(S_{pp}S^{pp}\)=1
となりますね。

展開式から規則性を探そう！

いっぱい式を展開しましたが、規則性を探すと

i=jの時は1、それ以外は0
デルタ関数っぽい条件式ができる

(左辺)の展開式は
\(\sum_{k=1}^{p}S_{ik} S^{kj}\)でまとめられる

シンプルな式でまとめると

\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
となります。この関係式をあとで使います。

丁寧に導出しましたが、ここを手抜きすると、後の導出の理解ができなくなります。下ごしらえは丁寧にやりましょう。

➂傾き\(β_j\)の期待値が導出できる(その１）

傾き\(β_j\)の式

傾きを計算する行列の式を再掲します。

\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(\left(
\begin{array}{cccc}
S^{11} & S^{12} & \ldots & S^{1p} \\
S^{21} & S^{22} & \ldots & S^{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S^{p1} & S^{p2} & \ldots & S^{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

ここで、j列にある\(β_j\)を求める式を抜き出すと
\(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)
ですね。

傾き\(β_j\)の期待値

上の式の期待値E[\(β_j\)]は、
E[\(β_j\)]=E[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
=(式1)
ですね。

ここで、

分布関数に従うのは誤差を含む\(y\)であり、\(x_i\)だけで作られた値はすべて定数扱いとするので、\(S^{jk}\)は定数とし、期待値Eの外に出せます。

(式1)
= \(S^{j1}\)E[\(S_{1y}\)]+ \(S^{j2}\)E[\(S_{2y}\)]+…+ \(S^{jk}\)E[\(S_{ky}\)]+…+ \(S^{jp}\)E[\(S_{py}\)]
=\(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
=(式2)
とまとめることができます。

関係式を代入して傾き\(β_j\)の期待値を計算

ここで、\(S_{ky}\)は、傾き\(β_j\)を求める行列の式から

\(\left(
\begin{array}{cccc}
S_{11} & S_{12} & \ldots & S_{1p} \\
S_{21} & S_{22} & \ldots & S_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
S_{p1} & S_{p2} & \ldots & S_{pp}
\end{array}
\right)
\)\(
\left(
\begin{array}{c}
β_1 \\
β_2 \\
\vdots \\
β_p
\end{array}
\right)
\)=\(
\left(
\begin{array}{c}
S_{1y} \\
S_{2y} \\
\vdots \\
S_{py}
\end{array}
\right)
\)

\(S_{ky}\)=\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)
と計算できるので、(式2)に代入します。

(式2)= \(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
=\(\sum_{k=1}^{p}S^{jk}\)E[\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)]
=(式3)

期待値Eの[　]の中は、変数\(x_i\)について値なので、定数扱いとしてE[ ] の外に出せます。よって(式3)は
(式3)= \(\sum_{k=1}^{p}S^{jk} S_{k1}\)\(β_1\)+\(\sum_{k=1}^{p}S^{jk} S_{k2}\)\(β_2\)+…+\(\sum_{k=1}^{p}S^{jk} S_{kp}\)\(β_p\)
=(式4)
となります。

上の「➁導出に必要な関係式を導出」で
●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
を(式4)に代入すると、

(式4)の中の\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)のみ(i=j)が
\(\sum_{k=1}^{p}S_{ik} S^{ki}\)=1×\(β_j\)
となり、それ以外(i≠j)は
\(\sum_{k=1}^{p}S_{ik} S^{ki}\)=0になるので和はすべて0です。
よって、まとめると
(式4) =\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)
=\(β_j\)
となります。

E[\(β_j\)]=\(β_j\)
なんて、当たり前じゃん！

ですが、分散の計算に必要な前座でもあるので、期待値を丁寧に導出しました。

では、分散の導出については、
関連記事「重回帰分析の推定区間の式が導出できる(その2）)で解説します。
次行ってみよう！

➃傾き\(β_j\)の分散が導出できる(その2）

➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）

⑥推定区間の式が導出できる(その2）

まとめ

「重回帰分析の推定区間の式が導出できる(その１）」を解説しました。

①推定区間の式(その１）
➁導出に必要な関係式を導出(その１）
➂傾き\(β_j\)の期待値が導出できる(その１）
➃傾き\(β_j\)の分散が導出できる(その2）
➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）
⑥推定区間の式が導出できる(その2）

重回帰分析

2023年1月27日

重回帰分析と単回帰分析の比較がわかる

「単回帰分析と重回帰分析では、どちらの寄与率が大きいかわからない」と困っていませんか？

こういう疑問に答えます。

本記事のテーマ

重回帰分析と単回帰分析の比較がわかる

おさえておきたいポイント

①重回帰分析と単回帰分析を比較
➁重回帰分析と単回帰分析で寄与率が等しい場合
➂重回帰分析の方が単回帰分析より寄与率が大きい場合
➃単回帰分析の方が重回帰分析より寄与率が大きい場合

[themoneytizer id=”105233-2″]

【QC検定®１級合格】回帰分析問題集を販売します！

QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。

【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します！内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の５章全４１題を演習できる問題集です。

多重共線性の話につながるテーマです。

①重回帰分析と単回帰分析を比較

目的変数データは同じで、説明変数の種類を変えて寄与率を比較

寄与率を比較するために、目的変数zは同じとし、
説明変数は
●単回帰分析はxのみ
●重回帰分析はx,yとし、
重回帰分析と単回帰分析のxデータも同じとし、
yの値の差によって、寄与率がどう変化するかを考えます。

イメージを下表に書きます。

単回帰分析		重回帰分析
x	z	x	y	z
1	3	1	??	3
4	4	4	??	4
2	4	2	??	4
5	7	5	??	7
4	7	4	??	7
2	5	2	??	5
寄与率	A	寄与率	B	A、Bどちらがおおきい？

公式を比較

まず、重回帰分析と単回帰分析において、それぞれの
●「データの構造式」
●「回帰直線」
●「回帰直線の傾き」
●「平方和」
●「寄与率」
について公式を確認しましょう。

公式は暗記ではなく、導出できます。関連記事で導出過程を確認しましょう。

単回帰分析の復習

回帰分析と相関係数をマスターする
回帰分析と相関係数。学びやすく、試験で点数化したい領域ですが、重要なポイントと回帰分析の導出を解説しました。本記事を一通りマスターしておけば試験では確実に点数とれます。

重回帰分析の復習

重回帰分析の回帰式が導出できる
重回帰分析の回帰式は自力で導出できますか？本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

公式を比較

下表にまとめます。あっさりした表ですが、個々の数式をすべて導出できるように上の関連記事で確認しましょう。

	単回帰分析	重回帰分析
データの構造式	\((z_i-\bar{z})\)=\((\hat{z_i}-\bar{x})\)+\((z_i-\hat{z_i})\)
回帰直線	\(z\)=\(α+βx\)	\(z\)=\(η+γx+δy\)
傾き	\(β\)=\(\frac{S_{xz}}{S_{xx}}\)	(*)
回帰平方和	\(S_{R1}\)=\(\frac{S_{xz}^2}{S_{xx}}\)	\(S_{R2}\)=\(γS_{xz}+δS_{yz}\)
総平方和	\(S_T\)=\(S_{zz}\)
寄与率R	R1=\(\frac{S_{R1}}{S_T}\)	R2=\(\frac{S_{R2}}{S_T}\)

上表の（＊）は、下の連立方程式を満たす解が傾き\(γ,δ\)となります。

\(S_{xx}γ+S_{xy}δ\)=\(S_{xz}\)
\(S_{xy}γ+S_{yy}δ\)=\(S_{yz}\)

寄与率を比較

上の表を使って,重回帰分析と単回帰分析の寄与率の差を比較しましょう。
ところで、寄与率Rを求める際、
\(R\)=\(\frac{S_R}{S_T}\)
ですが、単回帰分析も重回帰分析も目的変数のデータが同じ場合は、
どちらも、総平方和\(S_T\)=\(S_{zz}\)なので、
寄与率を求める分子の¥(S_R¥)について比較します。

–	平方和S	自由度φ
回帰R	\(S_R\)	k
e	\(S_{er}\)	n-k-1
T	\(S_T\)	n-1

–	S(単回帰)	S(重回帰)
R	8.33	8.33
e	5.67	5.67
T	14	14
寄与率	0.595	0.595

単回帰分析 (x,z)	平方和	自由度	重回帰分析 (x,y,z)	平方和	自由度
回帰R	8.33	1	回帰R	13.04	2
残差e	5.67	4	残差e	0.96	3
計T	14	5	計T	14	5

–	x1	x2	y	\(S_{11}\)	\(S_{1y}\)	\(S_{12}\)	\(S_{22}\)	\(S_{2y}\)	\(S_{yy}\)
–	1	2	3	6.25	-2.5	7.5	9	-3	1
–	2	3	2	2.25	0	3	4	0	0
–	3	4	1	0.25	0.5	0.5	1	1	1
–	4	6	1	0.25	-0.5	0.5	1	-1	1
–	5	7	2	2.25	0	3	4	0	0
–	6	8	3	6.25	2.5	7.5	9	3	1
合計	21	30	12	17.5	0	22	28	0	4

–	x1	x2	y(=3x₁+ 2x₂-1)	\(S_{11}\)	\(S_{1y}\)	\(S_{12}\)	\(S_{22}\)	\(S_{2y}\)	\(S_{yy}\)
–	1	2	6	6.25	33.75	7.5	9	40.5	182.25
–	2	3	11	2.25	12.75	3	4	17	72.25
–	3	4	16	0.25	1.75	0.5	1	3.5	12.25
–	4	6	23	0.25	1.75	0.5	1	3.5	12.25
–	5	7	28	2.25	12.75	3	4	17	72.25
–	6	8	33	6.25	33.75	7.5	9	40.5	182.25
合計	21	30	12	17.5	96.5	22	28	122	533.5

–	x1	x2	y	A= \(x_1\)-\(\bar{x_1}\)	B= \(x_2\)-\(\bar{x_2}\)	C= \(y-\bar{y}\)	\(A^2\)=\(S_{11}\)	\(AC\)=\(S_{1y}\)	\(AB\)=\(S_{12}\)	\(B^2\)=\(S_{22}\)	\(BC\)=\(S_{2y}\)	\(C^2\)=\(S_{yy}\)
–	3	1	3	-1	-2	-2	1	2	2	4	4	4
–	2	4	4	-2	1	-1	4	2	-2	1	-1	1
–	4	2	4	0	-1	-1	0	0	0	1	1	1
–	4	5	7	0	2	2	0	0	0	4	4	4
–	5	4	7	1	1	2	1	2	1	1	2	4
–	6	2	5	2	-1	0	4	0	-2	1	0	0
合計	24	18	30	0	0	0	10	6	-1	12	10	14
平均	4	3	5	–	–	–	↑\(S_{11}\)	↑\(S_{1y}\)	↑\(S_{12}\)	↑\(S_{22}\)	↑\(S_{2y}\)	↑\(S_{yy}\)

投稿者: QCプラネッツ

①説明変数が定数倍変化した場合

ダミー変数導入の時に本記事が必要

詳細は関連記事で確認

説明変数が定数倍変化した場合

➁説明変数が定数倍に定数値を加算した場合

理解に必要な公式と関連記事

事例

➂回帰直線の値と平方和の値の変化を数式で理解する

数式を準備する

平方和の変化

回帰直線の係数を計算

➃回帰、残差平方和は変化しない

平方和の分解

平方和、回帰平方和、残差平方和は変化しない

まとめ

①単位を変えた場合

理解に必要な公式と関連記事

変わるものと変わらないものがある

事例

➁単位を変えた説明変数の傾きだけが変わる理由

傾きを導出する式

平方和の変化

単位を変えた説明変数の傾きだけが変わる理由

➂単位を変えても回帰、残差平方和は変化しない

平方和の分解

平方和、回帰平方和、残差平方和は変化しない

まとめ

①多重共線性がわかる

多重共線性とは

重回帰分析しないと多重共線性はわからない

➁説明変数が２つの場合の多重共線性

回帰直線と係数の求め方

多重共線性が無い事例

多重共線性が起きる事例

多重共線性が起こる理由

➂説明変数が３つの場合の多重共線性

多重共線性が無い事例

多重共線性が起きる事例

多重共線性が起こる理由

➃多重共線性より重回帰分析の結果の妥当性を考えるべき

まとめ

①偏相関係数とは

偏相関係数とは

偏相関係数の式

➁偏相関係数が導出できる

偏相関係数の式の理解する方法

1.回帰式を作る

2.関係式をまとめる

3.偏相関係数を導出する

➂偏相関係数を計算する

データ事例

相関係数を計算

偏相関係数を計算

まとめ

①推定区間の式(その１）

➁導出に必要な関係式を導出(その１））

➂傾き\(β_j\)の期待値が導出できる(その１））

➃傾き\(β_j\)の分散が導出できる(その2）

（復習）大事な関係式を再掲

分散の式を作る

➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）

⑥推定区間の式が導出できる(その2）

推定区間の式

分散V[\(y\)]を計算

(続)分散V[\(y\)]を計算

公式と比べるとちょっと違う？

まとめ

①推定区間の式(その１）

推定区間の式を紹介

推定区間の式をよくみると

➁導出に必要な関係式を導出(その１）

平方和\(S_{ij}\)と\(S^{ij}\)

平方和\(S_{ij}\)と\(S^{ij}\)の関係式

➂傾き\(β_j\)の期待値が導出できる(その１）

傾き\(β_j\)の式

傾き\(β_j\)の期待値

関係式を代入して傾き\(β_j\)の期待値を計算

➃傾き\(β_j\)の分散が導出できる(その2）

➄傾き\(β_j\)の共分散が導出できる(研究中)(その2）