回帰分析と実験計画法の違いがよくわかる(繰返しデータ無しの場合)
「同じ分散分析でも、回帰分析と実験計画法ではどう違うの?」と疑問に思いませんか?
こういう疑問に答えます。
本記事のテーマ
おさえておきたいポイント
- ①単回帰分析による分散分析
- ➁単回帰分析による平方和の分解
- ➂繰返しのない一元配置実験による分散分析
- ➃平方和を分解して回帰分析と実験計画法を比較
回帰分析と実験計画法では
何が違うのか?何をそれぞれ見ているのか?
が気になりますね。
(気になってほしいです!)
なので、解説します!
(ii)データの構造式から「平方和の分解」を確認して
(iii)分散分析して
(iv)分散分析の結果を比較します!
①単回帰分析による分散分析
データの用意
例えば、下表のようなデータを用意します。
No | x | y |
1 | 0.15 | 8.05 |
2 | 1.2 | 4.05 |
3 | 2.08 | 5.77 |
4 | 2.42 | 11.2 |
5 | 4.82 | 20.17 |
6 | 5.93 | 17.21 |
7 | 6.15 | 15.22 |
8 | 6.5 | 18.38 |
9 | 7.32 | 30.59 |
10 | 8.45 | 8.99 |
合計 | 45.02 | 139.63 |
なお、各値は次の通りです(計算してみてください)。
●平方和\(S_{xx}\)=72.42
●平方和\(S_{yy}\)=579.34
●平方和\(S_{xy}\)=128.79
より、
●相関係数r=\(\frac{S_{xy}}{\sqrt{S_{xx} S_{yy}}}\)=0.629
●回帰平方和\(S_R\)=\(\frac{S_{xy}^2}{S_{xx}}\)=229.04
●残差平方和\(S_{er}\)=\(S_T\)-\(S_R\)=350.30
●総平方和\(S_T\)=\(S_{yy}\)=579.34
単回帰分析による分散分析
各平方和が計算出来たので、分散分析は下表のとおりになります。
回帰 | S | Φ | V |
R | 229.04 | 1 | 229.04 |
er | 350.3 | 8 | 43.79 |
T | 579.34 | 9 | – |
➁単回帰分析による平方和の分解
データの構造式
単回帰分析のデータの構造式を書いてみましょう。
文字式を以下のように定義します。
●データ→(\(x_i\),\(y_i\))
●平均→(\(\bar{x}\),\(\bar{y}\))
●回帰直線上のデータ→(\(x_i\),\(\hat{y_i}\))
下図のとおりです。
ポイントは、データ\(x_i\)と回帰直線上のデータ→\(x_i\)は同じである点です。平方和の分解で必要になってきます。
単回帰分析のデータの構造式は、
\(y_i – \bar{y}\)=(\(\hat{y_i} – \bar{y}\))+\((y_i -\hat{y_i}\))
となりますね。上図と見ながら確認しましょう。
なお、データの構造式を見ると
●全体:(\(y_i – \bar{y}\))
●回帰:(\(\hat{y_i} – \bar{y}\))
●残差:(\( y_i -\hat{y_i}\))
の成分に分けることができますね。これが分散分析できる理由になります。
平方和の分解
実際に、分散分析するときは、
総平方和\(S_T\)=回帰平方和\(S_R\)+残差平方和\(S_{er}\)
と分けますが、式で書くと
●総平方和:\(S_T\)=\(\sum_{i=1}^{n}(y_i – \bar{y})^2\)
●回帰平方和:\(S_R\)=\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})^2\)
●残差平方和:\(S_{er}\)=\(\sum_{i=1}^{n}( y_i -\hat{y_i})^2\)
となりますね。
では、
\(\sum_{i=1}^{n}(y_i – \bar{y})^2\)=\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})^2\)+\(\sum_{i=1}^{n}( y_i -\hat{y_i})^2\)
をちゃんと証明しましょう。
平方和の分解はQCにおいて、最重要です!
(左辺)を変形すると
(左辺)= \(\sum_{i=1}^{n}(y_i – \bar{y})^2\)
=\(\sum_{i=1}^{n}((\hat{y_i} – \bar{y}) + ( y_i -\hat{y_i}))^2\)
=\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})^2\)+2\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)+\(\sum_{i=1}^{n} ( y_i -\hat{y_i})^2\)
と展開すると、
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})^2\)=\(S_R\)
●\(\sum_{i=1}^{n} ( y_i -\hat{y_i})^2\)=\(S_{er}\)
ですが、
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)
はいくらでしょうか?
先のデータを使って実際に計算すると、下表のように合計0になります。すげえ!
No | x | y | A=\(y_i-\hat{y}\) | B=\(\hat{y}-\bar{y}\) | A×B |
1 | 0.15 | 8.05 | 1.83 | -7.74 | -14.14 |
2 | 1.2 | 4.05 | -4.04 | -5.87 | 23.73 |
3 | 2.08 | 5.77 | -3.89 | -4.31 | 16.74 |
4 | 2.42 | 11.2 | 0.94 | -3.7 | -3.48 |
5 | 4.82 | 20.17 | 5.64 | 0.57 | 3.19 |
6 | 5.93 | 17.21 | 0.71 | 2.54 | 1.8 |
7 | 6.15 | 15.22 | -1.67 | 2.93 | -4.91 |
8 | 6.5 | 18.38 | 0.86 | 3.55 | 3.07 |
9 | 7.32 | 30.59 | 11.62 | 5.01 | 58.21 |
10 | 8.45 | 8.99 | -11.99 | 7.02 | -84.21 |
合計 | 45.02 | 139.63 | 0 | 0 | 0 |
表から見ると、
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)=0だし、
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})\)=0だし、
●\(\sum_{i=1}^{n} ( y_i -\hat{y_i})\)=0となり、
0×0=0なんですよね!
これを証明します! 結構大事です!
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)=0の証明
まず、
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})\)
ですが、回帰直線上の点なので、
=\(\sum_{i=1}^{n}(\hat{β_0}+\hat{β_1}\)x\(i)\) – \((\hat{β_0}+\hat{β_1}\)×\(\bar{x})\)
=\(\hat{β_1}\)\(\sum_{i=1}^{n}( x_i-\bar{x})\)
ここで、
\(\sum_{i=1}^{n} x_i\)=\(n\)×\(\bar{x}\)=\(\sum_{i=1}^{n} \bar{x}\)より、
\(\sum_{i=1}^{n}( x_i-\bar{x})\)=0
よって、
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})\)=0
となります。
次に、
\(\sum_{i=1}^{n} ( y_i -\hat{y_i})\)
ですが、
=\(\sum_{i=1}^{n} ( (y_i-\bar{y})+(\bar{y} -\hat{y_i}))\)
とすると、
\(\sum_{i=1}^{n} (y_i-\bar{y})\)=0
\(\sum_{i=1}^{n} (\bar{y} -\hat{y_i})\)=0
なので、
\(\sum_{i=1}^{n} ( y_i -\hat{y_i})\)=0
次に、\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)=0を証明します。
ここで、回帰について\(\hat{y_i}\)は回帰直線に乗るので、
\(\hat{y_i}-\bar{y}\)=\(\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\)
に乗ることになります。
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)
=\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( (y_i-\bar{y})-( \hat{y_i}-\bar{y}))\)
と変形して、
\((\hat{y_i} – \bar{y})\)=\(\frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\)を代入します。
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( (y_i-\bar{y})-( \hat{y_i}-\bar{y}))\)
=\(\sum_{i=1}^{n} \frac{S_{xy}}{S_{xx}}(x_i-\bar{x})\)\(((y_i-\bar{y})-\frac{S_{xy}}{S_{xx}}(x_i-\bar{x}))\)
となります。
平方和\(S_{xy}\),\(S_{xx}\)は∑の外に出せるので、
=\(\frac{S_{xy}}{S_{xx}} \sum_{i=1}^{n}(x_i-\bar{x})\)\(((y_i-\bar{y})-\frac{S_{xy}}{S_{xx}}(x_i-\bar{x}))\)
=\(\frac{S_{xy}}{S_{xx}}\)×\(S_{xy}\)-\(\frac{S_{xy}^2}{S_{xx}^2}\)×\(S_{xx}\)
と変形できます。
よくみると、
=\(\frac{S_{xy}^2}{S_{xx}}\)-\(\frac{S_{xy}^2}{S_{xx}}\)
=0
となり、
まとめると、
\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)=0
となります。
うーん、なるほど!
まとめると、確かに,
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})( y_i -\hat{y_i})\)=0だし、
●\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})\)=0だし、
●\(\sum_{i=1}^{n} ( y_i -\hat{y_i})\)=0となり、
0×0=0なんですよね!
\(\sum_{i=1}^{n}(y_i – \bar{y})^2\)=\(\sum_{i=1}^{n}(\hat{y_i} – \bar{y})^2\)+\(\sum_{i=1}^{n}( y_i -\hat{y_i})^2\)
となります。これが回帰分析で分散分析できる理由です。
次に同じ分散分析でも実験計画法で考えてみましょう。
➂繰返しのない一元配置実験による分散分析
データの用意
①の回帰分析と同じデータを用意します。
No | x | y |
1 | 0.15 | 8.05 |
2 | 1.2 | 4.05 |
3 | 2.08 | 5.77 |
4 | 2.42 | 11.2 |
5 | 4.82 | 20.17 |
6 | 5.93 | 17.21 |
7 | 6.15 | 15.22 |
8 | 6.5 | 18.38 |
9 | 7.32 | 30.59 |
10 | 8.45 | 8.99 |
合計 | 45.02 | 139.63 |
実は、
表を作り直します。実験計画法っぽくなるのがわかります。
因子 | y |
A1 | 8.05 |
A2 | 4.05 |
A3 | 5.77 |
A4 | 11.2 |
A5 | 20.17 |
A6 | 17.21 |
A7 | 15.22 |
A8 | 18.38 |
A9 | 30.59 |
A10 | 8.99 |
合計 | 139.63 |
実は、あまる教科書でみかけないのですが、
繰返し実験のない一元配置実験の表になります。
データの構造式から分散分析へ
繰返し実験のない一元配置実験のデータの構造式は
\(y_{i}-\bar{y}\)=\(y_{i}-\bar{y}\)
となり、主効果が一切なく、総平方和=残差平方和という変なパターンになります。
分散分析表を書くと
– | 平方和S | 自由度Φ | 平均平方V |
主効果 | – | – | – |
残差e | 579.34 | 9 | 64.37 |
合計T | 579.34 | 9 | – |
同じデータで回帰分析と実験計画法を使って分散分析しました。ここから両者を比較しましょう。
➃平方和を分解して回帰分析と実験計画法を比較
分散分析結果を比較
実験計画法 | 平方和S | 自由度Φ | 平均平方V | 回帰 | 平方和S | 自由度Φ | 平均平方V |
主効果 | – | – | – | 回帰 | 229.04 | 1 | 229.04 |
残差e | 579.34 | 9 | 64.37 | 残差er | 350.3 | 8 | 43.79 |
合計T | 579.34 | 9 | – | 合計T | 579.34 | 9 | – |
平方和に注目すると
●総平方和=回帰平方和+回帰残差平方和 (回帰分析)
●総平方和=主効果平方和+残差平方和 (実験計画法)
に分割できる点です。
もう少しモデルが複雑にすると、主効果の一部が回帰の平方和に分割できることがわかります。これも関連記事に上げていきます。
回帰分析と実験計画法の違い
データの構造式で比較すると
●実験計画法: \(y_i – \bar{y}\)=\(y_i – \bar{y}\)
●回帰分析:\(y_i – \bar{y}\)=(\(y_i – \hat{y}\))+(\(\hat{y} – \bar{y}\))
として、回帰成分で総平方和を分割しているイメージがわかりますね。
まとめ
「回帰分析と実験計画法の違いがよくわかる(繰返しデータ無しの場合)がよくわかる」を解説しました。
- ①単回帰分析による分散分析
- ➁単回帰分析による平方和の分解
- ➂繰返しのない一元配置実験による分散分析
- ➃平方和を分解して回帰分析と実験計画法を比較
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119