カテゴリー: 手法

  • 単回帰分析のテコ比がよくわかる

    単回帰分析のテコ比がよくわかる

    「単回帰分析のテコ比がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    単回帰分析のテコ比がよくわかる

    おさえておきたいポイント

    • ①重回帰分析のテコ比がベース
    • ➁単回帰分析のハット行列とテコ比を導出
    • ➂単回帰分析のハット行列とテコ比を計算
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    単回帰分析のテコ比、ハット行列を実際に計算するところまで解説するのはQCプラネッツだけ!

    ①重回帰分析のテコ比がベース

    テコ比の関連記事

    重回帰分析の記事になりますが、テコ比、ハット行列の導出も計算も理解できる関連記事をまとめております。確認ください。この関連記事をベースに本記事を作っています。

    重回帰分析のテコ比がよくわかる(その1)
    重回帰分析のテコ比が説明できますか?本記事では重回帰分析の回帰直線を求める式から丁寧にハット行列、テコ比を導出します。公式暗記より導出過程が大事です。多変量解析を学ぶ人は必読です。

    重回帰分析のテコ比がよくわかる(その2)
    重回帰分析のテコ比が説明できますか?本記事では重回帰分析の回帰直線を求める式から丁寧にハット行列、テコ比を導出します。その2は実際にハット行列とテコ比の値を計算します。ここまで解説するのはQCプラネッツだけ!多変量解析を学ぶ人は必読です。

    ハット行列とテコ比

    関連記事の結果をまとめます。この式をベースに本記事で解説します。

    ●回帰直線:(\(\hat{y}-\bar{y}\))=\(β(x_i-\bar{x})\)
    ●行列表記
    ・\(\hat{Y}\) : (\(\hat{y}-\bar{y}\))
    ・\(Y\) : (\(y_i-\bar{y}\))
    ・\(X\) : (\(x_i-\bar{x}\))
    ●回帰直線の行列表記: \(\hat{Y}\)=\(HY\)
    ●ハット行列:\(H\)=\(X(X^T X)^{-1} X^T\)
    ●テコ比: \(h_{ii}\)=\(H\)の\((i,i)\)成分
    ●回帰直線の傾き: \(β\)=\((X^T X)^{-1} X^T Y\)

    本記事では、上の関係式を単回帰分析について解析し、実際の値も計算します。ここまで解説するのはQCプラネッツだけです!

    ➁単回帰分析のハット行列とテコ比を導出

    単回帰分析データを用意

    単回帰分析として説明変数\(x_i\)と目的変数\(y_i\) (\(i\)=1,2,…,\(n\))を用意します。
    目的変数の回帰成分を\(\hat{y_i}\)として、
    ●\(\hat{y_i}-\bar{y}\)=\(β(x_i-\bar{x})\)
    という回帰式が成り立っているとしましょう。

    データは(\(i\)=1,2,…,\(n\))と\(n\)個あるので、行列表記します。
    まず、回帰成分\(\hat{Y}\)、目的変数\(Y\)を以下のように定義します。

    ●\(\hat{Y}\)=\(\left(
    \begin{array}{c}
    \hat{y_1}-\bar{y} \\
    \hat{y_2}-\bar{y} \\
    \vdots \\
    \hat{y_n}-\bar{y} \\
    \end{array}
    \right)\)

    ●\(Y\)=\(\left(
    \begin{array}{c}
    y_1-\bar{y} \\
    y_2-\bar{y} \\
    \vdots \\
    y_n-\bar{y} \\
    \end{array}
    \right)\)

    また、説明変数の行列\(X\)も定義します。

    ●\(X\)=\(\left(
    \begin{array}{c}
    x_1-\bar{x} \\
    x_2-\bar{x} \\
    \vdots \\
    x_n-\bar{x} \\
    \end{array}
    \right)\)

    ここで、

    ●回帰直線の行列表記: \(\hat{Y}\)=\(HY\)
    ●ハット行列:\(H\)=\(X(X^T X)^{-1} X^T\)
    が成り立っているので、単回帰分析の場合のハット行列を導出してみましょう。

    単回帰分析のハット行列を導出

    まず、\(X(X^T X)^{-1} X^T\)の中の\((X^T X)^{-1} \)を計算します。

    ●\(X^T X\)は
    \(X^T X \)
    =
    \(\begin{pmatrix}
    x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
    x_1-\bar{x}\\
    x_2-\bar{x}\\
    …\\
    x_n-\bar{x}
    \end{pmatrix}
    \)
    を計算すると
    =\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
    =\(S_{xx}\)(平方和)になり、定数になりますね。

    よって、
    \((X^T X)^{-1} \)=\(\frac{1}{S_{xx}}\)
    となります。

    なので、
    \(X(X^T X)^{-1} X^T\)=\(\frac{1}{S_{xx}} X X^T\)
    です。

    また、\( X X^T\)を計算すると
    \( X X^T\)
    =\(\begin{pmatrix}
    x_1-\bar{x}\\
    x_2-\bar{x}\\
    …\\
    x_n-\bar{x}
    \end{pmatrix}
    \)\(\begin{pmatrix}
    x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)
    =\(\left(
    \begin{array}{cccc}
    (x_1-\bar{x})^2 & (x_1-\bar{x})(x_2-\bar{x}) & \ldots & (x_1-\bar{x})(x_n-\bar{x}) \\
    (x_1-\bar{x})(x_2-\bar{x}) & (x_2-\bar{x})^2 & \ldots & (x_2-\bar{x})(x_n-\bar{x}) \\
    \vdots & \vdots & \ddots & \vdots \\
    (x_1-\bar{x})(x_n-\bar{x}) & (x_2-\bar{x})(x_n-\bar{x}) & \ldots & (x_n-\bar{x})^2 \\
    \end{array}
    \right)
    \)
    と\(n\)×\(n\)の正方行列になります。

    よって、ハット行列\(H\)は
    \(H\)=\(\frac{1}{S_{xx}}\left(
    \begin{array}{cccc}
    (x_1-\bar{x})^2 & (x_1-\bar{x})(x_2-\bar{x}) & \ldots & (x_1-\bar{x})(x_n-\bar{x}) \\
    (x_1-\bar{x})(x_2-\bar{x}) & (x_2-\bar{x})^2 & \ldots & (x_2-\bar{x})(x_n-\bar{x}) \\
    \vdots & \vdots & \ddots & \vdots \\
    (x_1-\bar{x})(x_n-\bar{x}) & (x_2-\bar{x})(x_n-\bar{x}) & \ldots & (x_n-\bar{x})^2 \\
    \end{array}
    \right)
    \)
    となります。

    単回帰分析のテコ比をを導出

    ➂単回帰分析のテコ比を計算

    テコ比\(h_{ii}\)はハット行列の対角成分なので、
    ハット行列をじっと眺めると
    \(h_{ii}\)=\(\frac{(x_i-\bar{x})^2}{S_{xx}}\)
    とわかりますね。

    単回帰直線の傾き\(β\)を行列から計算

    単回帰直線の傾き\(β\)は、
    \(β\)=\((X^T X)^{-1} X^T Y\)
    より
    \((X^T X)^{-1} \)=\(\frac{1}{S_{xx}}\)を使うと
    \(β\)=\(\frac{1}{S_{xx}} X^T Y\)

    \(X^T Y\)は行列なので、具体的に書くと次式になります。

    \(β\)=\(\begin{pmatrix}
    β_1 \\
    β_2 \\
    …\\
    β_n {x}
    \end{pmatrix}
    \)
    =\(\frac{1}{S_{xx}}\)\(\begin{pmatrix}
    x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
    y_1-\bar{y} \\
    y_2-\bar{y} \\
    …\\
    y_n-\bar{y}
    \end{pmatrix}
    \)
    =\(\frac{1}{S_{xx}}\)[\((x_1-\bar{x})(y_1-\bar{y})\)+\((x_2-\bar{x})(y_2-\bar{y})\)+…+\((x_i-\bar{x})(y_i-\bar{y})\)+…+\((x_n-\bar{x})(y_n-\bar{y})\)]
    =\(\frac{S_{xy}}{S_{xx}}\)
    となり、確かに単回帰分析の傾き\(β\)は
    \(β\)=\(\frac{S_{xy}}{S_{xx}}\)
    でしたね!

    ➂単回帰分析のハット行列とテコ比を計算

    実際に計算事例を見てみましょう。

    データを用意

    下表にデータを用意します。ついでに回帰分析もやりますが、折角なので、解いてみてください。

    \(x_i\) \(y_i\) A=\(x_i-\bar{x}\) B=\(y_i-\bar{y}\) A2 B2 AB \(\hat{y_i}\) \(\hat{y_i}-\bar{y}\)
    1 2 -4 -38 -76 1444 5776 2888 -5.529 -23.529
    2 6 0 -34 -72 1156 5184 2448 6.235 -11.765
    3 13 36 -27 -36 729 1296 972 26.824 8.824
    4 19 40 -21 -32 441 1024 672 44.471 26.471
    合計 40 72 -120 -216 3770 13280 6980
    平均 10 18 ↑\(S_{xx}\) ↑\(S_{yy}\) ↑\(S_{xy}\)

    なお、回帰直線については、
    ●傾き\(β_1\)=2.94
    ●\(y\)切片=-11.41
    ●相関係数ρ=0.954
    ●\(\hat{y_i}\)=-11.41+2.94\(x_i\)

    単回帰分析のハット行列を計算

    では、ハット行列を上表の値から求めましょう。ここで、以下の式を定義します。
    ●\(X_{ij}\)=\((x_i-\bar{x})(x_j-\bar{x})\)とします。

    \(X_{11}\)~\(X_{44}\)の各値は以下のとおりになります。

    \(X_{11}\)=64 \(X_{12}\)=32 \(X_{13}\)=-24 \(X_{14}\)=-72
    \(X_{12}\)=32 \(X_{22}\)=16 \(X_{23}\)=-12 \(X_{24}\)=-36
    \(X_{13}\)=-24 \(X_{23}\)=-12 \(X_{33}\)=9 \(X_{34}\)=27
    \(X_{14}\)=-72 \(X_{24}\)=-36 \(X_{34}\)=27 \(X_{44}\)=81

    ハット行列の各成分の値がわかり、さらに\(S_{xx}\)=170で割れば、ハット行列は計算できます。

    よって、
    \(H\)=\(\left(
    \begin{array}{cccc}
    0.376 & 0.188 & -0.141 & -0.424 \\
    0.188 & 0.094 & -0.071 & -0.212 \\
    -0.141 & -0.071 & 0.053 & 0.159 \\
    -0.424 & -0.212 & 0.159 & 0.476 \\
    \end{array}
    \right)
    \)

    ハット行列が正しく計算できたかを検算するには、
    \(\hat{Y}\)=\(HY\)が一致するのを確認すればOKです。

    (右辺)
    \(HY\)=\(\left(
    \begin{array}{cccc}
    0.376 & 0.188 & -0.141 & -0.424 \\
    0.188 & 0.094 & -0.071 & -0.212 \\
    -0.141 & -0.071 & 0.053 & 0.159 \\
    -0.424 & -0.212 & 0.159 & 0.476 \\
    \end{array}
    \right)
    \)\(\begin{pmatrix}
    -22 \\
    -18 \\
    18 \\
    22 \\
    \end{pmatrix}
    \)
    =\(\begin{pmatrix}
    -23.529 \\
    -11.765 \\
    8.82 \\
    26.47 \\
    \end{pmatrix}
    \)=\(\hat{Y}\)
    と確かに一致するので、計算が正しいことがわかります。

    単回帰分析のテコ比を計算

    テコ比\(h_{ii}\)=\(\frac{(x_i-\bar{x})^2}{S_{xx}}\)
    なので、\(i\)=1,2,3,4を代入すればOKです。

    ●\(h_{11}\)=0.376
    ●\(h_{22}\)=0.094
    ●\(h_{33}\)=0.053
    ●\(h_{44}\)=0.476

    ところで、面白いことに、
    ●\(h_{11}\)+\(h_{22}\)+\(h_{33}\)+\(h_{44}\)
    =0.376+0.094+0.053+0.476
    =1
    となることがわかっています。

    つまり、テコ比の合計\(\sum_{i=1}^{n}h_{ii}=1\)です。

    なぜか?わかりますか? 

    折角なので証明します。

    単回帰分析のテコ比の合計が1になる理由

    テコ比\(h_{ii}\)=\(\frac{(x_i-\bar{x})^2}{S_{xx}}\)
    より、
    \(\sum_{i=1}^{n}h_{ii}\)
    =\(\sum_{i=1}^{n} \frac{(x_i-\bar{x})^2}{S_{xx}}\)
    =\(\frac{1}{S_{xx}} \sum_{i=1}^{n} (x_i-\bar{x})^2\)
    =\(\frac{1}{S_{xx}} S_{xx} \)
    =1
    となります。

    単回帰分析のテコ比の合計は1とわかりました。
    一方、重回帰分析のテコ比の合計は説明変数の種類の数になるようですが、証明方法は研究中です。

    以上、単回帰分析のテコ比を解説しました。面白い問題でしたね。

    まとめ

    「単回帰分析のテコ比がよくわかる」を解説しました。

    • ①重回帰分析のテコ比がベース
    • ➁単回帰分析のハット行列とテコ比を導出
    • ➂単回帰分析のハット行列とテコ比を計算

  • 重回帰分析のテコ比がよくわかる(その2)

    重回帰分析のテコ比がよくわかる(その2)

    「重回帰分析のテコ比がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析のテコ比がよくわかる(その2)

    おさえておきたいポイント

    • ①重回帰分析を解く(その1)
    • ➁\(β_k\)の導出式を行列表記する(その1)
    • ➂ハット行列\(H\)を導出する(その1)
    • ➃ハット行列とテコ比を導出する(その2)
    • ➄ハット行列とテコ比を実際に計算する(その2)
    • ⑥テコ比がわかる(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    テコ比、ハット行列を実際に計算するところまで解説するのはQCプラネッツだけ!
    テコ比、ハット行列を2回にわけて丁寧に解説します。

    ①➁➂は関連記事で確認ください。

    ハット行列の導出過程は関連記事(その1)で解説していますので、先にご確認ください。

    重回帰分析のテコ比がよくわかる(その1)
    重回帰分析のテコ比が説明できますか?本記事では重回帰分析の回帰直線を求める式から丁寧にハット行列、テコ比を導出します。公式暗記より導出過程が大事です。多変量解析を学ぶ人は必読です。

    本記事では、実際の値を計算します。ここまで解説するのはQCプラネッツだけです!

    ➃ハット行列とテコ比を導出する(その2)

    ハット行列の性質

    ハット行列は、

    \(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
    の関係式から\(\hat{Y}\)と\( Y\)の比をテコ比と考えて
    ハット行列\(H\)=\(X\)\((X^T X)^{-1}\)\(X^T\)

    でしたね。

    実は、ハット行列\(H\)は面白い性質があります。

    \(H^2\)=\(H\)
    です。つまり、
    \(H^3\)=\(H×H^2\)=\(H^2\)=\(H\)

    \(H^n\)=…=\(H\)
    と何乗しても同じ行列です。不思議!

    証明

    証明しましょう。
    \(H^2\)=[\(X\)\((X^T X)^{-1}\)\(X^T\)][\(X\)\((X^T X)^{-1}\)\(X^T\)]
    =\(X\)\((X^T X)^{-1}\)(\(X^T\)\(X\))\((X^T X)^{-1}\)\(X^T\)
    (黄色マーカー部は単位行列\(E\)になるので、)
    =\(X\)\((X^T X)^{-1}\)\(X^T\)
    =\(H\)
    となりますね。

    ハット行列はn×n行列(n:データ数)

    ハット行列は式で書くと、\(X\)\((X^T X)^{-1}\)\(X^T\)ですが、
    X、Hの行数、列数がいくらになるかはちゃんと確認しておきましょう。

    例として\(X\)行列がn行×p列とします。
    (nはデータ数、pは説明変数の数で、基本は n > pです。)
    下図で行列の積に注意して、\(X\)\((X^T X)^{-1}\)\(X^T\)が
    n×n行列になる流れを理解しましょう!

    図ではp=3,n=6で説明しました。

    となると、ハット行列\(H\)は次のように表現できます。

    \(H\)=\(\left(
    \begin{array}{cccc}
    h_{11} & h_{12} & \ldots & h_{1n} \\
    h_{21} & h_{22} & \ldots & h_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    h_{n1} & h_{n2} & \ldots & h_{nn}
    \end{array}
    \right)
    \)

    もともと\(\hat{Y}\)=\(HY\)の関係でしたから、行列表記すると

    \(
    \left(
    \begin{array}{c}
    \hat{y_1} \\
    \hat{y_2} \\
    \vdots \\
    \hat{y_n}
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    h_{11} & h_{12} & \ldots & h_{1n} \\
    h_{21} & h_{22} & \ldots & h_{2n} \\
    \vdots & \vdots & \ddots & \vdots \\
    h_{n1} & h_{n2} & \ldots & h_{nn}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    y_1 \\
    y_2 \\
    \vdots \\
    y_n
    \end{array}
    \right)
    \)

    となりますね。

    テコ比を導出

    次に、テコ比を導出します。

    上の行列の式から\(\hat{y_i}\)成分だけ取り出すと、次の関係式ができます。
    \(\hat{y_i}\)=\(h_{i1} y_1\)+\(h_{i2} y_2\)+…+\(h_{ij} y_j\)+\(h_{in} y_n\)

    この式からテコ比\(h_{ii}\)を定義します。

    ●テコ比\(h_{ii}\)
    \(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

    ここまで、ハット行列とテコ比の導出を解説してきました。
    次に具体的な値で実際計算してみましょう。

    行列計算で行数、列数に意識して読んでください。結構大事!

    ➄ハット行列とテコ比を実際に計算する(その2)

    データを用意

    data x1 x2 y
    1 8 3 3
    2 11 2 4
    3 9 4 4
    4 12 4 7
    5 11 5 7
    6 9 6 5
    合計 60 24 30
    平均 10 4 5

    【問題】
    ハット行列\(H\)とテコ比\(h_{ii}\)を求めよ。

    ではやってみましょう。

    各行列を計算

    まず、行列\(X\)を定義します。説明変数p=2、データ数n=6の行列ですね。正方行列ではない点に注意です。

    最も大事な注意点

    行列に代入する\(x, \hat{y},y\)はそのまま代入ではなく
    ●\(x_{ij}-\bar{x_i}\)
    ●\(\hat{y_i}-\bar{y}\)
    ●\(y_i-\bar{y}\)
    とそれぞれ平均で差分した値を代入すること。

    行列\(X\)

    \(x_{ij}-\bar{x_i}\)は下表を参考に行列を作ります。

    data x1 x2 \(x_1-\bar{x_1}\) \(x_2-\bar{x_2}\)
    1 8 3 -2 -1
    2 11 2 1 -2
    3 9 4 -1 0
    4 12 4 2 0
    5 11 5 1 1
    6 9 6 -1 2
    合計 60 24
    平均 10 4

    黄色マーカ部分から行列\(X\)を作ります。

    \(X\)=\(\left(
    \begin{array}{cccc}
    -2 & -1 \\
    1 & -2 \\
    -1 & 0 \\
    2 & 0 \\
    1 & 1 \\
    -1 & 2 \\
    \end{array}
    \right)
    \)

    行列\(X^T X\)の計算

    転置行列\(X^T\)との\(X\)の積なので、\(X^T X\)=\(\left(
    \begin{array}{cccc}
    -2 & 1 & -1 & 2 & 1 & -1 \\
    -1 & -2 & 0 & 0 & 1 & 2 \\
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    -2 & -1 \\
    1 & -2 \\
    -1 & 0 \\
    2 & 0 \\
    1 & 1 \\
    -1 & 2 \\
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    12 & -1 \\
    -1 & 10 \\
    \end{array}
    \right)
    \)

    確かに計算結果は
    \(X^T X\)=\(\left(
    \begin{array}{cccc}
    12 & -1 \\
    -1 & 10 \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} \\
    S_{12} & S_{22} \\
    \end{array}
    \right)
    \)
    で\(X\)の積は確かに平方和になっていますね。

    逆行列\((X^T X)^{-1}\)の計算

    逆行列を計算します。2×2の行列なので簡単ですね。規模が大きくなる場合はExcelのMINVERSE関数で計算しましょう。

    \((X^T X)^{-1}\)=\(\left(
    \begin{array}{cccc}
    0.084 & 0.0084 \\
    0.0084 & 0.1008 \\
    \end{array}
    \right)
    \)

    \(X(X^T X)^{-1}\)の計算

    どんどん計算しましょう。

    \(X(X^T X)^{-1}\)
    =\(\left(
    \begin{array}{cccc}
    -2 & -1 \\
    1 & -2 \\
    -1 & 0 \\
    2 & 0 \\
    1 & 1 \\
    -1 & 2 \\
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    0.084 & 0.0084 \\
    0.0084 & 0.1008 \\
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    -0.176 & -0.118 \\
    0.067 & -0.193 \\
    -0.084 & -0.008 \\
    0.168 & 0.017 \\
    0.092 & 0.109 \\
    -0.067 & 0.193 \\
    \end{array}
    \right)
    \)

    確かに 6×2行列になっていますね。

    ハット行列\(H\)の計算

    \(H\)=\(X(X^T X)^{-1} X^T\)
    =\(\left(
    \begin{array}{cccc}
    -0.176 & -0.118 \\
    0.067 & -0.193 \\
    -0.084 & -0.008 \\
    0.168 & 0.017 \\
    0.092 & 0.109 \\
    -0.067 & 0.193 \\
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    -2 & 1 & -1 & 2 & 1 & -1 \\
    -1 & -2 & 0 & 0 & 1 & 2 \\
    \end{array}
    \right)
    \)
    =\(\left(
    \begin{array}{cccc}
    0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
    0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
    0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
    -0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
    -0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
    -0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
    \end{array}
    \right)
    \)

    とデータ数n=6の6×6行列がでました。

    テコ比を計算

    テコ比は

    ●テコ比\(h_{ii}\)
    \(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

    より、
    ●\(h_{11}\)=0.471
    ●\(h_{22}\)=0.454
    ●\(h_{33}\)=0.084
    ●\(h_{44}\)=0.336
    ●\(h_{55}\)=0.202
    ●\(h_{66}\)=0.454

    と計算ができました。

    重回帰分析の結果を比較

    先ほどのデータを重回帰分析すると下表の結果になります。実際手を動かして計算してみてください。

    \(x_{1i}\) \(x_{2i}\) \(y_i\) \(\hat{y_i}\) \(y_i-\bar{y}\) \(\hat{y_i}-\bar{y}\)
    1 8 3 3 2.529 -2 -2.471
    2 11 2 4 4.513 -1 -0.487
    3 9 4 4 4.109 -1 -0.891
    4 12 4 7 6.782 2 1.782
    5 11 5 7 6.58 2 1.580
    6 9 6 5 5.487 0 0.487
    合計 60 24 30
    平均 10 4 5(=\(\bar{y}\))

    平方和 回帰直線
    \(S_{11}\) 12 y切片\(β_0\) -6.664
    \(S_{12}\) -1(=\(S_{21}\)) 傾き\(β_1\) 0.891
    \(S_{22}\) 10 傾き\(β_2\) 0.689
    \(S_{1y}\) 10
    \(S_{2y}\) 6
    \(S_{yy}\) 14

    なお、回帰直線上の点\(\hat{y_i}\)は
    \(\hat{y_i}\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)
    \(\hat{y_i}\)=-6.664+0.891\( x_1\)+0.689\(x_2\)
    で計算できます。

    ここで、

    \(\hat{Y}\)=\(\left(
    \begin{array}{cccc}
    \hat{y_1}-\bar{y} \\
    \hat{y_2}-\bar{y} \\
    \hat{y_3}-\bar{y} \\
    \hat{y_4}-\bar{y} \\
    \hat{y_5}-\bar{y} \\
    \hat{y_6}-\bar{y} \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    -2.471 \\
    -0.487 \\
    -0.891 \\
    1.782 \\
    1.580 \\
    0.487 \\
    \end{array}
    \right)
    \)

    \(Y\)=\(\left(
    \begin{array}{cccc}
    y_1-\bar{y} \\
    y_2-\bar{y} \\
    y_3-\bar{y} \\
    y_4-\bar{y} \\
    y_5-\bar{y} \\
    y_6-\bar{y} \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    -2\\
    -1 \\
    -1 \\
    2 \\
    2 \\
    0 \\
    \end{array}
    \right)
    \)

    \(H\)=\(\left(
    \begin{array}{cccc}
    0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
    0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
    0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
    -0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
    -0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
    -0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
    \end{array}
    \right)
    \)

    を使って、実際に行列\(\hat{y}=HY\)かを確かめましょう。

    \(HY\)=\(\left(
    \begin{array}{cccc}
    0.471 & 0.059 & 0.176 & -0.353 & -0.294 & -0.059 \\
    0.059 & 0.454 & -0.067 & 0.134 & -0.126 & -0.454 \\
    0.176 & -0.067 & 0.084 & -0.168 & -0.092 & 0.067 \\
    -0.353 & 0.134 & -0.168 & 0.336 & 0.185 & -0.134 \\
    -0.294 & -0.126 & -0.092 & 0.185 & 0.202 & 0.126 \\
    -0.059 & -0.454 & 0.067 &-0.134 & 0.126 & 0.454 \\
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    -2\\
    -1 \\
    -1 \\
    2 \\
    2 \\
    0 \\
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    -2.471 \\
    -0.487 \\
    -0.891 \\
    1.782 \\
    1.580 \\
    0.487 \\
    \end{array}
    \right)
    \)=\(\hat{Y}\)
    と確かに一致します!

    重回帰分析の結果とハット行列の計算が一致しました!

    ⑥テコ比がわかる(その2)

    テコ比の性質

    テコ比は

    ●テコ比\(h_{ii}\)
    \(h_{ii}\)=\(\displaystyle \frac{\partial \hat{y_i}}{\partial y_i}\)

    より、
    ●\(h_{11}\)=0.471
    ●\(h_{22}\)=0.454
    ●\(h_{33}\)=0.084
    ●\(h_{44}\)=0.336
    ●\(h_{55}\)=0.202
    ●\(h_{66}\)=0.454

    と計算ができましたが、全部足すと
    \(h_{11}\)+\(h_{22}\)+\(h_{33}\)+\(h_{44}\)+\(h_{55}\)+\(h_{66}\)
    =2
    と説明変数の数p=2に一致します。

    なぜ\(\sum_{i=1}^{n}h_{ii}=p\)なのかは、
    今後の研究テーマとします。わかり次第報告します。

    まとめ

    「重回帰分析のテコ比がよくわかる(その2)」を解説しました。

    • ①重回帰分析を解く(その1)
    • ➁\(β_k\)の導出式を行列表記する(その1)
    • ➂ハット行列\(H\)を導出する(その1)
    • ➃ハット行列とテコ比を導出する(その2)
    • ➄ハット行列とテコ比を実際に計算する(その2)
    • ⑥テコ比がわかる(その2)

  • 重回帰分析のテコ比がよくわかる(その1)

    重回帰分析のテコ比がよくわかる(その1)

    「重回帰分析のテコ比がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析のテコ比がよくわかる(その1)

    おさえておきたいポイント

    • ①重回帰分析を解く(その1)
    • ➁\(β_k\)の導出式を行列表記する(その1)
    • ➂ハット行列\(H\)を導出する(その1)
    • ➃ハット行列とテコ比を導出する(その2)
    • ➄ハット行列とテコ比を実際に計算する(その2)
    • ⑥テコ比がわかる(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    テコ比、ハット行列を実際に計算するところまで解説するのはQCプラネッツだけ!
    苦手な行列表記も丁寧に解説していきます。
    QCプラネッツも行列は苦手です(笑)
    テコ比、ハット行列を2回にわけて丁寧に解説します。

    ①重回帰分析を解く

    データの構造式を作る

    次のようなデータを重回帰分析することを考えます。
    添え字の\(i,j,k\)は
    ●\(i\)=1,2,…,\(n\)
    ●\(j\)=1,2,…,\(p\)
    ●\(k\)=1,2,…,\(p\)
    である点に注意してください。

    データ
    \(i\)⇊ \(j,k\)⇒
    \(x_{1i}\) \(x_{2i}\) \(x_{ji}\) \(x_{pi}\) \(y_i\)
    1 \(x_{11}\) \(x_{21}\) \(x_{j1}\) \(x_{p1}\) \(y_1\)
    2 \(x_{12}\) \(x_{22}\) \(x_{j2}\) \(x_{p2}\) \(y_2\)
    \(i\) \(x_{1i}\) \(x_{2i}\) \(x_{ji}\) \(x_{pi}\) \(y_i\)
    \(n\) \(x_{1n}\) \(x_{2n}\) \(x_{jn}\) \(x_{pn}\) \(y_p\)

    最小二乗法から正規方程式を作る

    上の表をデータの構造式で表現すると、
    \(\hat{y_i}-\bar{y}\)=\(\sum_{k=1}^{p}β_k(x_{ki}-\bar{x_k})\) (式1)
    ですね。添え字の\(i,j,k\)は
    ●\(i\)=1,2,…,\(n\)
    ●\(j\)=1,2,…,\(p\)
    ●\(k\)=1,2,…,\(p\)
    である点に注意してください。

    (式1)を書き出すと、
    \(\hat{y_i}-\bar{y}\)=\(β_1(x_{1i}-\bar{x_1})\)+\(β_2(x_{2i}-\bar{x_2})\)+…+\(β_p(x_{pi}-\bar{x_p})\)
    ですね。

    行列表記は抽象的なので
    なるべく具体的な式を書きながら
    理解していきましょう!

    最小二乗法から正規方程式を作って、回帰直線の傾き\(β_k\)を求める式を作ります。これは、関連記事で詳細に解説しているので、ご確認ください。

    重回帰分析の推定区間の式が導出できる(その1)
    重回帰分析の推定区間の式は導出できますか?公式代入だけで終わっていませんか? 本記事では2記事にわたり、重回帰分析の推定区間の式が導出をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    回帰直線の傾き\(β_k\)を求める式は

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    ですね。Sは各成分の平方和で、逆行列を使って、\(β_i\)の各値を計算します。

    回帰直線の傾き\(β_k\)を導出する式を作る

    回帰直線の傾き\(β_k\)は、次の行列の式から計算できますね。

    \(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    となります。

    ここで、\(S^{jk}\)は逆行列のj行k列目の値で、添え字を上側とします。

    さあ、ここからが本記事の本題になります。

    最終的には、行列(太文字で表記)を使って
    \(\hat{y}\)=\(X(X^T X)^{-1} X^T y\)=\(Hy\)
    として、
    \(H\)=\(X(X^T X)^{-1} X^T \)
    とハット行列\(H\)を導出することです。

    行列を使って式変形するのは、理解が難しいので、なるべく具体的な式を書きながらわかりやすく解説します!

    そのために、結構大事なのが、

    平方和Sを行列表記して解ける事

    例えば、
    S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
    \(X\)=\(\begin{pmatrix}
    x_1-\bar{x}\\
    x_2-\bar{x}\\
    …\\
    x_n-\bar{x}
    \end{pmatrix}
    \)

    がすっと理解できることが大事なのですが、最初は難しいので、丁寧に解説していきます。

    ➁\(β_k\)の導出式を行列表記する

    平方和\(S_{jk}\)の導出式を行列表記する

    先ほど紹介しましたが、
    S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
    が難しいので、丁寧に解説していきます。

    平方和Sを書き出すと
    S=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
    ですね。

    この各項の\((x_i-\bar{x})^2\)を
    \((x_i-\bar{x})^2\)=\((x_i-\bar{x})\)×\((x_i-\bar{x})\)として、行列の積に当てはめていきます。下図をご覧ください。

    テコ比

    上図は\(i\)=1,2についてですが、これを\(i\)=1,2,…,\(n\)まで拡大しても行列の積の式は同じように書けます。

    \(\begin{pmatrix}
    x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
    x_1-\bar{x}\\
    x_2-\bar{x}\\
    …\\
    x_n-\bar{x}
    \end{pmatrix}
    \)
    を計算すると
    =\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
    =S(平方和)になりますね。

    つまり、
    S=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(X^T X\)
    がよくわかりますね。

    次に、同様に考えると平方和\(S_{jk}\)は
    \(S_{jk}\)=\(\sum_{i=1}^{n}(x_{ji}-\bar{x_j})(x_{ki}-\bar{x_k})\)より、行列表記すると

    \(\begin{pmatrix}
    x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & … & x_{jn}-\bar{x_j} \end{pmatrix}\)\(\begin{pmatrix}
    x_{k1}-\bar{x_k}\\
    x_{k2}-\bar{x_k}\\
    …\\
    x_{kn}-\bar{x_k}
    \end{pmatrix}
    \)
    となるがわかりますね。

    つまり、
    \(S_{jk}\)=\(X_j^T X_k\)
    と書けることもわかりますね。

    \(j,k\)をすべての場合についての平方和を行列表記する

    \(j,k\)は共に1~\(p\)までありますから、すべての\(j,k\)における平方和を行列表記すると下図のようになります。

    平方和Sを行列表記して解ける事

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1k} & \ldots& S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2k} & \ldots & S_{2p} \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    S_{j1} & S_{j2} & \ldots & S_{jk} & \ldots & S_{jp} \\
    \vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pk} & \ldots & S_{pp}
    \end{array}
    \right)
    \)

    =\(\left(
    \begin{array}{cccc}
    x_{11}-\bar{x_1} & x_{12}-\bar{x_1} & \ldots & x_{1i}-\bar{x_1} & \ldots& x_{1n}-\bar{x_1} \\
    x_{21}-\bar{x_2} & x_{22}-\bar{x_2} & \ldots & x_{2i}-\bar{x_2} & \ldots& x_{2n}-\bar{x_2} \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & \ldots & x_{ji}-\bar{x_j} & \ldots& x_{jn}-\bar{x_j} \\
    \vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
    x_{p1}-\bar{x_p} & x_{p2}-\bar{x_p} & \ldots & x_{pi}-\bar{x_p} & \ldots& x_{pn}-\bar{x_p} \\
    \end{array}
    \right)
    \)

    \(\left(
    \begin{array}{cccc}
    x_{11}-\bar{x_1} & x_{21}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{p1}-\bar{x_p} \\
    x_{12}-\bar{x_1} & x_{22}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{p2}-\bar{x_p} \\
    \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \\
    x_{1i}-\bar{x_1} & x_{2i}-\bar{x_2} & \ldots & x_{ki}-\bar{x_k} & \ldots& x_{pk}-\bar{x_p} \\
    \vdots & \vdots & \vdots &\vdots & \ddots & \vdots \\
    x_{1n}-\bar{x_1} & x_{2n}-\bar{x_2} & \ldots & x_{kn}-\bar{x_k} & \ldots& x_{pn}-\bar{x_p} \\
    \end{array}
    \right)
    \)

    ここで注意なのは、

    (左辺)はp×pの行列で
    (右辺)はn×p行列と、p×n行列の積であること
    (右辺)は2つとも正方行列ではない点に注意!

    図で描くと下のイメージです。

    テコ比

    確かに行列を式で表記すると
    S=\(X^T X\)
    と書くのでSもXも同じp×p行列と思いがちです。
    行列はシンプルに式が書けるけど、中身をちゃんと追わないと
    間違えやすいので難しいですね。

    【結論】平方和\(S_{jk}\)を行列表記

    \(S\)=\(X^T X\)
    となります。

    平方和\(S_{jy}\)の導出式を行列表記する

    平方和\(S_{jk}\)の行列表記を丁寧に解説しました。同様に、平方和\(S_{jy}\)の導出式を行列表記します。

    平方和\(S_{xx}\)を書き出すと
    \(S_{xx}\)=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
    ですね。

    平方和Sを書き出すと
    S=\((x_1-\bar{x})^2\)+\((x_2-\bar{x})^2\)+…+\((x_i-\bar{x})^2\)+…+\((x_n-\bar{x})^2\)
    =\(\begin{pmatrix}
    x_1-\bar{x} & x_2-\bar{x} & … & x_n-\bar{x} \end{pmatrix}\)\(\begin{pmatrix}
    x_1-\bar{x}\\
    x_2-\bar{x}\\
    …\\
    x_n-\bar{x}
    \end{pmatrix}
    \)
    でしたね。

    ここで、\((x_i-\bar{x})^2\)を\((x_i-\bar{x})(y_i-\bar{y})\)に変えても同様に行列表記できます。

    \(S_{1y}\)=\((x_{j1}-\bar{x_j})(y_1-\bar{y})\)+\((x_{j2}-\bar{x_j})(y_2-\bar{y})\)+…+\((x_{jn}-\bar{x_j})(y_n-\bar{y})\)
    =\(\begin{pmatrix}
    x_{j1}-\bar{x_j} & x_{j2}-\bar{x_j} & … & x_{jn}-\bar{x_j} \end{pmatrix}\)\(\begin{pmatrix}
    y_1-\bar{y}\\
    y_2-\bar{y}\\
    …\\
    y_n-\bar{y}
    \end{pmatrix}
    \)
    とかけるので、
    \(S_{1y}\)=\(X^T Y\)と
    行列表記できますね。

    また、\(S_{1y}\),\(S_{2y}\),…,\(S_{py}\)も同様にして、まとめて行列表記できます。

    \(\left(
    \begin{array}{cccc}
    x_{11}-\bar{x_1} & x_{12}-\bar{x_1} & \ldots & x_{1n}-\bar{x_1}\\
    x_{21}-\bar{x_2} & x_{22}-\bar{x_2} & \ldots & x_{2n}-\bar{x_2}\\
    \vdots & \vdots & \ddots & \vdots \\
    x_{p1}-\bar{x_p} & x_{p2}-\bar{x_p} & \ldots & x_{pn}-\bar{x_p}\\
    \end{array}
    \right)
    \)\(\begin{pmatrix}
    y_{1}-\bar{y}\\
    y_{2}-\bar{y}\\
    …\\
    y_{n}-\bar{y}
    \end{pmatrix}
    \)=\(\begin{pmatrix}
    S_{1y}\\
    S_{2y}\\
    …\\
    S_{py}
    \end{pmatrix}
    \)

    ここで注意なのは、

    (左辺)はn×pの行列とnのベクトルの積で
    (右辺)はpのベクトルであること
    n,p混同しないよう注意!

    図で描くと下のイメージです。

    テコ比

    【結論】平方和\(S_{jy}\)を行列表記

    \(S_{xy}\)=\(X^T Y\)
    となります。

    \(β_k\)の導出式を行列表記する

    さて、回帰直線の傾きを導出する式を再掲します。

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    この式を行列表記すると下図のように

    テコ比

    \(X^T X\)\(β\)=\(X^T Y\)
    とシンプルに書けますね。

    また、(左辺)は\(β\)のみにしたいので、\(X^T X\)の逆行列を両辺にかけます。すると、

    \(β\)=\((X^T X)^{-1}\)\(X^T Y\)
    とシンプルに書けますね。
    \(β\)について行列表記できました!
    ハット行列までもう少しです!

    ➂ハット行列\(H\)を導出する

    回帰\(\hat{Y}\)の導出式を行列表記する

    回帰直線を行列表記すると
    \(\hat{Y}=Xβ\)
    とXが前に、βが後ろに来ます。これをちゃんと理解しましょう!

    回帰直線はn個のデータにおいて、次のn個の式が書けますね。
    ●\(\hat{y_1}-\bar{y}\)=\(β_1 (x_{11}-\bar{x_1})\)+\(β_2 (x_{21}-\bar{x_2})\)+…+\(β_p (x_{p1}-\bar{x_p})\)
    ●\(\hat{y_2}-\bar{y}\)=\(β_1 (x_{12}-\bar{x_1})\)+\(β_2 (x_{22}-\bar{x_2})\)+…+\(β_p (x_{p2}-\bar{x_p})\)

    ●\(\hat{y_n}-\bar{y}\)=\(β_1 (x_{1n}-\bar{x_1})\)+\(β_2 (x_{2n}-\bar{x_2})\)+…+\(β_p (x_{pn}-\bar{x_p})\)
    ですね。これを行列表記すると、下の式になります。じっくり確認してください。

    \(\begin{pmatrix}
    \hat{y_{1}}-\bar{y}\\
    \hat{y_{2}}-\bar{y}\\
    …\\
    \hat{y_{n}}-\bar{y}
    \end{pmatrix}
    \)=\(\left(
    \begin{array}{cccc}
    x_{11}-\bar{x_1} & x_{21}-\bar{x_2} & \ldots & x_{p1}-\bar{x_p}\\
    x_{12}-\bar{x_1} & x_{22}-\bar{x_2} & \ldots & x_{p2}-\bar{x_p}\\
    \vdots & \vdots & \ddots & \vdots \\
    x_{1n}-\bar{x_1} & x_{2n}-\bar{x_2} & \ldots & x_{pn}-\bar{x_p}\\
    \end{array}
    \right)
    \)\(\begin{pmatrix}
    β_1\\
    β_2\\
    …\\
    β_p
    \end{pmatrix}
    \)

    確かに\(\hat{Y}=Xβ\)ですよね。
    逆の\(βX\)の行列計算はできません。

    ハット行列\(H\)を導出する

    さあ、ようやくまとめに入ります。

    回帰直線は\(\hat{Y}\)=\(Xβ\)
    で\(β\)=\((X^T X)^{-1}\)\(X^T Y\)を代入すると
    \(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
    となります。

    \(\hat{Y}\)=\(X\)\((X^T X)^{-1}\)\(X^T\)\( Y\)
    の関係式から\(\hat{Y}\)と\( Y\)の比をテコ比と考えて
    ハット行列\(H\)=\(X\)\((X^T X)^{-1}\)\(X^T\)
    が導出できます。

    ちゃんと導出できました!

    ハット行列、テコ比の具体的な計算は
    「テコ比がよくわかる(その2)」で解説します。
    その2に行ってみましょう!

    まとめ

    「重回帰分析のテコ比がよくわかる(その1)」を解説しました。

    • ①重回帰分析を解く(その1)
    • ➁\(β_k\)の導出式を行列表記する(その1)
    • ➂ハット行列\(H\)を導出する(その1)
    • ➃ハット行列とテコ比を導出する(その2)
    • ➄ハット行列とテコ比を実際に計算する(その2)
    • ⑥テコ比がわかる(その2)

  • 変数増減法がよくわかる

    変数増減法がよくわかる

    「重回帰分析では、説明変数を何種類にすればベストなのかがわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    変数増減法がよくわかる

    おさえておきたいポイント

    • ①変数増減法とは
    • ➁最適な変数の種類の見つけ方
    • ➂変数増減法の例題
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ①変数増減法とは

    変数増減法とは

    複数の独立変数の候補の中から、目的変数yをよく説明する組み合わせを決定する方法です。

    ➁最適な変数の種類の見つけ方

    機械的に見つかるものではない

    残念ながら、機械的に最適な変数の種類が決まる方法は存在しません。
    なぜなら、最適条件を決める方法が目安でしかないから
    変数増減法を使って、変数を絞り込めるが、
    最後は、あなたが変数をそれに決めた理由を説明することが
    最も大事です。
    最適条件を決める方法が目安でしかありませんが、
    それを知っておくことは重要です。

    変数の数を決める目安

    その変数を選ぶのが妥当かどうかを決める目安は、重回帰分析で出て来る値の妥当性となります。具体的には、

    1. 回帰平方和\(S_R\)と総平方和\(S_T\)の比
    2. 回帰の分散分析によるF検定
    3. 多重共線性が起きていないかどうかチェック
    4. その変数の偏回帰係数の検定

    くらいです。

    結構使えそうな判定条件ですが、説明力に欠ける点があります。

    1. 平方和の比の大小を見ても、判定基準はどこにもない(自分で決めるしかない)
    2. F検定、偏回帰係数の検定などの検定結果は絶対正しいという意味ではない
    3. 多重共線性の有無は人それぞれの見解になる

    つまり、

    変数増減法や重回帰分析からいろいろな数字を出してくれるが
    判断は自分で決めるしかありません。

    変数増減法の手法を暗記するより、むしろ目的とする目的変数yを表現する説明変数が妥当かどうかは考える方が大事です。

    最後は自分で論理を組むしかない

    変数増減法や重回帰分析からいろいろな数字を出してくれるが
    判断は自分で決めるしかありません。

    自分で論理を組んで、妥当性を評価するには、データの特性なり、あなたのデータを評価する人と妥当性を確認するなどが必要です。数学を使って、機械的に誰もが同じ結果になるわけではありません。

    変数増減法という手段を解くことが目的化しないよう
    注意が必要です。

    ➂変数増減法の例題

    最後は、自分で考えて結論を出す変数増減法ですが、具体事例を見ながら変数の種類による変化を見ていきましょう。

    データ事例

    説明変数が最大3種類あるデータを用意して、変数を増やしながら重回帰分析の変化を見て来ましょう。使うデータを下表にようにします。

    No x1 x2 x3 y
    1 10 8 4 56
    2 12 7 5 62
    3 14 7.5 3 64
    4 13 9 11 68
    5 10 6.5 8 72
    6 25 6 5 76
    7 22 6.5 6 80
    8 25 7 7 82
    9 23 5.5 10 80
    10 16 7 21 90
    sum 170 70 80 730
    ave 17 7 8 73

    説明変数が1つの場合

    まず、説明変数x1だけの場合の単回帰分析をやってみましょう。

    No x1 x2 x3 y
    1 10 56
    2 12 62
    3 14 64
    4 13 68
    5 10 72
    6 25 76
    7 22 80
    8 25 82
    9 23 80
    10 16 90
    sum 170 730
    ave 17 73

    単回帰分析の結果をまとめます。一度は手を動かして計算してみてくださいね。いい練習になります。

    分散分析 平方和S 自由度φ 平均平方 寄与率R 回帰直線
    回帰R 436.26 1 436.26 0.662 y切片β0 53.68
    残差e 557.74 8 69.72 傾きβ1 1.136
    合計T 994 9 傾きβ2
    傾きβ3

    説明変数を1⇒2に増やした場合

    次に説明変数x2を追加して単回帰分析から重回帰分析に切り替えてやってみましょう。これも手計算で確認してみましょう。いい練習になります。

    No x1 x2 x3 y
    1 10 8 56
    2 12 7 62
    3 14 7.5 64
    4 13 9 68
    5 10 6.5 72
    6 25 6 76
    7 22 6.5 80
    8 25 7 82
    9 23 5.5 80
    10 16 7 90
    sum 170 70 730
    ave 17 7 73

    重回帰分析の結果をまとめます。一度は手を動かして計算してみてくださいね。いい練習になります。

    分散分析 平方和S 自由度φ 平均平方 寄与率R 回帰直線
    回帰R 457.15 2 228.58 0.678 y切片β0 69.97
    残差e 536.85 7 76.69 傾きβ1 0.95
    合計T 994 9 傾きβ2 -1.88
    傾きβ3

    説明変数を2⇒3に増やした場合

    次に説明変数x3を重回帰分析します。さすがに説明変数が3つあると手計算はキツイので、Excelを使いましょう。

    No x1 x2 x3 y
    1 10 8 4 56
    2 12 7 5 62
    3 14 7.5 3 64
    4 13 9 11 68
    5 10 6.5 8 72
    6 25 6 5 76
    7 22 6.5 6 80
    8 25 7 7 82
    9 23 5.5 10 80
    10 16 7 21 90
    sum 170 70 80 730
    ave 17 7 8 73

    重回帰分析の結果をまとめます。

    分散分析 平方和S 自由度φ 平均平方 寄与率R 回帰直線
    回帰R 905.66 3 301.89 0.955 y切片β0 60.93
    残差e 88.34 6 14.72 傾きβ1 0.93
    合計T 994 9 傾きβ2 -2.07
    傾きβ3 1.35

    と3回、回帰分析したので、違いを比較してみましょう。

    ➃変数の数と重回帰分析の影響

    説明変数の種類による回帰分析の違い

    説明の種類と平方和・寄与率・回帰直線の違いを下表にまとめました。

    平方和S x1 x1,x2 x1,x2,x3
    回帰平方和SR 436.26 457.15 905.66
    残差平方和Se 557.74 536.85 88.34
    総平方和ST 994 994 994
    寄与率 0.662 0.678 0.955
    回帰直線 x1 x1,x2 x1,x2,x3
    y切片β0 53.69 69.97 60.93
    傾きβ1 1.13 0.95 0.93
    傾きβ2 -1.88 -2.07
    傾きβ3 1.35

    説明変数を増やすと回帰平方和SRと寄与率Rは増大

    基本的には、説明変数を増やすと回帰平方和SRと寄与率Rは増大し

    ●回帰平方和SR は総平方和STに近づき
    ●寄与率Rは1に近づく

    もちろん、多重共線性によって、正の相関があるのに、回帰直線の傾きが負になることがありますが、基本的には、説明変数を増やすと回帰平方和SRと寄与率Rは増大します。

    式で書くと、
    ●\(SR\)=\(\frac{S_{xy}^2}{S_{xx}}\) (単回帰の場合)
    ●\(SR\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\) (重回帰2変数の場合)
    ●\(SR\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)+\(β_3 S_{3y}\) (重回帰3変数の場合)

    となっていきます。

    重回帰分析の\(SR\)は加算する項が説明変数の数だけ増えるし、
    平方和\( S_{iy}\)はすべて正なので、
    偏回帰係数\(β_i\)がすべて正なら、回帰平方和SR は単調増加し総平方和STに近づきますよね!

    なので、寄与率も増加し精度の高い回帰直線ができるわけですが、それだけよいかどうかいろいろ疑問に思いますよね。だから、いろいろ検定したりチェックして説明変数の種類の妥当性を確認する必要があります。

    説明変数をいろいろいじって重回帰分析しても

    1. 平方和の比の大小を見ても、判定基準はどこにもない(自分で決めるしかない)
    2. F検定、偏回帰係数の検定などの検定結果は絶対正しいという意味ではない
    3. 多重共線性の有無は人それぞれの見解になる

    なので、最終的にはあなたの論理で重回帰分析に用いる説明変数を決めることになります。

    まとめ

    「変数増減法がよくわかる」を解説しました。

    • ①変数増減法とは
    • ➁最適な変数の種類の見つけ方
    • ➂変数増減法の例題

  • 偏回帰係数に関する検定と推定がよくわかる

    偏回帰係数に関する検定と推定がよくわかる

    「偏回帰係数に関する検定と推定がわからない!」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    偏回帰係数に関する検定と推定がよくわかる

    おさえておきたいポイント

    • ①偏回帰係数に関する検定と推定の式を導出
    • ➁検定・推定を解くための例題
    • ➂偏回帰係数に関する検定の例題
    • ➃偏回帰係数に関する推定の例題
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    では、解説します。

    ①偏回帰係数に関する検定と推定の式を導出

    偏回帰係数の期待値と分散を導出

    偏回帰係数の期待値と分散が本記事のキーポイントとなりますが、結構難しいです。関連記事で詳細に解説していますので、確認しましょう。

    重回帰分析の推定区間の式が導出できる(その1)
    重回帰分析の推定区間の式は導出できますか?公式代入だけで終わっていませんか? 本記事では2記事にわたり、重回帰分析の推定区間の式が導出をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    重回帰分析の推定区間の式が導出できる(その2)
    重回帰分析の推定区間の式は導出できますか?公式代入だけで終わっていませんか? 本記事では2記事にわたり、重回帰分析の推定区間の式が導出をわかりやすく解説します。本記事は「その2」です。多変量解析を学ぶ人は必読です。

    偏回帰係数の期待値と分散

    ●E[\(β_j\)]=\(β_j\)
    ●V[\(β_j\)]=\(σ^2\)\(S^{jj}\)

    偏回帰係数に関する検定の式を導出

    t分布(正規分布でもいいと思いますけど)で検定するために、
    \(z=\frac{x-\bar{x}}{σ}\)な式を作ります。

    (分子)は偏回帰係数に関する検定なので、
    ●(分子)=\(β_i-β_{i0}\) (\(β_{i0}\)は検定で使う値)

    分母は分散を使うので、
    ●V[\(β_j\)]=\(σ^2\)\(S^{jj}\)
    ですが、\(σ^2\)は未知なので代わりに\(V_e\)を使って
    ●V[\(β_j\)]=\( V_e \)\(S^{jj}\)
    を使うと、

    検定統計量(t分布)は
    \(t\)=\(\frac{β_i-β_{i0}}{ \sqrt{V_e S^{jj}}}\)
    を使って、検定します。

    ●検定統計量
    \(t\)=\(\frac{β_i-β_{i0}}{ \sqrt{V_e S^{jj}}}\)

    偏回帰係数に関する推定の式を導出

    検定統計量の式が出来たらあとは、t分布の推定区間を求める式を作ればいいので、
    \(β\)±\(t(Φ,α)\sqrt{ V_e S^{jj} }\)
    の式となりますよね。

    ●推定区間の式
    \(β\)±\(t(Φ,α)\sqrt{ V_e S^{jj} }\)

    ➁検定・推定を解くための例題

    データを用意

    下表のような説明変数が2つのデータを用意します。

    x1 x2 y
    8 3 3
    11 2 4
    9 4 4
    12 4 7
    11 5 7
    9 6 5

    重回帰分析しよう!

    ●問題です。
    上の表を重回帰分析して、下表の各値を求めよ。
    変数 変数
    \(S_{11}\)= ?? \(S^{11}\)= ??
    \(S_{12}\)= ?? \(S^{12}\)= ??
    \(S_{22}\)= ?? \(S^{22}\)= ??
    \(S_{1y}\)= ?? \(β_0\)= ??
    \(S_{2y}\)= ?? \(β_1\)= ??
    \(S_{yy}\)= ?? \(β_2\)= ??
    \(S_R\)= ?? \(V_R\)= ??
    \(S_e\)= ?? \(V_e\)= ??
    \(S_T\)= ??

    さっと計算できますか? \(S^{ij}\)は\(S_{ij}\)の逆行列の各成分です。

    重回帰分析の結果

    答えは下表です。

    変数 変数
    \(S_{11}\)= 12 \(S^{11}\)= 0.084(\(\frac{10}{119}\))
    \(S_{12}\)= -1 \(S^{12}\)= 0.0084(\(\frac{1}{119}\))
    \(S_{22}\)= 10 \(S^{22}\)= 0.1008(\(\frac{11}{119}\))
    \(S_{1y}\)= 10 \(β_0\)= -6.664
    \(S_{2y}\)= 6 \(β_1\)= 0.891
    \(S_{yy}\)= 14 \(β_2\)= 0.689
    \(S_R\)= 8.33 \(V_R\)= 4.165
    \(S_e\)= 5.67 \(V_e\)= 1.89
    \(S_T\)= 14

    さて、検定と推定をやってみましょう。

    ➂偏回帰係数に関する検定の例題

    例題

    偏回帰係数が2つあるので、それぞれ検定しましょう。

    ●問題です。
    問1 偏回帰係数\(β_1\)が1から変化したかどうかを有意水準α=5%で検定せよ。
    問2 偏回帰係数\(β_2\)が0から変化したかどうかを有意水準α=5%で検定せよ。

    解法

    公式を再掲します。

    ●検定統計量
    \(t\)=\(\frac{β_i-β_{i0}}{ \sqrt{V_e S^{jj}}}\)

    問1

    検定統計量の式に値を代入します。
    \(t_1\)=\(\frac{β_1-β_{10}}{ \sqrt{V_e S^{11}}}\)
    =\(\frac{0.891-1}{\sqrt{ 1.89 × 0.084}}\)
    =-0.274

    棄却域(両側検定とします)は
    t(\(Φ_e\),α)=t(3,0.05)=3.182

    |\(t_1\)|=0.274 < 3.182
    より、仮説は棄却されず、
    偏回帰係数\(β_1\)が1から変化したとはいえない。
    となります。

    問2

    検定統計量の式に値を代入します。
    \(t_2\)=\(\frac{β_2-β_{20}}{ \sqrt{V_e S^{22}}}\)
    =\(\frac{0.689-0}{ \sqrt{1.89 × 0.1008}}\)
    =1.580

    棄却域(両側検定とします)は
    t(\(Φ_e\),α)=t(3,0.05)=3.182

    |\(t_2\)|=1.580 < 3.182
    より、仮説は棄却され、
    偏回帰係数\(β_2\)が1から変化したとはいえない。
    となります。

    ➃偏回帰係数に関する推定の例題

    例題

    偏回帰係数が2つあるので、それぞれ検定しましょう。

    ●問題です。
    問1 偏回帰係数\(β_1\)の95%の区間推定を求めよ。
    問2 偏回帰係数\(β_2\)の95%の区間推定を求めよ。

    解法

    公式を再掲します。

    ●推定区間の式
    \(β\)±\(t(Φ,α)\sqrt{ V_e S^{jj} }\)

    問1

    推定区間の式に値を代入します。
    \(β_1\)±\(t(Φ_e(=3),α(=0.05))\sqrt{ V_e S^{11} }\)
    =0.891±3.182×\(\sqrt{1.89×0.084}\)
    =0.891±1.268
    となります。

    問2

    推定区間の式に値を代入します。
    \(β_2\)±\(t(Φ_e(=3),α(=0.05))\sqrt{ V_e S^{22} }\)
    =0.689±3.182×\(\sqrt{1.89×0.1008}\)
    =0.689±1.389
    となります。

    できましたね。単なる公式の代入になりがちですが、関連記事を活用して公式の導出も理解しましょう。

    まとめ

    「偏回帰係数に関する検定と推定がよくわかる」を解説しました。

    • ①偏回帰係数に関する検定と推定の式を導出
    • ➁検定・推定を解くための例題
    • ➂偏回帰係数に関する検定の例題
    • ➃偏回帰係数に関する推定の例題

  • 重回帰分析のダミー変数の使い方がよくわかる

    重回帰分析のダミー変数の使い方がよくわかる

    「ダミー変数の入れ方・値によって重回帰分析の結果にどう影響が出るか心配!」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析のダミー変数の使い方がよくわかる

    おさえておきたいポイント

    • ①ダミー変数とは
    • ➁説明変数を変換すると重回帰分析がどう変化するかを理解する
    • ➂ダミー変数の入れ方と重回帰分析の変化を理解する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ダミー変数の値が変わると
    ●ダミー変数の回帰直線の傾きの値は変化し、
    ●回帰直線y切片の値も変化するが、
    ●他の説明変数の回帰直線の傾きの値は変化しないし、
    ●平方和(総平方和、回帰平方和、残差平方和)は変化しない
    ことを本記事で解説します!
    ダミー変数の値の入れ方は
    ルールが確定していたら、値は何でもいいけど
    回帰直線、平方和、分散分析にどう影響するかを
    理解しよう!

    では、解説します。

    ①ダミー変数とは

    ダミー変数とは

    重回帰分析では、0か1のどちらかの値を取る変数などの「計数値」を変数として使う場合があります。この計数値のことをダミー変数と呼びます。

    ダミー変数の入れ方は3パターンある

    ダミー変数の入れ方はいろいろなニーズがあります。例えば、
    ●0と1とか
    ●0と2とか
    ●1と2とか
    ●5と10とか
    ●-1と1とか
    の2値データとか、
    たくさんパターンが出ますよね!

    ●0,1,2,3,…と1ずつ増やしていく多値データとか

    いろいろあります。

    2値データの応用が多値データなので、2値データで考えましょう。

    再掲すると
    ●0と1とか
    ●0と2とか
    ●1と2とか
    ●5と10とか
    ●-1と1とか
    の2値データとか、
    は数式で書くと、3つのパターンに分ける事ができます。

    1. 0,1が基本パターンで定数倍したもの(x⇒ax)
    2. 0,1が基本パターンで定数値を加減したもの(x⇒x+a)
    3. 0,1が基本パターンで定数倍と定数値の加減を組み合わせたもの(x⇒ax+b)

    3つに分けてもイマイチ理解できませんよね!
    なので、実際に解いてみると下表になります。

    パターン 0,1との比較 数式
    0,2のパターン 0,1に対して2倍 2x
    1,2のパターン 0,1に対して1加算 x+1
    5,10のパターン 0,1に対して5倍して5加算 5(x+1)
    -1,1のパターン 0,1に対して2倍して1引く 2x-1

    いろいろな2値データのパターンがありますが、数式で書くと3つしかないことがわかりますよね。

    1. x
    2. ax (a:定数)
    3. ax+b(a,b:定数)
    重回帰分析のダミー変数の使い方がわかるには、
    ●0,1のパターン
    ●0,1に定数倍したパタン
    ●0,1に定数倍と定数値を加減したパターン
    の3つの違いを理解すればOK
    ですね。

    ➁説明変数を変換すると重回帰分析がどう変化するかを理解する

    結論は、

    (その1)は \(x_1’\)=\(ax_1\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和\(S_T\)、回帰平方和\(S_R\)、残差平方和\(S_e\)は変わらない。

    となります。

    詳細は、関連記事で解説しています。ご確認ください。

    重回帰分析は単位に影響されない理由がわかる
    重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか? 本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。多変量解析を学ぶ人は必読です。

    (その2)は \(x_1’\)=\(ax_1+b\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    詳細は、関連記事で解説しています。ご確認ください。

    重回帰分析は単位に影響されない理由がわかる(その2)
    重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか?本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。(その1)はx’=axの場合、今回(その2)はx’=ax+bの場合について解説します。ダミー変数導入に必要な記事なので、多変量解析を学ぶ人は必読です。

    まとめると、

    (その2)は \(x_1’\)=\(ax_1+b\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    ダミー変数の入れ方によって回帰直線のダミー変数が関わる所は変化するが、それ以外は変わらないと理解しておきましょう。

    説明変数を変換すると、
    回帰直線の傾き、y切片が変化する理由や
    平方和は不変である理由を関連記事で解説しています。
    数式を使った証明は関連記事で確認ください。
    本記事は具体的な解説例で確認していきます。

    本当かどうか、実例を挙げて確認します。

    ➂ダミー変数の入れ方と重回帰分析の変化を理解する

    データを用意

    以下のデータを用意します。

    x1 x2 y
    ?? 3 3
    ?? 2 4
    ?? 4 4
    ?? 4 7
    ?? 5 7
    ?? 6 5

    \(x_1\)の「??」にダミー変数をいれて、2つの説明変数からなる重回帰分析をやってみましょう。

    ダミー変数を代入

    次の3種類のダミー変数を用意します。

    (i-1)x (i-2)5x (i-3)2x-1
    0 0 -1
    0 0 -1
    0 0 -1
    1 5 1
    1 5 1
    1 5 1

    データ表をまとめます。

    (i-1)x (i-2)5x (i-3)2x-1 x2 y
    0 0 -1 3 3
    0 0 -1 2 4
    0 0 -1 4 4
    1 5 1 4 7
    1 5 1 5 7
    1 5 1 6 5

    では、解析しましょう。

    重回帰分析の実施結果

    回帰直線\(y=β_0+β_1 x_1+β_2 x_2\)と平方和の解析結果を比較しましょう。
    黄色マーカが変化したところです。

    (i-1)x (i-2)5x (i-3)2x-1
    回帰直線 (y切片)\(β_0\) 5.167 5.167 7
    回帰直線 (x1傾き)\(β_1\) 3.677 0.733 1.833
    回帰直線 (x2傾き)\(β_2\) -0.5 -0.5 -0.5
    平方和 \(S_R\) 10.667 10.667 10.667
    平方和 \(S_e\) 3.333 3.333 3.333
    平方和 \(S_T\) 14 14 14

    確かに、

    (その1)は \(x_1’\)=\(ax_1\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和\(S_T\)、回帰平方和\(S_R\)、残差平方和\(S_e\)は変わらない。

    となります。
    (その2)は \(x_1’\)=\(ax_1+b\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    となっていますね。

    ダミー変数の値が変わると
    ●ダミー変数の回帰直線の傾きの値は変化し、
    ●回帰直線y切片の値も変化するが、
    ●他の説明変数の回帰直線の傾きの値は変化しないし、
    ●平方和(総平方和、回帰平方和、残差平方和)は変化しない
    ことがわかりましたね!

    理由が気になったら関連記事で確認しましょう。数式で理由をわかりやすく解説しています。

    まとめ

    「重回帰分析のダミー変数の使い方がよくわかる」を解説しました。

    • ①ダミー変数とは
    • ➁説明変数を変換すると重回帰分析がどう変化するかを理解する
    • ➂ダミー変数の入れ方と重回帰分析の変化を理解する

  • 重回帰分析は単位に影響されない理由がわかる(その2)

    重回帰分析は単位に影響されない理由がわかる(その2)

    「重回帰分析は、途中で単位を変更しても大丈夫なの?」と疑問に思っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析は単位に影響されない理由がわかる(その2)

    おさえておきたいポイント

    • ①説明変数が定数倍変化した場合
    • ➁説明変数が定数倍に定数値を加算した場合
    • ➂回帰直線の値の変化を数式で理解する
    • ➃回帰、残差平方和は変化しない
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    変化する・しない理由を数式で理解しよう!
    (その1)は \(x_1’\)=\(ax_1\)の場合
    本記事の(その2)は\(x_1’\)=\(ax_1+b\)の場合

    定数値\(b\)を加算すると重回帰分析にどう影響するか?を解説します。

    本記事も、(その1)と同様に、わかりやすく説明するために説明変数は2つだけの重回帰分析を使って解説します。

    ①説明変数が定数倍変化した場合

    ダミー変数導入の時に本記事が必要

    本記事の(その2)は\(x_1’\)=\(ax_1+b\)の場合を解説する理由は、

    ダミー変数導入の時に本記事が必要

    ダミー変数を使って重回帰分析する場合、ダミー変数をいくらにすればよいか?気になりますよね。

    ●ダミー変数:0,1、2と1ずつ増やすか?
    ●ダミー変数:0,5,10とか一定数ずつ増やした方がいいのか?
    などです。

    0,1,2と1ずつ増やしたり、
    1,6,11と増やしたりと考える場合、両者の関係は
    「5倍して1足す」関係ですよね。
    つまり、本記事の
    \(x_1’\)=\(ax_1+b\)の場合
    がベースとなるので、解説が必要なのです!

    詳細は関連記事で確認

    (その1)は \(x_1’\)=\(ax_1\)の場合を解説しています。この内容をベースに本記事を解説しますので、先に確認ください。

    重回帰分析は単位に影響されない理由がわかる
    重回帰分析で説明変数の単位を変更すると何が変化するか、しないかは説明できますか? 本記事では、数式で丁寧に導出して説明変数の単位の変化による重回帰分析の影響を解説します。多変量解析を学ぶ人は必読です。

    説明変数が定数倍変化した場合

    関連記事の結果をまとめると

    (その1)は \(x_1’\)=\(ax_1\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和\(S_T\)、回帰平方和\(S_R\)、残差平方和\(S_e\)は変わらない。

    となります。

    以上、
    \(x_1’\)=\(ax_1\)の場合は理解できました。
    では、
    \(x_1’\)=\(ax_1\)+\(b\)の場合を
    これから解説していきます。

    数式で理解しましょう!

    ➁説明変数が定数倍に定数値を加算した場合

    理解に必要な公式と関連記事

    本記事で使う重回帰分析の公式とその導出過程を詳細にまとめた関連記事を紹介します。しっかり確認しましょう。

    なお、本記事では、わかりやすさを優先するために、説明変数が2つの場合について解説します。

    おさえておきたい公式

    ●平方和の分解
    \(S_T\)=\(S_R\)+\(S_{e}\)
    (総平方和)=(回帰平方和)+(残差平方和)
    ●回帰平方和
    \(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    ●平方和
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)
    ●傾き\(β_1\)、\(β_2\)の導出
    \(S_{11}b+S_{12}c\)=\(S_{1y}\)
    \(S_{12}b+S_{22}c\)=\(S_{2y}\)
    から
    \(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
    \(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)
    ●y切片\(β_0\)の導出
    \(β_0\)=\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\)

    すべて、計算で解けます。公式暗記は禁物です。解けない場合は関連記事で解けるようにしましょう!

    関連記事

    平方和の分解と分散分析ができる(重回帰分析)
    重回帰分析の分散分析をする際にデータの構造式を使って平方和の分解が自力で計算できますか?本記事では公式暗記に頼りがちな重回帰分析の分散分析の解析までの流れを途中経過を一切端折らず丁寧に解説します。多変量解析を学ぶ人は必読です。

    事例

    実際に下表データにおいて、
    ●(i)説明変数\(x_1\)の場合
    ●(ii)説明変数\(x_1\)を1/100倍に変えた場合
    ●(iii)説明変数\(x_1\)を1/100倍に変えて、さらに7/100足した場合
    それぞれ重回帰分析しましょう。下表では、左側から右側を比較しましょう。

    (i)\(x_1\) (ii)\(x_1’\)=\(\frac{x_1}{100}\) (iii)\(x_1’\)=\(\frac{x_1}{100}+\frac{7}{100}\) \(x_2\) \(y\)
    1 0.01 0.08 3 3
    4 0.04 0.11 2 4
    2 0.02 0.09 4 4
    5 0.05 0.12 4 7
    4 0.04 0.11 5 7
    2 0.02 0.09 6 5

    重回帰分析すると下の結果になります。一度、計算して確かめてみてください!いい練習になります!

    (i)\(x_1\) (ii)\(x_1’\)=\(\frac{x_1}{100}\) (iii)\(x_1’\)=\(\frac{x_1}{100}+\frac{7}{100}\)
    y切片\(β_0\) -0.429 -0.429 -6.664
    傾き\(β_1\) 0.891 89.076 89.076
    傾き\(β_2\) 0.689 0.689 0.689
    総平方和\(S_T\) 14 14 14
    回帰平方和\(S_R\) 8.333 8.333 8.333
    残差平方和\(S_e\) 5.667 5.667 5.667

    確かに、

    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    (今回は\(a=1/100\))
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    この理由を数式で証明しましょう。数式で理解するとよくわかります!

    ➂回帰直線の値と平方和の値の変化を数式で理解する

    数式を準備する

    上で紹介した式を再掲します。

    ●平方和
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)
    ●傾き\(β_1\)、\(β_2\)の導出
    \(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
    \(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)
    ●y切片\(β_0\)の導出
    \(β_0\)=\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\)

    ここで、説明変数\(x_1\)が\(x_1’\)に変化するので、回帰直線の傾きも変化するかもしれません。なので、\(β_0\)⇒\(β_0’\)、\(β_1\)⇒\(β_1’\)、\(β_2\)⇒\(β_2’\)とします。

    説明変数は
    ●\(x_1’\)=\(ax_1\)
    ●\(x_2’\)=\(x_2\)
    ですから、平方和の式に代入しましょう。

    平方和の変化

    代入します。

    ●平方和
    ・\(S_{1’1’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x’_1})^2\)
    =\(\sum_{i=1}^{n}((ax_1+b)-(\bar{ax_1}+b))^2\)
    =\(a^2\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    =\(a^2 S_{11}\)
    ですね。

    あと同様に、
    ・\(S_{2’2’}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})^2\)
    =\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    =\(S_{22}\)

    ・\(S_{1’2’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(x_2’-\bar{x_2’})\)
    =\(\sum_{i=1}^{n}((ax_1+b)-(\bar{ax_1}+b))(x_2-\bar{x_2})\)
    =\(a\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    =\(a_S{12}\)

    ・\(S_{1’y}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(y-\bar{y})\)
    =\(a S_{1y}\)
    ・\(S_{2’y}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})(y-\bar{y})\)
    =\(S_{2y}\)

    まとめると
    ●\(S_{1’1’}\)=\(a^2 S_{11}\)
    ●\(S_{2’2’}\)=\(S_{22}\)
    ●\(S_{1’2’}\)=\(a_S{12}\)
    ●\(S_{1’y}\)=\(a S_{1y}\)
    ●\(S_{2’y}\)=\(S_{2y}\)
    となります。

    回帰直線の係数を計算

    傾きの式に\(x_1’\),\(x_2’\)を代入します。

    回帰直線の傾き\(β_1’\)

    \(β_1’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (S_{2’2’} S_{1’y} – S_{1’2’} S_{2’y})\)
    =\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (a S_{22} S_{1y} – a S_{12} S_{2y})\)
    =\(\frac{1}{a}\frac{1}{S_{11} S_{22} – S_{12}^2} ( S_{22} S_{1y} – S_{12} S_{2y})\)
    =\(\frac{1}{a} β_1\)
    となりますね。

    回帰直線の傾き\(β_2’\)

    \(β_2’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (-S_{1’2’} S_{1’y} +S_{1’1’} S_{2’y})\)
    =\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (-a^2 S_{12} S_{1y} +a^2 S_{11} S_{2y})\)
    =\(\frac{1}{ S_{11} S_{22} –S_{12}^2} (-S_{12} S_{1y} + S_{11} S_{2y})\)
    =\(β_2\)
    となりますね。

    回帰直線のy切片\(β_0’\)

    \(β_0’\)=\(\bar{y}\)-\(β_1’ \bar{x_1’}\)-\(β_2’ \bar{x_2’}\)
    =\(\bar{y}\)-\(\frac{1}{a}β_1 (a\bar{x_1}+b)\)-\(β_2 \bar{x_2}\)
    =\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(\frac{b}{a}β_1\)-\(β_2 \bar{x_2}\)
    =(\(\bar{y}\)-\(β_1 \bar{x_1}\)-\(β_2 \bar{x_2}\))-\(\frac{b}{a}β_1\)
    =\(β_0\)-\(\frac{b}{a}β_1\)
    となりますね。

    次に平方和を計算してみましょう。

    ➃回帰、残差平方和は変化しない

    平方和の分解

    平方和の式を書きましょう。関連記事にもあるように、

    モデル式 (\(y-\bar{y}\))=(\(\hat{y}-\bar{y}\))+(\(y-\hat{y}\))は
    (\(\hat{y}\)は回帰直線上にのる値)
    \(\sum_{i=1}^{n} (y-\bar{y})^2\)=\(\sum_{i=1}^{n} (\hat{y}-\bar{y})^2\)+\(\sum_{i=1}^{n} (y-\hat{y})^2\)
    となり、
    \(S_T\)=\(S_R\)+\(S_e\)
    ですね。

    平方和、回帰平方和、残差平方和は変化しない

    実は、説明変数\(x_i\)が変化して影響を受けるのは、\(\hat{y}\)がある成分です。

    よって、

    ●総平方和\(S_T\)は変わらない

    回帰平方和\(S_R\)を計算

    次に回帰平方和\(S_R\)を計算しましょう。

    \(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    ですから、
    \(S_R\)=\(β_1’ S_{1’y}\)+\(β_2’ S_{2’y}\)
    とすると、
    =\(\frac{1}{a}β_1 a S_{1y}\)+\(β_2 S_{2y}\)
    =\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    \(S_R\)
    となります。よって、

    ●回帰平方和\(S_R\)は変わらないし
    ●残差平方和\(S_e\)=\(S_T\)-\(S_R\)も変わらない
    つまり、各平方和の成分は変化しないとわかります。

    ちゃんと証明できましたね。結論を再掲すると

    (その2)は \(x_1’\)=\(ax_1+b\)の場合
    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●\(x_1’\)の回帰直線のy切片\(β_0’\)が\(β_0-\frac{b}{a}β_0\)に変化する。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    まとめ

    「重回帰分析は単位に影響されない理由がわかる(その2)」を解説しました。

    • ①説明変数が定数倍変化した場合
    • ➁説明変数が定数倍に定数値を加算した場合
    • ➂回帰直線の値の変化を数式で理解する
    • ➃回帰、残差平方和は変化しない

  • 重回帰分析は単位に影響されない理由がわかる

    重回帰分析は単位に影響されない理由がわかる

    「重回帰分析は、途中で単位を変更しても大丈夫なの?」と疑問に思っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析は単位に影響されない理由がわかる

    おさえておきたいポイント

    • ①単位を変えた場合
    • ➁単位を変えた説明変数の傾きだけが変わる理由
    • ➂単位を変えても回帰、残差平方和は変化しない
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    変化する・しない理由を数式で理解しよう!

    ①単位を変えた場合

    理解に必要な公式と関連記事

    本記事で使う重回帰分析の公式とその導出過程を詳細にまとめた関連記事を紹介します。しっかり確認しましょう。

    なお、本記事では、わかりやすさを優先するために、説明変数が2つの場合について解説します。

    おさえておきたい公式

    ●平方和の分解
    \(S_T\)=\(S_R\)+\(S_{e}\)
    (総平方和)=(回帰平方和)+(残差平方和)
    ●回帰平方和
    \(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    ●平方和
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)
    ●傾き\(β_1\)、\(β_2\)の導出
    \(S_{11}b+S_{12}c\)=\(S_{1y}\)
    \(S_{12}b+S_{22}c\)=\(S_{2y}\)
    から
    \(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
    \(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

    すべて、計算で解けます。公式暗記は禁物です。解けない場合は関連記事で解けるようにしましょう!

    関連記事

    平方和の分解と分散分析ができる(重回帰分析)
    重回帰分析の分散分析をする際にデータの構造式を使って平方和の分解が自力で計算できますか?本記事では公式暗記に頼りがちな重回帰分析の分散分析の解析までの流れを途中経過を一切端折らず丁寧に解説します。多変量解析を学ぶ人は必読です。

    変わるものと変わらないものがある

    ここで、説明変数\(x_1\)の単位が変わって

    \(x_1’\)=\(ax_1\) (\(a\)は定数倍)

    に変化したとしましょう。

    すると、結論は、

    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となります。

    事例

    実際に下表データにおいて、説明変数\(x_1\)を1/100に変えて、それぞれ重回帰分析しましょう。下表では、左側から右側を比較しましょう。

    x1 x2 y x1′ x2 y
    1 3 3 0.01 3 3
    4 2 4 0.04 2 4
    2 4 4 0.02 4 4
    5 4 7 0.05 4 7
    4 5 7 0.04 5 7
    2 6 5 0.02 6 5

    重回帰分析すると下の結果になります。一度、計算して確かめてみてください!いい練習になります!

    \(x_1\)の場合 \(x_1’\)=\(\frac{x_1}{100}\)の場合
    y切片\(β_0\) -0.429 -0.429
    \(x1\)の傾き\(β_1\) 0.891 89.076
    \(x1\)の傾き\(β_2\) 0.691 0.691
    総平方和\(S_T\) 14 14
    回帰平方和\(S_R\) 8.333 8.333
    残差平方和\(S_e\) 5.667 5.667

    確かに、

    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    (今回は\(a=1/100\))
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    この理由を数式で証明しましょう。数式で理解するとよくわかります!

    ➁単位を変えた説明変数の傾きだけが変わる理由

    傾きを導出する式

    上で紹介した式を再掲します。

    ●平方和
    ・\(S_{11}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    ・\(S_{22}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    ・\(S_{12}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    ・\(S_{1y}\)=\(\sum_{i=1}^{n}(x_1-\bar{x_1})(y-\bar{y})\)
    ・\(S_{2y}\)=\(\sum_{i=1}^{n}(x_2-\bar{x_2})(y-\bar{y})\)
    ●傾き\(β_1\)、\(β_2\)の導出
    \(β_1\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (S_{22} S_{1y} – S_{12} S_{2y})\)
    \(β_2\)=\(\frac{1}{S_{11} S_{22} – S_{12}^2} (-S_{12} S_{1y} +S_{11} S_{2y})\)

    ここで、説明変数\(x_1\)が\(x_1’\)に変化するので、回帰直線の傾きも変化するかもしれません。なので、\(β_1\)⇒\(β_1’\)、\(β_2\)⇒\(β_2’\)とします。

    説明変数は
    ●\(x_1’\)=\(ax_1\)
    ●\(x_2’\)=\(x_2\)
    ですから、平方和の式に代入しましょう。

    平方和の変化

    代入します。

    ●平方和
    ・\(S_{1’1’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x’_1})^2\)
    =\(\sum_{i=1}^{n}(ax_1-\bar{ax_1})^2\)
    =\(a^2\sum_{i=1}^{n}(x_1-\bar{x_1})^2\)
    =\(a^2 S_{11}\)
    ですね。

    あと同様に、
    ・\(S_{2’2’}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})^2\)
    =\(\sum_{i=1}^{n}(x_2-\bar{x_2})^2\)
    =\(S_{22}\)

    ・\(S_{1’2’}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(x_2’-\bar{x_2’})\)
    =\(\sum_{i=1}^{n}(ax_1-\bar{ax_1})(x_2-\bar{x_2})\)
    =\(a\sum_{i=1}^{n}(x_1-\bar{x_1})(x_2-\bar{x_2})\)
    =\(a_S{12}\)

    ・\(S_{1’y}\)=\(\sum_{i=1}^{n}(x_1’-\bar{x_1’})(y-\bar{y})\)
    =\(a S_{1y}\)
    ・\(S_{2’y}\)=\(\sum_{i=1}^{n}(x_2’-\bar{x_2’})(y-\bar{y})\)
    =\(S_{2y}\)

    まとめると
    ●\(S_{1’1’}\)=\(a^2 S_{11}\)
    ●\(S_{2’2’}\)=\(S_{22}\)
    ●\(S_{1’2’}\)=\(a_S{12}\)
    ●\(S_{1’y}\)=\(a S_{1y}\)
    ●\(S_{2’y}\)=\(S_{2y}\)
    となります。

    単位を変えた説明変数の傾きだけが変わる理由

    傾きの式に\(x_1’\),\(x_2’\)を代入します。

    回帰直線の傾き\(β_1’\)

    \(β_1’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (S_{2’2’} S_{1’y} – S_{1’2’} S_{2’y})\)
    =\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (a S_{22} S_{1y} – a S_{12} S_{2y})\)
    =\(\frac{1}{a}\frac{1}{S_{11} S_{22} – S_{12}^2} ( S_{22} S_{1y} – S_{12} S_{2y})\)
    =\(\frac{1}{a} β_1\)
    となりますね。

    回帰直線の傾き\(β_2’\)

    \(β_2’\)=\(\frac{1}{S_{1’1’} S_{2’2’} – S_{1’2’}^2} (-S_{1’2’} S_{1’y} +S_{1’1’} S_{2’y})\)
    =\(\frac{1}{a^2 S_{11} S_{22} – a^2 S_{12}^2} (-a^2 S_{12} S_{1y} +a^2 S_{11} S_{2y})\)
    =\(\frac{1}{ S_{11} S_{22} –S_{12}^2} (-S_{12} S_{1y} + S_{11} S_{2y})\)
    =\(β_2\)
    となりますね。

    つまり、

    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    となります。

    ➂単位を変えても回帰、残差平方和は変化しない

    平方和の分解

    平方和の式を書きましょう。関連記事にもあるように、

    モデル式 (\(y-\bar{y}\))=(\(\hat{y}-\bar{y}\))+(\(y-\hat{y}\))は
    (\(\hat{y}\)は回帰直線上にのる値)
    \(\sum_{i=1}^{n} (y-\bar{y})^2\)=\(\sum_{i=1}^{n} (\hat{y}-\bar{y})^2\)+\(\sum_{i=1}^{n} (y-\hat{y})^2\)
    となり、
    \(S_T\)=\(S_R\)+\(S_e\)
    ですね。

    平方和、回帰平方和、残差平方和は変化しない

    実は、説明変数\(x_i\)が変化して影響を受けるのは、\(\hat{y}\)がある成分です。

    よって、

    ●総平方和\(S_T\)は変わらない

    回帰平方和\(S_R\)を計算

    次に回帰平方和\(S_R\)を計算しましょう。

    \(S_R\)=\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    ですから、
    \(S_R\)=\(β_1’ S_{1’y}\)+\(β_2’ S_{2’y}\)
    とすると、
    =\(\frac{1}{a}β_1 a S_{1y}\)+\(β_2 S_{2y}\)
    =\(β_1 S_{1y}\)+\(β_2 S_{2y}\)
    \(S_R\)
    となります。よって、

    ●回帰平方和\(S_R\)は変わらないし
    ●残差平方和\(S_e\)=\(S_T\)-\(S_R\)も変わらない
    つまり、各平方和の成分は変化しないとわかります。

    ちゃんと証明できましたね。結論を再掲すると

    ●\(x_1’\)の回帰直線の傾き\(β_1’\)が\(\frac{1}{a}β_1\)に変化する。
    ●\(x_2\)の回帰直線の傾きは変わらない。
    ●総平方和、回帰平方和、残差平方和は変わらない。

    となっていますね。

    まとめ

    「重回帰分析は単位に影響されない理由がわかる」を解説しました。

    • ①単位を変えた場合
    • ➁単位を変えた説明変数の傾きだけが変わる理由
    • ➂単位を変えても回帰、残差平方和は変化しない

  • 重回帰分析の多重共線性がわかる

    重回帰分析の多重共線性がわかる

    「多重共線性がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析の多重共線性がわかる

    おさえておきたいポイント

    • ①多重共線性がわかる
    • ➁説明変数が2つの場合の多重共線性
    • ➂説明変数が3つの場合の多重共線性
    • ➃多重共線性より重回帰分析の結果の妥当性を考えるべき

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    [themoneytizer id=”105233-2″]

    ①多重共線性がわかる

    多重共線性とは

    多重共線性を簡単に説明すると、

    説明変数と目的変数は正(または負)の相関があるのに、
    重回帰モデルを作ると係数が負(または正)と逆の符号がついてしまうこと

    例として(あとで事例紹介しますが、)
    説明変数\(x_1,x_2\)と目的変数\(y\)があります。
    説明変数と目的変数には、
    ●\(ρ_{x1y}\)=0.772 (正の相関)
    ●\(ρ_{x1y}\)=0.801 (正の相関)
    とあるのに、回帰式を解くと、
    \(y\)=\(3.1\)-0.1<\mark>\(x_1+0.4x_2\)
    と負の係数がついてしまう現象のことです。

    説明変数\(x_1,x_2\)も目的変数\(y\)は正の相関があるわけですから、
    ●\(x_1\)が増加すれば\(y\)も増加するはず
    ●\(x_2\)が増加すれば\(y\)も増加するはず

    ですが、

    回帰式は
    ●\(x_1\)が増加すれば\(y\)は減少する式になっています。

    重回帰分析しないと多重共線性はわからない

    厄介なことに

    多重共線性が起こる条件式は作れない。
    重回帰分析の結果オーライ的なところがある

    なので、解析するしかありません。

    ただし、よく言われるのが、

    目的変数間の相関係数が大きい場合、多重共線性になりやすい

    この性質を活用して、多重共線性が起こる場合と起きない場合の事例をこれから解説します。

    ➁説明変数が2つの場合の多重共線性

    回帰直線と係数の求め方

    説明変数が2つの場合においては、関連記事に説明していますので、ご確認ください。

    重回帰分析の回帰式が導出できる
    重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

    計算結果だけ書くと

    ●y切片 \(β_0\)の導出
    \(β_0\)=\(a\)=\(\bar{y}\)-(\(b \bar{x_1}+c \bar{x_2})\)
    から計算し、
    ●傾き\(β_1\)、\(β_2\)の導出
    \(S_{11}b+S_{12}c\)=\(S_{1y}\)
    \(S_{12}b+S_{22}c\)=\(S_{2y}\)
    を満たす連立方程式から、\(β_1\)、\(β_2\)が導出できます!

    つまり、

    ●傾き\(β_1\)、\(β_2\)の導出
    \(β_1\)=\(\frac{1}{S_{11} S_{22} -S_{12}^2}(S_{22} S_{1y}- S_{12} S_{2y})\)
    \(β_2\)=\(\frac{1}{S_{11} S_{22} -S_{12}^2}(-S_{12} S_{1y}+ S_{11} S_{2y})\)

    なお、

    ●寄与率R=\(\frac{S_{12}^2}{S_{11} S_{22}}\) ≤ 1より
    \( S_{11} S_{22} -S_{12}^2\) ≥0 なので、

    傾き\(β_1\)、\(β_2\)の正負は、分子の
    ●\(β_1\)⇒\((S_{22} S_{1y}- S_{12} S_{2y})\)
    ●\(β_2\)⇒\(-S_{12} S_{1y}+ S_{11} S_{2y}\)
    の正負で決まりますね。

    多重共線性が無い事例

    下表のデータを用意します。

    x1 x2 y
    1 3 3
    4 2 4
    2 4 4
    5 4 7
    4 5 7
    2 6 5

    さて、ここで問題です。

    【問題】
    上表において、回帰直線
    \(y\)=\(a+bx_1 +cx_2\)の
    定数\(a,b,c\)を求めよ。

    良問なので是非解いてみてください。

    結果は
    \(y\)=\(-0.429 +0.891x_1 +0.689x_2\)
    回帰平方和\(S_R\)=13.04
    残差平方和\(S_e\)=0.960
    総平方和\(S_T\)=14
    です。

    ●説明変数\(x_1\)と目的変数\(y\)との相関関係
    ●説明変数\(x_2\)と目的変数\(y\)との相関関係
    ●説明変数\(x_1\)と説明変数\(x_2\)との相関関係
    をそれぞれ見ると下図のようになります。

    多重共線性

    たしかに、
    ●説明変数\(x_1\)と目的変数\(y\)とは、正の相関関係
    ●説明変数\(x_2\)と目的変数\(y\)とは、正相関関係
    ●説明変数\(x_1\)と説明変数\(x_2\)は相関性なし
    がわかりますね。

    回帰式の傾きの値も相関関係と同じ正になりました。この場合は多重共線性にならないとなります。

    多重共線性が起きる事例

    では、先の表の\(x2\)を下表のように値をあえて変えてみましょう。

    x1 x2 y
    1 2 3
    4 8 4
    2 5 4
    5 10 7
    4 7 7
    2 4 5

    値の違いを図で確認しましょう。

    多重共線性

    つまり、

    説明変数\(x1,x2\)の相関係数を1にあえて近づけてみました。

    さて、ここでも問題です。

    【問題】
    上表において、回帰直線
    \(y\)=\(a+bx_1 +cx_2\)の
    定数\(a,b,c\)を求めよ。

    良問なので是非解いてみてください。

    結果は
    \(y\)=\(2.9 +2.3x_1 \)-0.8\(x_2\)
    回帰平方和\(S_R\)=8.33
    残差平方和\(S_e\)=5.67
    総平方和\(S_T\)=14
    です。

    たしかに、
    ●説明変数\(x_1\)と目的変数\(y\)とは、正の相関関係
    ●説明変数\(x_2\)と目的変数\(y\)とは、正相関関係
    ●説明変数\(x_1\)と説明変数\(x_2\)とは、正相関関係
    がわかりますね。

    ところが、回帰式の傾きの1つが逆符号の結果になりましたね。この場合は多重共線性になったとなります。

    多重共線性が起こる理由

    結局


    傾き\(β_1\)、\(β_2\)の正負は、分子の
    ●\(β_1\)⇒\((S_{22} S_{1y}- S_{12} S_{2y})\)
    ●\(β_2\)⇒\(-S_{12} S_{1y}+ S_{11} S_{2y}\)
    の正負で決まりますね。
    実際に重回帰分析しないと傾きの正負と相関関係の正負の一致・不一致はわからない。ただ、相関性の強い説明変数を用意すると多重共線性が起こることが確認できました。

    2変数でも多重共線性が起こることがわかりましたし、手計算できるレベルなので、実際解くと実感がわくはずです。

    次は、教科書によく出て来る、説明変数3つの場合について解説します。変数の種類が増えただけで考え方は同じです。

    ➂説明変数が3つの場合の多重共線性

    多重共線性が無い事例

    実は、本音で言うと

    説明変数が3つの場合の多重共線性が無いデータを用意するのは結構大変

    頑張って探しました!

    x1 x2 x3 y
    1 2 5 4 21
    2 0 4 10 15
    3 3 10 8 32
    4 11 15 26 60
    5 14 8 15 33
    6 8 8 14 50
    sum 38 50 77 211
    ave 6.33 8.33 12.83 35.17

    互いの相関係数を計算します。

    相関係数ρ x1 x2 x3
    x1 1 0.591 0.724
    x2 0.591 1 0.805
    x3 0.724 0.805 1
    y 0.684 0.865 0.828

    回帰直線と分散分析を求めます。Excelやpython使いましょう。手計算はキツイです。

    平方和 自由度 平均平方 F 係数
    回帰 1183.448 3 394.483 2.865 切片 4.234
    残差 275.385 2 137.692 X 値 1 0.524
    合計 1458.833 5 X 値 2 2.442
    X 値 3 0.566

    たしかに、どの傾きの値も正で、相関係数の正と一致していますね。これは確かに多重共線性が起きていません。

    多重共線性が起きる事例

    では、\(x_2\)のデータを変えてみましょう。変えたことによって相関係数の変化と回帰直線の傾きの値に注目です。

    x1 x2 x3 y
    1 2 4 4 21
    2 0 1 10 15
    3 3 5 8 32
    4 11 18 26 60
    5 14 30 15 33
    6 8 15 14 50
    sum 38 73 77 211
    ave 6.333 12.167 12.833 35.167

    マーカー部が変化したところです。相関係数も解きましょう。

    相関係数ρ x1 x2 x3
    x1 1 0.982 0.724
    x2 0.982 1 0.616
    x3 0.724 0.616 1
    y 0.684 0.546 0.828

    確かに、マーカー部の相関係数は1に上がったのがわかりますね。

    そうすると、分散分析と回帰直線の傾きを計算すると、下表になります。

    平方和 自由度 平均平方 F 係数
    回帰 1351.303 3 450.434 8.378 切片 21.524
    残差 107.53 2 53.765 X 値 1 13.577
    合計 1458.833 5 X 値 2 -5.831
    X 値 3 -0.109

    確かに、正の相関係数であるが、回帰直線の傾きは負になる多重共線性が起こることがわかりますね。

    多重共線性が起こる理由

    計算して結果オーライなので、数学的に理由を説明するのは難しいですね。

    ➃多重共線性より重回帰分析の結果の妥当性を考えるべき

    多重共線性が起こる・起こらないより
    結果の妥当性やその結果になる原因や因果関係を
    考察する方がはるかに重要です。

    解析方法は手段にすぎません。目的を明確に結果を考えるようにしましょう。

    まとめ

    「重回帰分析の多重共線性がわかる」を解説しました。

    • ①多重共線性がわかる
    • ➁説明変数が2つの場合の多重共線性
    • ➂説明変数が3つの場合の多重共線性
    • ➃多重共線性より重回帰分析の結果の妥当性を考えるべき

  • 偏相関係数が導出できる

    偏相関係数が導出できる

    「偏相関係数の導出がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    偏相関係数が導出できる

    おさえておきたいポイント

    • ①偏相関係数とは
    • ➁偏相関係数が導出できる
    • ➂偏相関係数を計算する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ①偏相関係数とは

    偏相関係数とは

    変数\(x\)と変数\(y\)はある程度の相関関係があり、
    変数\(x\)と変数\(z\)にもある程度の相関関係があるとします。

    その場合、変数\(y\)と変数\(z\)の間にも相関関係がありますが、
    変数\(x\)の影響が含まれています。

    変数\(x\)の影響を含まない、
    変数\(y\)と変数\(z\)の相関関係を
    偏相関係数といいます。

    図で描くと、下図のイメージです。

    偏相関係数

    偏相関係数の式

    偏相関係数の式は下の式になります。

    \(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)

    でも、

    なんじゃこりゃ!
    公式暗記も厳しい!

    なので、

    導出過程を理解して
    偏相関係数の式を理解しましょう。

    ➁偏相関係数が導出できる

    偏相関係数の式の理解する方法

    導出過程は以下のとおりです。流れで理解しましょう。

    1. \(y(x)\),\(z(x)\)の回帰式を作る
    2. 相関係数\(ρ\),標準偏差\(σ\)と平方和\(S\)の関係式を駆使して、相関係数\(ρ\)だけで表現した偏相関係数の式を求める
    3. \(y(x)\),\(z(x)\)の残差(\(x\)に影響しない誤差の部分)どうしの相関係数が偏相関係数である

    では、導出していきます。

    1.回帰式を作る

    \(y\),\(z\)について\(x\)についての回帰モデルを作ります。その残差を\(y’\),\(z’\)とします。

    回帰式を書くと、それぞれ
    ●\(\hat{y}\)=\(\bar{y}\)+\(a(x-\bar{x})\)
    ●\(\hat{z}\)=\(\bar{z}\)+\(b(x-\bar{x})\)
    になります。これは単回帰分析の領域なので簡単ですね。

    なお、\(y\),\(z\)と回帰成分\(\hat{y}\),\(\hat{z}\)と残差成分\(y’\),\(z’\)には、
    ●\(y\)=\(\hat{y}\)+\(y’\)
    ●\(z\)=\(\hat{z}\)+\(z’\)
    の関係があるので、

    残差を\(y’\),\(z’\)は
    ●\(y’\)=\(y\)-(\(\bar{y}\)+\(a(x-\bar{x})\))
    ●\(z’\)=\(z\)-(\(\bar{z}\)+\(b(x-\bar{x})\))
    となります。この式を使っていきます。

    2.関係式をまとめる

    相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式

    相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式を挙げます。導出できるので、暗記不要です。

    相関係数\(ρ\)は2者間つまり単回帰分析の相関係数なので、
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
    ですね。これは簡単です。

    ここで、平方和の式を展開すると、
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(nσ_x^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)=\(nσ_y^2\)
    (平方和を個数で割ると、分散。分散の平方根は標準偏差の関係を式にしています。

    すると、
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{n} σ_x \sqrt{n}σ_y }\)
    よって
    \(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
    となります。

    回帰式の傾き\(a,b\)を\(ρ,σ\)で表現

    また、回帰式の傾き\(a,b\)を\(ρ,σ\)で表現します。
    ●\(a\)=\(\frac{S_{xy}}{S_{xx}}\)
    =\(\frac{ρ_{xy} n σ_x σ_y }{ nσ_x^2}\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
    ●\(b\)=\(\frac{S_{xz}}{S_{xx}}\)
    =\(\frac{ρ_{xz} n σ_x σ_z }{ nσ_x^2}\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)
    と表現します。

    関係式をまとめます。あとで必要なので、

    【関係式】
    (1)平方和について
    ●\(S_{xx}\)=\(nσ_x^2\)
    ●\(S_{yy}\)=\(nσ_y^2\)
    ●\(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
    (2)傾きについて
    ●\(a\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
    ●\(b\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)

    では、偏相関係数の式を導出します。

    3.偏相関係数を導出する

    偏相関係数を導出する最初の式は
    \(y’\)と\(z’\)の相関係数を求める式なので、単純に
    \(ρ_{y’z’}\)=\(\frac{S_{y’z’}}{\sqrt{S_{y’y’} S_{z’z’}}}\) (式1)

    あとは、平方和\( S_{y’y’}\),\( S_{z’z’}\), \( S_{y’z’}\)を\(ρ\)だけの式になるように変形していきます。

    平方和の式を整理

    (式1)において、平方和を展開します。
    ●\( S_{y’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})^2\)
    =\(\sum_{i=1}^{n}(y’_i)^2\)
    (ここで、残差の平均\(\bar{y’}\)は0になります)
    =\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))^2\)
    =\(\sum_{i=1}^{n}(y-\bar{y})^2\)-\(2a\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)+\(a^2\sum_{i=1}^{n}(x-\bar{x})^2\)

    よく見ると、それぞれ
    =\(S_{yy}\)-\(2aS_{xy}\)+\(a^2S_{xx}\)
    \(S\)を\(ρ,σ\)で表現すると、
    =\(nσ_y^2\)-\(2aρ_{xy} n σ_x σ_y\)+\(a^2 nσ_x^2\)
    \(a\)を\(ρ,σ\)で表現すると、
    =\(nσ_y^2\)-\(2(ρ_{xy}\frac{σ_y}{σ_x})ρ_{xy} n σ_x σ_y\)+\((ρ_{xy}\frac{σ_y}{σ_x})^2 nσ_x^2\)
    =\(nσ_y^2\)-\(2ρ_{xy}^2 n σ_y\)+\(ρ_{xy}^2 σ_y^2 n\)
    =\(nσ_y^2 (1-ρ_{xy}^2)\)
    となります。

    同様に
    ●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
    とy→zに変えるだけでOKです。

    ●\( S_{z’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})(z’_i-\bar{z’})\)
    =\(\sum_{i=1}^{n}y’_i z’_i\)
    (ここで、残差の平均\(\bar{y’}\),\(\bar{z’}\)は0になります)
    =\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))((z-\bar{z})-b(x-\bar{x}))\)
    =\(\sum_{i=1}^{n}(y-\bar{y})(z-\bar{z})\)-\(b\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)
    -\(a\sum_{i=1}^{n}(x-\bar{x})(z-\bar{z})\)+\(ab\sum_{i=1}^{n}(x-\bar{x})^2\)
    =\(S_{yz}\)-\(bS_{xy}\)-\(aS_{xz}\)+\(abS_{xx}\)
    \(S\)を\(ρ,σ\)で表現すると、
    =\(ρ_{yz} n σ_y σ_z\)-\(bρ_{xy} n σ_x σ_y\)-\(aρ_{xz} n σ_x σ_z\)+\(abnσ_x^2\)
    \(a,b\)を\(ρ,σ\)で表現すると、
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xz}\frac{σ_z}{σ_x}\)\(ρ_{xy} n σ_x σ_y\)
    -\(ρ_{xy}\frac{σ_y}{σ_x}\)\(ρ_{xz} n σ_x σ_z\)
    +\(ρ_{xy}\frac{σ_y}{σ_x} ρ_{xz}\frac{σ_z}{σ_x}\)\(nσ_x^2\)
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)+\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
    =\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

    ●平方和を整理すると
    ●\( S_{y’y’}\)=\(nσ_y^2 (1-ρ_{xy}^2)\)
    ●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
    ●\( S_{z’y’}\)=\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

    偏相関係数\(ρ_{y’z’}\)の導出

    ここまで来たら、ゴールはもうすぐです。

    \(ρ_{y’z’}\)=\(\frac{ S_{z’y’}}{\sqrt{ S_{y’y’} S_{z’z’}}}\)
    =\(\frac{ n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})}{\sqrt{ nσ_y^2 (1-ρ_{xy}^2) nσ_z^2 (1-ρ_{xz}^2)}}\)
    =\(\frac{ ρ_{yz}-ρ_{xy} ρ_{xz}}{\sqrt{ (1-ρ_{xy}^2) (1-ρ_{xz}^2)}}\)

    \(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
    になりましたね!

    偏相関係数\(ρ_{y’z’}\)は\(ρ_{yz,x}\)と書くこともあります。

    ちゃんと導出できましたね!

    偏相関係数\(ρ_{y’z’}\)の導出の大事なポイント

    1. \(y(x)\),\(z(x)\)の回帰式を作る
    2. \(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する
    3. \(ρ\)だけの文字式で整理する

    \(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する過程を理解することが最も大切です。公式暗記は不要ですね。

    ➂偏相関係数を計算する

    せっかくなので、具体的な偏相関係数の値を求めてみましょう。

    データ事例

    下のデータを例に挙げます。別にどんなデータでも構いません。

    No 年齢x 睡眠時間y 点数z
    1 10 8 56
    2 12 7 62
    3 14 7.5 64
    4 13 9 68
    5 10 6.5 72
    6 25 6 76
    7 22 6.5 80
    8 24 7 82
    9 22 5.5 84
    10 16 7 90

    10人(年齢、睡眠時間ばらばら)であるテストを実施した結果とします。
    年齢xと点数z、睡眠時間yと点数z、年齢xと睡眠時間yの関係を考えます。

    相関係数を計算

    互いの相関係数を計算しましょう。(計算してみてください)

    平方和 相関係数
    Sxx 311.6 Rxy 0.343
    Syy 9 ρxy -0.585
    Szz 1064.4 Rxz 0.456
    Sxy -31 ρxz 0.675
    Sxz 388.8 Ryz 0.304
    Syz -54 ρyz -0.552

    偏相関係数を計算

    2者間の相関係数を求める際、もう1つの影響を除去した偏相関係数をそれぞれ計算してみましょう。
    ●\(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
    =-0.262
    ●\(ρ_{xz,y}\)=\(\frac{ρ_{xz}-ρ_{xy}ρ_{yz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{yz}^2}}\)
    =0.521
    ●\(ρ_{xy,z}\)=\(\frac{ρ_{yz}-ρ_{xz}ρ_{xy}}{\sqrt{1-ρ_{xz}^2} \sqrt{1-ρ_{xy}^2}}\)
    =-0.356

    一応値はでますが、フーんな感じですよね。
    ただ、偏相関係数がほぼ0の場合は、2者間に相関係数がある程度の値をもっていたとしても相関関係がないことがわかります。

    2者間の相関関係を調べる時に活用する偏相関係数がよくわかりましたね。

    まとめ

    「偏相関係数が導出できる」を解説しました。

    • ①偏相関係数とは
    • ➁偏相関係数が導出できる
    • ➂偏相関係数を計算する

  • error: Content is protected !!