カテゴリー:

  • 偏相関係数が導出できる

    偏相関係数が導出できる

    「偏相関係数の導出がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    偏相関係数が導出できる

    おさえておきたいポイント

    • ①偏相関係数とは
    • ➁偏相関係数が導出できる
    • ➂偏相関係数を計算する
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    ①偏相関係数とは

    偏相関係数とは

    変数\(x\)と変数\(y\)はある程度の相関関係があり、
    変数\(x\)と変数\(z\)にもある程度の相関関係があるとします。

    その場合、変数\(y\)と変数\(z\)の間にも相関関係がありますが、
    変数\(x\)の影響が含まれています。

    変数\(x\)の影響を含まない、
    変数\(y\)と変数\(z\)の相関関係を
    偏相関係数といいます。

    図で描くと、下図のイメージです。

    偏相関係数

    偏相関係数の式

    偏相関係数の式は下の式になります。

    \(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)

    でも、

    なんじゃこりゃ!
    公式暗記も厳しい!

    なので、

    導出過程を理解して
    偏相関係数の式を理解しましょう。

    ➁偏相関係数が導出できる

    偏相関係数の式の理解する方法

    導出過程は以下のとおりです。流れで理解しましょう。

    1. \(y(x)\),\(z(x)\)の回帰式を作る
    2. 相関係数\(ρ\),標準偏差\(σ\)と平方和\(S\)の関係式を駆使して、相関係数\(ρ\)だけで表現した偏相関係数の式を求める
    3. \(y(x)\),\(z(x)\)の残差(\(x\)に影響しない誤差の部分)どうしの相関係数が偏相関係数である

    では、導出していきます。

    1.回帰式を作る

    \(y\),\(z\)について\(x\)についての回帰モデルを作ります。その残差を\(y’\),\(z’\)とします。

    回帰式を書くと、それぞれ
    ●\(\hat{y}\)=\(\bar{y}\)+\(a(x-\bar{x})\)
    ●\(\hat{z}\)=\(\bar{z}\)+\(b(x-\bar{x})\)
    になります。これは単回帰分析の領域なので簡単ですね。

    なお、\(y\),\(z\)と回帰成分\(\hat{y}\),\(\hat{z}\)と残差成分\(y’\),\(z’\)には、
    ●\(y\)=\(\hat{y}\)+\(y’\)
    ●\(z\)=\(\hat{z}\)+\(z’\)
    の関係があるので、

    残差を\(y’\),\(z’\)は
    ●\(y’\)=\(y\)-(\(\bar{y}\)+\(a(x-\bar{x})\))
    ●\(z’\)=\(z\)-(\(\bar{z}\)+\(b(x-\bar{x})\))
    となります。この式を使っていきます。

    2.関係式をまとめる

    相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式

    相関係数\(ρ\)、標準偏差\(σ\)、平方和\(S\)の関係式を挙げます。導出できるので、暗記不要です。

    相関係数\(ρ\)は2者間つまり単回帰分析の相関係数なので、
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
    ですね。これは簡単です。

    ここで、平方和の式を展開すると、
    ●\(S_{xx}\)=\(\sum_{i=1}^{n}(x_i-\bar{x})^2\)=\(nσ_x^2\)
    ●\(S_{yy}\)=\(\sum_{i=1}^{n}(y_i-\bar{y})^2\)=\(nσ_y^2\)
    (平方和を個数で割ると、分散。分散の平方根は標準偏差の関係を式にしています。

    すると、
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{S_{xx}}\sqrt{S_{yy}}}\)
    \(ρ_{xy}\)=\(\frac{S_{xy}}{\sqrt{n} σ_x \sqrt{n}σ_y }\)
    よって
    \(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
    となります。

    回帰式の傾き\(a,b\)を\(ρ,σ\)で表現

    また、回帰式の傾き\(a,b\)を\(ρ,σ\)で表現します。
    ●\(a\)=\(\frac{S_{xy}}{S_{xx}}\)
    =\(\frac{ρ_{xy} n σ_x σ_y }{ nσ_x^2}\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
    ●\(b\)=\(\frac{S_{xz}}{S_{xx}}\)
    =\(\frac{ρ_{xz} n σ_x σ_z }{ nσ_x^2}\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)
    と表現します。

    関係式をまとめます。あとで必要なので、

    【関係式】
    (1)平方和について
    ●\(S_{xx}\)=\(nσ_x^2\)
    ●\(S_{yy}\)=\(nσ_y^2\)
    ●\(S_{xy}\)=\(ρ_{xy} n σ_x σ_y\)
    (2)傾きについて
    ●\(a\)=\(ρ_{xy}\frac{σ_y}{σ_x}\)
    ●\(b\)=\(ρ_{xz}\frac{σ_z}{σ_x}\)

    では、偏相関係数の式を導出します。

    3.偏相関係数を導出する

    偏相関係数を導出する最初の式は
    \(y’\)と\(z’\)の相関係数を求める式なので、単純に
    \(ρ_{y’z’}\)=\(\frac{S_{y’z’}}{\sqrt{S_{y’y’} S_{z’z’}}}\) (式1)

    あとは、平方和\( S_{y’y’}\),\( S_{z’z’}\), \( S_{y’z’}\)を\(ρ\)だけの式になるように変形していきます。

    平方和の式を整理

    (式1)において、平方和を展開します。
    ●\( S_{y’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})^2\)
    =\(\sum_{i=1}^{n}(y’_i)^2\)
    (ここで、残差の平均\(\bar{y’}\)は0になります)
    =\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))^2\)
    =\(\sum_{i=1}^{n}(y-\bar{y})^2\)-\(2a\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)+\(a^2\sum_{i=1}^{n}(x-\bar{x})^2\)

    よく見ると、それぞれ
    =\(S_{yy}\)-\(2aS_{xy}\)+\(a^2S_{xx}\)
    \(S\)を\(ρ,σ\)で表現すると、
    =\(nσ_y^2\)-\(2aρ_{xy} n σ_x σ_y\)+\(a^2 nσ_x^2\)
    \(a\)を\(ρ,σ\)で表現すると、
    =\(nσ_y^2\)-\(2(ρ_{xy}\frac{σ_y}{σ_x})ρ_{xy} n σ_x σ_y\)+\((ρ_{xy}\frac{σ_y}{σ_x})^2 nσ_x^2\)
    =\(nσ_y^2\)-\(2ρ_{xy}^2 n σ_y\)+\(ρ_{xy}^2 σ_y^2 n\)
    =\(nσ_y^2 (1-ρ_{xy}^2)\)
    となります。

    同様に
    ●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
    とy→zに変えるだけでOKです。

    ●\( S_{z’y’}\)=\(\sum_{i=1}^{n}(y’_i-\bar{y’})(z’_i-\bar{z’})\)
    =\(\sum_{i=1}^{n}y’_i z’_i\)
    (ここで、残差の平均\(\bar{y’}\),\(\bar{z’}\)は0になります)
    =\(\sum_{i=1}^{n}((y-\bar{y})-a(x-\bar{x}))((z-\bar{z})-b(x-\bar{x}))\)
    =\(\sum_{i=1}^{n}(y-\bar{y})(z-\bar{z})\)-\(b\sum_{i=1}^{n}(y-\bar{y})(x-\bar{x})\)
    -\(a\sum_{i=1}^{n}(x-\bar{x})(z-\bar{z})\)+\(ab\sum_{i=1}^{n}(x-\bar{x})^2\)
    =\(S_{yz}\)-\(bS_{xy}\)-\(aS_{xz}\)+\(abS_{xx}\)
    \(S\)を\(ρ,σ\)で表現すると、
    =\(ρ_{yz} n σ_y σ_z\)-\(bρ_{xy} n σ_x σ_y\)-\(aρ_{xz} n σ_x σ_z\)+\(abnσ_x^2\)
    \(a,b\)を\(ρ,σ\)で表現すると、
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xz}\frac{σ_z}{σ_x}\)\(ρ_{xy} n σ_x σ_y\)
    -\(ρ_{xy}\frac{σ_y}{σ_x}\)\(ρ_{xz} n σ_x σ_z\)
    +\(ρ_{xy}\frac{σ_y}{σ_x} ρ_{xz}\frac{σ_z}{σ_x}\)\(nσ_x^2\)
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)+\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
    =\(ρ_{yz} n σ_y σ_z\)-\(ρ_{xy} ρ_{xz} n σ_y σ_z\)
    =\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

    ●平方和を整理すると
    ●\( S_{y’y’}\)=\(nσ_y^2 (1-ρ_{xy}^2)\)
    ●\( S_{z’z’}\)=\(nσ_z^2 (1-ρ_{xz}^2)\)
    ●\( S_{z’y’}\)=\( n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})\)

    偏相関係数\(ρ_{y’z’}\)の導出

    ここまで来たら、ゴールはもうすぐです。

    \(ρ_{y’z’}\)=\(\frac{ S_{z’y’}}{\sqrt{ S_{y’y’} S_{z’z’}}}\)
    =\(\frac{ n σ_y σ_z (ρ_{yz}-ρ_{xy} ρ_{xz})}{\sqrt{ nσ_y^2 (1-ρ_{xy}^2) nσ_z^2 (1-ρ_{xz}^2)}}\)
    =\(\frac{ ρ_{yz}-ρ_{xy} ρ_{xz}}{\sqrt{ (1-ρ_{xy}^2) (1-ρ_{xz}^2)}}\)

    \(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
    になりましたね!

    偏相関係数\(ρ_{y’z’}\)は\(ρ_{yz,x}\)と書くこともあります。

    ちゃんと導出できましたね!

    偏相関係数\(ρ_{y’z’}\)の導出の大事なポイント

    1. \(y(x)\),\(z(x)\)の回帰式を作る
    2. \(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する
    3. \(ρ\)だけの文字式で整理する

    \(y(x)\),\(z(x)\)それぞれの\(x\)に関する成分を省いた成分同士の相関係数を導出する過程を理解することが最も大切です。公式暗記は不要ですね。

    ➂偏相関係数を計算する

    せっかくなので、具体的な偏相関係数の値を求めてみましょう。

    データ事例

    下のデータを例に挙げます。別にどんなデータでも構いません。

    No 年齢x 睡眠時間y 点数z
    1 10 8 56
    2 12 7 62
    3 14 7.5 64
    4 13 9 68
    5 10 6.5 72
    6 25 6 76
    7 22 6.5 80
    8 24 7 82
    9 22 5.5 84
    10 16 7 90

    10人(年齢、睡眠時間ばらばら)であるテストを実施した結果とします。
    年齢xと点数z、睡眠時間yと点数z、年齢xと睡眠時間yの関係を考えます。

    相関係数を計算

    互いの相関係数を計算しましょう。(計算してみてください)

    平方和 相関係数
    Sxx 311.6 Rxy 0.343
    Syy 9 ρxy -0.585
    Szz 1064.4 Rxz 0.456
    Sxy -31 ρxz 0.675
    Sxz 388.8 Ryz 0.304
    Syz -54 ρyz -0.552

    偏相関係数を計算

    2者間の相関係数を求める際、もう1つの影響を除去した偏相関係数をそれぞれ計算してみましょう。
    ●\(ρ_{yz,x}\)=\(\frac{ρ_{yz}-ρ_{xy}ρ_{xz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{xz}^2}}\)
    =-0.262
    ●\(ρ_{xz,y}\)=\(\frac{ρ_{xz}-ρ_{xy}ρ_{yz}}{\sqrt{1-ρ_{xy}^2} \sqrt{1-ρ_{yz}^2}}\)
    =0.521
    ●\(ρ_{xy,z}\)=\(\frac{ρ_{yz}-ρ_{xz}ρ_{xy}}{\sqrt{1-ρ_{xz}^2} \sqrt{1-ρ_{xy}^2}}\)
    =-0.356

    一応値はでますが、フーんな感じですよね。
    ただ、偏相関係数がほぼ0の場合は、2者間に相関係数がある程度の値をもっていたとしても相関関係がないことがわかります。

    2者間の相関関係を調べる時に活用する偏相関係数がよくわかりましたね。

    まとめ

    「偏相関係数が導出できる」を解説しました。

    • ①偏相関係数とは
    • ➁偏相関係数が導出できる
    • ➂偏相関係数を計算する

  • 重回帰分析の推定区間の式が導出できる(その2)

    重回帰分析の推定区間の式が導出できる(その2)

    「重回帰分析の推定区間の式の導出がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析の推定区間の式が導出できる(その2)

    おさえておきたいポイント

    • ①推定区間の式(その1)
    • ➁導出に必要な関係式を導出(その1)
    • ➂傾き\(β_j\)の期待値が導出できる(その1)
    • 傾き\(β_j\)の分散が導出できる(その2)
    • 傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • 推定区間の式が導出できる(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    2回に分けて解説!
    「➄傾き\(β_j\)の共分散が導出できる」
    は完全に証明できていないので、QCプラネッツの宿題となっています(笑)

    ①推定区間の式(その1)

    ➁導出に必要な関係式を導出(その1))

    ➂傾き\(β_j\)の期待値が導出できる(その1))

    期待値の導出までは、関連記事「重回帰分析の推定区間の式が導出できる(その1)」で解説済です。読んでください。本記事は続編を解説します。

    重回帰分析の推定区間の式が導出できる(その1)
    重回帰分析の推定区間の式は導出できますか?公式代入だけで終わっていませんか? 本記事では2記事にわたり、重回帰分析の推定区間の式が導出をわかりやすく解説します。多変量解析を学ぶ人は必読です。

    では、分散の導出に行ってみよう!

    ➃傾き\(β_j\)の分散が導出できる(その2)

    (復習)大事な関係式を再掲

    関連記事「重回帰分析の推定区間の式が導出できる(その1)」で解説しましたが、本記事でも扱うので再掲します。

    \(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
    となります。この関係式をあとで使います。

    分散の式を作る

    では行きましょう。傾き\(β_j\)の分散は
    V[\(β_j\)]
    =V[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
    =(式1)
    ですね。では行きますね。

    (式1)を展開していきます。
    (式1)=
    V[\(\sum_{k=1}^{p} S^{jk}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(y_i-\bar{y})\)]
    =(式2)

    (式2)の中の
    \(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)\((y_i-\bar{y})\)
    =\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)-\(\bar{y}\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)
    で第2項の\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)=0なので、
    \(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})\)\((y_i-\bar{y})\)=\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)
    です。これを(式2)に代入します。

    (式2)
    = V[\(\sum_{k=1}^{p} S^{jk}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})y_i\)]
    =V[\(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}) y_i )\)]
    =(式3)
    とxについての項だけでまとめます。

    (式3)について、xについての項は定数扱いなので、2乗にしてV[ ] の外に出せます。
    (式3)= \(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}))^2\)V[\(y_i\)]
    =\(σ^2\)\(\sum_{i=1}^{n}(\sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k}))^2\)
    =(式4)
    (V[\(y_i\)]=\(σ^2\)を代入しました。)

    (式4)は
    (式4)= \(σ^2\)\(\sum_{i=1}^{n} \sum_{k=1}^{p} S^{jk}(x_{ik}-\bar{x_k})\)\(\sum_{l=1}^{p} S^{jl} (x_{il}-\bar{x_l})\)
    =\(σ^2\)\(\sum_{k=1}^{p} \sum_{l=1}^{p}\)\( S^{jk} S^{jl}\)\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(x_{il}-\bar{x_l})\)
    =(式5)

    (式5)で、\(\sum_{i=1}^{n}(x_{ik}-\bar{x_k})(x_{il}-\bar{x_l})\)=\(S_{kl}\)なので、代入すると
    (式5)
    =\(σ^2\)\(\sum_{k=1}^{p} \sum_{l=1}^{p}\)\( S^{jk} S^{jl}\)\(S_{kl}\)
    =\(σ^2\)\(\sum_{k=1}^{p} S^{jk} δ_{jk}\)
    =\(σ^2\)\(S^{jj}\)

    出ました!まとめると、

    V[\(β_j\)]=\(σ^2\)\(S^{jj}\)

    まとめると、
    V[\(β_j\)]=\(σ^2\)\(S^{jj}\)

    ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)

    実は、これはまだよくわかっていませんが、

    V[\(β_j\)]=\(σ^2\)\(S^{jj}\)
    V[\(β_j\)]=Cov(\(β_j\),\(β_j\))=\(σ^2\)\(S^{jj}\)
    と見立てると
    Cov(\(β_i\),\(β_j\))=\(σ^2\)\(S^{ij}\)
    とできる!

    ちょっと強引だし、「何で?」となるので、わかり次第報告しますが、この式を使わせていただきます。

    ⑥推定区間の式が導出できる(その2)

    だいぶ準備かけましたが、いよいよ推定区間の式を導出しましょう。

    推定区間の式

    目的変数\(y\)は
    \(y\)=\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)
    ですね。この値の分散V[\(y\)]を計算しましょう。マハラビノス距離が出て来ます。

    分散V[\(y\)]を計算

    V[\(y\)]=V[\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)]
    =V[\(\bar{y}\)+\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)+\(ε\)]
    とマーカで3つに分けます。分散を展開すると
    V[\(y\)]=V[\(\bar{y}\))]+V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+V[\(ε\)]
    +2Cov(\(\bar{y}\)),\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\))
    +2Cov(\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\),\(ε\))
    +2Cov(\(\bar{y}\),\(ε\))

    ここで、\(\bar{y}\),\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\),\(ε\)は互いに独立と仮定するので、共分散Covはすべて0になります。

    また、
    ●V[\(\bar{y}\)]=V[\(\frac{y}{n}\)]=\(\frac{1}{n}\)V[\(y\)]=\(\frac{σ^2}{n}\)
    ●V[\(ε\)]=\(σ^2\)
    代入すると

    V[\(y\)]
    = V[\(\bar{y}\))]+V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+V[\(ε\)]
    =\(\frac{σ^2}{n}\)+ V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+\(σ^2\)
    =(式6)となります。

    あとは、
    V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
    =(式7)
    を計算すればよいことになります。やってみましょう。

    (式7)を計算して、V[\(y\)] =(式6)をまとめましょう。

    (続)分散V[\(y\)]を計算

    (式7)において、まず\((x_i-\bar{x_i})\)は定数扱いなので、分散V、共分散Covの外側に出せます。分散の加法性を使って、めっちゃ展開します。

    (式7)= V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
    =\(\sum_{i=1}^{p}\)\((x_i -\bar{x_i})^2 \)V[\(β_i\)]
    +\(\sum_{i=1}^{p-1}\)\(\sum_{j=1}^{p}\)\((x_i -\bar{x_i})(x_j -\bar{x_j})\)Cov(\(β_i,β_j\))
    =(式8)
    第1項目は同じ添え字を掛け算するp個について、第2項目は違う添え字同士で共分散を求めるp(p-1)個についてまとめました。ちょっと難しいけど、時間かけて確認ください。いい勉強になります!

    (式8)にV[\(β_i\)]=\(σ^2 S^{ii}\), Cov(\(β_i,β_j)\)=\(σ^2 S^{ij}\)を代入すると、
    (式8)= \(\sum_{i=1}^{p}\)\((x_i -\bar{x_i})^2 \)\(σ^2 S^{ii}\)
    +\(\sum_{i=1}^{p-1}\)\(\sum_{j=1}^{p}\)\((x_i -\bar{x_i})(x_j -\bar{x_j})\)\(σ^2 S^{ij}\)
    =(式9)

    一旦、(式9)の\(σ^2\)は外した残りを計算しましょう。(式9’)とします。

    (式9’)は行列表記できます。
    \((x_i -\bar{x_i})^2 S^{ii}\)=\((x_i -\bar{x_i}) S^{ii} (x_i -\bar{x_i})\)
    \((x_i -\bar{x_i})(x_j -\bar{x_j}) S^{ij}\)=\((x_i -\bar{x_j}) S^{ij} (x_i -\bar{x_j})\)
    という形を意識すると、

    (式9’)=
    \(\begin{pmatrix}
    x_1-\bar{x_1} & x_2-\bar{x_2} & \ldots & x_p-\bar{x_p}
    \end{pmatrix}\)\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)\)\(\left(
    \begin{array}{c}
    x_1-\bar{x_1} \\
    x_2-\bar{x_2} \\
    \vdots \\
    x_p-\bar{x_p}
    \end{array}
    \right)\)

    とまとめることができ、この式こそ、マハラビノス距離\(D^2\)と表記できます。
    (式9)=(式9’)×\(σ^2\)より
    (式9)=\(σ^2\)\(D^2\)
    となります。

    よって
    (式7)= V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]
    =\(\sum_{i=1}^{p}\)(\(x_i -\bar{x_i})^2 \)V[\(β_i\)]
    =(式8,9)と計算して
    =\(σ^2\)\(D^2\) (マハラビノス距離)
    となります。

    V[\(y\)]をまとめると

    V[\(y\)] =(式6)
    =\(\frac{σ^2}{n}\)+ V[\(β_1 (x_1-\bar{x_1})\)+\(β_2 (x_2-\bar{x_2})\)+…+\(β_p (x_p-\bar{x_p})\)]+\(σ^2\)
    =\(\frac{σ^2}{n}\)+ \(σ^2\)\(D^2\) +\(σ^2\)
    =\(σ^2\)(\(1+\frac{1}{n}+D^2\))
    とまとめることができます。

    V[\(y\)]=\(σ^2\)(\(1+\frac{1}{n}+D^2\))

    できましたね!

    公式と比べるとちょっと違う?

    結果を比較すると、
    ●V[\(y\)]=\(σ^2\)(\(1+\frac{1}{n}+D^2\)) (式11)
    ですが、元々
    ●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\) (式12)
    でしたよね。

    よく見ると、(式12)を2乗して、\(σ^2\)=\(V_e\)として比較すると、
    ●V[\(y\)]=(\(1+\frac{1}{n}+D^2\)\(V_e\)) (式11A)
    ですが、元々
    ●V[\(y\)]=(\(1+\frac{1}{n}+\frac{D^2}{n-1})V_e\) (式12A)
    とちかづきますが、

    上の式は\(D^2\)なのに、下の式は\(\frac{D^2}{n-1}\)
    と違う?何で? となりますね。

    実は、

    下の式のDは上の式のDの値に\(n-1)\)をかけたものとして定義しています。
    なので、一緒です。おそらく、推定区間の式は\(Ve/ne\)とnで割ったように見せたいからと思われます。ちゃんと導出すると、別に要らないとわかりました。

    QCプラネッツは別に、
    V[\(y\)]=(\(1+\frac{1}{n}+D^2)\)\(V_e\))
    としてもOKです。

    と、細かくみてきましたが、ちゃんと、

    \(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    が導出できました。

    目的変数\(y\)が
    \(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
    の信頼度(100-α)%の推定区間は、

    \(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    で与えられる。
    (ただし、\(D\)はマハラビノス距離)

    の導出がちゃんとできました! めでたしめでたし!

    導出が難しい式だからといって、暗記に走らず、ちゃんと導出しましょう。

    まとめ

    「重回帰分析の推定区間の式が導出できる(その2)」を解説しました。

    • ①推定区間の式(その1)
    • ➁導出に必要な関係式を導出(その1)
    • ➂傾き\(β_j\)の期待値が導出できる(その1)
    • 傾き\(β_j\)の分散が導出できる(その2)
    • 傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • 推定区間の式が導出できる(その2)

  • 重回帰分析の推定区間の式が導出できる(その1)

    重回帰分析の推定区間の式が導出できる(その1)

    「重回帰分析の推定区間の式の導出がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析の推定区間の式が導出できる(その1)

    おさえておきたいポイント

    • 推定区間の式(その1)
    • 導出に必要な関係式を導出(その1)
    • 傾き\(β_j\)の期待値が導出できる(その1)
    • ➃傾き\(β_j\)の分散が導出できる(その2)
    • ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • ⑥推定区間の式が導出できる(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    2回に分けて解説!
    「➄傾き\(β_j\)の共分散が導出できる」
    は完全に証明できていないので、QCプラネッツの宿題となっています(笑)

    ①推定区間の式(その1)

    推定区間の式を紹介

    目的変数\(y\)が
    \(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
    の信頼度(100-α)%の推定区間は、

    \(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    で与えられる。
    (ただし、\(D\)はマハラビノス距離)

    なんですけど、本心

    なんじゃこりゃ!

    ですよね。

    推定区間の式をよくみると

    \(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    はビビりますが、推定区間の式は基本

    (平均)±t(自由度、α)\(\sqrt{V_e/n_e}\)

    なので、
    ●(平均)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
    ●t(\(n-p-1,α)\)=t(自由度、α)→t分布に従うことは理解できる
    ●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)って何なん?

    となるので、

    \(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    を導出しましょう。

    ➁導出に必要な関係式を導出(その1)

    後の導出で必要になる関係式を1つ解説します。

    重回帰分析の回帰式の作り方については、関連記事で確認ください。

    重回帰分析の回帰式が導出できる
    重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

    平方和\(S_{ij}\)と\(S^{ij}\)

    重回帰分析の回帰式は
    \(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
    で表現しますが、

    実測値と回帰直線上の予測値の間の誤差が最小になる条件から回帰式の傾きやy切片を求めます。
    具体的には最小2乗法を使うと、次の式ができます。行列を使いますが、

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    で表現できますね。なお、Sは各成分の平方和です。

    逆行列を使って、\(β_i\)の各値を計算します。つまり、

    \(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    となります。

    ここで、\(S^{ij}\)は逆行列のi行j列目の値で、添え字を上側とします。

    平方和\(S_{ij}\)と\(S^{ij}\)の関係式

    互いに逆行列の関係なので、実際に計算してみましょう。

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    1 & 0 & \ldots & 0 \\
    0 & 1 & \ldots & 0 \\
    \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \ldots & 1
    \end{array}
    \right)
    \)=E(単位行列)

    実際に
    ●(i,j)=(1,1):\(S_{11}S^{11}\)+\(S_{12}S^{21}\)+…+\(S_{1p}S^{p1}\)=1
    ●(i,j)=(1,2):\(S_{11}S^{12}\)+\(S_{12}S^{22}\)+…+\(S_{1p}S^{p2}\)=0

    ●(i,j)=(1,p):\(S_{11}S^{1p}\)+\(S_{12}S^{2p}\)+…+\(S_{1p}S^{pp}\)=0
    とjについて計算し、これをiについてどんどん具体的に計算しましょう。
    ●(i,j)=(2,1):\(S_{21}S^{11}\)+\(S_{22}S^{21}\)+…+\(S_{2p}S^{p1}\)=0
    ●(i,j)=(2,2):\(S_{21}S^{12}\)+\(S_{22}S^{22}\)+…+\(S_{2p}S^{p2}\)=1

    ●(i,j)=(2,p):\(S_{21}S^{1p}\)+\(S_{22}S^{2p}\)+…+\(S_{2p}S^{pp}\)=0


    ●(i,j)=(p,p):\(S_{p1}S^{1p}\)+\(S_{p2}S^{2p}\)+…+\(S_{pp}S^{pp}\)=1
    となりますね。

    展開式から規則性を探そう!

    いっぱい式を展開しましたが、規則性を探すと

    i=jの時は1、それ以外は0
    デルタ関数っぽい条件式ができる
    (左辺)の展開式は
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)でまとめられる

    シンプルな式でまとめると

    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
    となります。この関係式をあとで使います。

    丁寧に導出しましたが、ここを手抜きすると、後の導出の理解ができなくなります。下ごしらえは丁寧にやりましょう。

    ➂傾き\(β_j\)の期待値が導出できる(その1)

    傾き\(β_j\)の式

    傾きを計算する行列の式を再掲します。

    \(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    ここで、j列にある\(β_j\)を求める式を抜き出すと
    \(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)
    ですね。

    傾き\(β_j\)の期待値

    上の式の期待値E[\(β_j\)]は、
    E[\(β_j\)]=E[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
    =(式1)
    ですね。

    ここで、

    分布関数に従うのは誤差を含む\(y\)であり、\(x_i\)だけで作られた値はすべて定数扱いとするので、\(S^{jk}\)は定数とし、期待値Eの外に出せます。

    (式1)
    = \(S^{j1}\)E[\(S_{1y}\)]+ \(S^{j2}\)E[\(S_{2y}\)]+…+ \(S^{jk}\)E[\(S_{ky}\)]+…+ \(S^{jp}\)E[\(S_{py}\)]
    =\(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
    =(式2)
    とまとめることができます。

    関係式を代入して傾き\(β_j\)の期待値を計算

    ここで、\(S_{ky}\)は、傾き\(β_j\)を求める行列の式から

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    \(S_{ky}\)=\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)
    と計算できるので、(式2)に代入します。

    (式2)= \(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
    =\(\sum_{k=1}^{p}S^{jk}\)E[\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)]
    =(式3)

    期待値Eの[ ]の中は、変数\(x_i\)について値なので、定数扱いとしてE[ ] の外に出せます。よって(式3)は
    (式3)= \(\sum_{k=1}^{p}S^{jk} S_{k1}\)\(β_1\)+\(\sum_{k=1}^{p}S^{jk} S_{k2}\)\(β_2\)+…+\(\sum_{k=1}^{p}S^{jk} S_{kp}\)\(β_p\)
    =(式4)
    となります。

    上の「➁導出に必要な関係式を導出」で
    ●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
    ●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
    を(式4)に代入すると、

    (式4)の中の\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)のみ(i=j)が
    \(\sum_{k=1}^{p}S_{ik} S^{ki}\)=1×\(β_j\)
    となり、それ以外(i≠j)は
    \(\sum_{k=1}^{p}S_{ik} S^{ki}\)=0になるので和はすべて0です。
    よって、まとめると
    (式4) =\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)
    =\(β_j\)
    となります。

    E[\(β_j\)]=\(β_j\)
    なんて、当たり前じゃん!

    ですが、分散の計算に必要な前座でもあるので、期待値を丁寧に導出しました。

    では、分散の導出については、
    関連記事「重回帰分析の推定区間の式が導出できる(その2))で解説します。
    次行ってみよう!

    ➃傾き\(β_j\)の分散が導出できる(その2)

    ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)

    ⑥推定区間の式が導出できる(その2)

    まとめ

    「重回帰分析の推定区間の式が導出できる(その1)」を解説しました。

    • 推定区間の式(その1)
    • 導出に必要な関係式を導出(その1)
    • 傾き\(β_j\)の期待値が導出できる(その1)
    • ➃傾き\(β_j\)の分散が導出できる(その2)
    • ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • ⑥推定区間の式が導出できる(その2)

  • 重回帰分析と単回帰分析の比較がわかる

    重回帰分析と単回帰分析の比較がわかる

    「単回帰分析と重回帰分析では、どちらの寄与率が大きいかわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析と単回帰分析の比較がわかる

    おさえておきたいポイント

    • ①重回帰分析と単回帰分析を比較
    • ➁重回帰分析と単回帰分析で寄与率が等しい場合
    • ➂重回帰分析の方が単回帰分析より寄与率が大きい場合
    • ➃単回帰分析の方が重回帰分析より寄与率が大きい場合
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    多重共線性の話につながるテーマです。

    ①重回帰分析と単回帰分析を比較

    目的変数データは同じで、説明変数の種類を変えて寄与率を比較

    寄与率を比較するために、目的変数zは同じとし、
    説明変数は
    ●単回帰分析はxのみ
    ●重回帰分析はx,yとし、
    重回帰分析と単回帰分析のxデータも同じとし、
    yの値の差によって、寄与率がどう変化するかを考えます。

    イメージを下表に書きます。

    単回帰分析 重回帰分析
    x z x y z
    1 3 1 ?? 3
    4 4 4 ?? 4
    2 4 2 ?? 4
    5 7 5 ?? 7
    4 7 4 ?? 7
    2 5 2 ?? 5
    寄与率 A 寄与率 B A、Bどちらがおおきい? 

    公式を比較

    まず、重回帰分析と単回帰分析において、それぞれの
    ●「データの構造式」
    ●「回帰直線」
    ●「回帰直線の傾き」
    ●「平方和」
    ●「寄与率」
    について公式を確認しましょう。

    公式は暗記ではなく、導出できます。関連記事で導出過程を確認しましょう。

    単回帰分析の復習

    回帰分析と相関係数をマスターする
    回帰分析と相関係数。学びやすく、試験で点数化したい領域ですが、重要なポイントと回帰分析の導出を解説しました。本記事を一通りマスターしておけば試験では確実に点数とれます。

    重回帰分析の復習

    重回帰分析の回帰式が導出できる
    重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

    公式を比較

    下表にまとめます。あっさりした表ですが、個々の数式をすべて導出できるように上の関連記事で確認しましょう。

    単回帰分析 重回帰分析
    データの構造式 \((z_i-\bar{z})\)=\((\hat{z_i}-\bar{x})\)+\((z_i-\hat{z_i})\)
    回帰直線 \(z\)=\(α+βx\) \(z\)=\(η+γx+δy\)
    傾き \(β\)=\(\frac{S_{xz}}{S_{xx}}\) (*)
    回帰平方和 \(S_{R1}\)=\(\frac{S_{xz}^2}{S_{xx}}\) \(S_{R2}\)=\(γS_{xz}+δS_{yz}\)
    総平方和 \(S_T\)=\(S_{zz}\)
    寄与率R R1=\(\frac{S_{R1}}{S_T}\) R2=\(\frac{S_{R2}}{S_T}\)

    上表の(*)は、下の連立方程式を満たす解が傾き\(γ,δ\)となります。

    \(S_{xx}γ+S_{xy}δ\)=\(S_{xz}\)
    \(S_{xy}γ+S_{yy}δ\)=\(S_{yz}\)

    寄与率を比較

    上の表を使って,重回帰分析と単回帰分析の寄与率の差を比較しましょう。
    ところで、寄与率Rを求める際、
    \(R\)=\(\frac{S_R}{S_T}\)
    ですが、単回帰分析も重回帰分析も目的変数のデータが同じ場合は、
    どちらも、総平方和\(S_T\)=\(S_{zz}\)なので、
    寄与率を求める分子の¥(S_R¥)について比較します。