カテゴリー: 手法

  • 重回帰分析の推定区間の式が導出できる(その1)

    重回帰分析の推定区間の式が導出できる(その1)

    「重回帰分析の推定区間の式の導出がわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析の推定区間の式が導出できる(その1)

    おさえておきたいポイント

    • 推定区間の式(その1)
    • 導出に必要な関係式を導出(その1)
    • 傾き\(β_j\)の期待値が導出できる(その1)
    • ➃傾き\(β_j\)の分散が導出できる(その2)
    • ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • ⑥推定区間の式が導出できる(その2)
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    2回に分けて解説!
    「➄傾き\(β_j\)の共分散が導出できる」
    は完全に証明できていないので、QCプラネッツの宿題となっています(笑)

    ①推定区間の式(その1)

    推定区間の式を紹介

    目的変数\(y\)が
    \(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)+\(ε\)
    の信頼度(100-α)%の推定区間は、

    \(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    で与えられる。
    (ただし、\(D\)はマハラビノス距離)

    なんですけど、本心

    なんじゃこりゃ!

    ですよね。

    推定区間の式をよくみると

    \(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\) ±t(\(n-p-1,α)\)\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    はビビりますが、推定区間の式は基本

    (平均)±t(自由度、α)\(\sqrt{V_e/n_e}\)

    なので、
    ●(平均)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
    ●t(\(n-p-1,α)\)=t(自由度、α)→t分布に従うことは理解できる
    ●\(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)って何なん?

    となるので、

    \(\sqrt{(1+\frac{1}{n}+\frac{D^2}{n-1})V_e}\)
    を導出しましょう。

    ➁導出に必要な関係式を導出(その1)

    後の導出で必要になる関係式を1つ解説します。

    重回帰分析の回帰式の作り方については、関連記事で確認ください。

    重回帰分析の回帰式が導出できる
    重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

    平方和\(S_{ij}\)と\(S^{ij}\)

    重回帰分析の回帰式は
    \(y\)=\(β_0\)+\(β_1 x_1\)+\(β_2 x_2\)+…+\(β_p x_p\)
    で表現しますが、

    実測値と回帰直線上の予測値の間の誤差が最小になる条件から回帰式の傾きやy切片を求めます。
    具体的には最小2乗法を使うと、次の式ができます。行列を使いますが、

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    で表現できますね。なお、Sは各成分の平方和です。

    逆行列を使って、\(β_i\)の各値を計算します。つまり、

    \(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    となります。

    ここで、\(S^{ij}\)は逆行列のi行j列目の値で、添え字を上側とします。

    平方和\(S_{ij}\)と\(S^{ij}\)の関係式

    互いに逆行列の関係なので、実際に計算してみましょう。

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    1 & 0 & \ldots & 0 \\
    0 & 1 & \ldots & 0 \\
    \vdots & \vdots & \ddots & \vdots \\
    0 & 0 & \ldots & 1
    \end{array}
    \right)
    \)=E(単位行列)

    実際に
    ●(i,j)=(1,1):\(S_{11}S^{11}\)+\(S_{12}S^{21}\)+…+\(S_{1p}S^{p1}\)=1
    ●(i,j)=(1,2):\(S_{11}S^{12}\)+\(S_{12}S^{22}\)+…+\(S_{1p}S^{p2}\)=0

    ●(i,j)=(1,p):\(S_{11}S^{1p}\)+\(S_{12}S^{2p}\)+…+\(S_{1p}S^{pp}\)=0
    とjについて計算し、これをiについてどんどん具体的に計算しましょう。
    ●(i,j)=(2,1):\(S_{21}S^{11}\)+\(S_{22}S^{21}\)+…+\(S_{2p}S^{p1}\)=0
    ●(i,j)=(2,2):\(S_{21}S^{12}\)+\(S_{22}S^{22}\)+…+\(S_{2p}S^{p2}\)=1

    ●(i,j)=(2,p):\(S_{21}S^{1p}\)+\(S_{22}S^{2p}\)+…+\(S_{2p}S^{pp}\)=0


    ●(i,j)=(p,p):\(S_{p1}S^{1p}\)+\(S_{p2}S^{2p}\)+…+\(S_{pp}S^{pp}\)=1
    となりますね。

    展開式から規則性を探そう!

    いっぱい式を展開しましたが、規則性を探すと

    i=jの時は1、それ以外は0
    デルタ関数っぽい条件式ができる
    (左辺)の展開式は
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)でまとめられる

    シンプルな式でまとめると

    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
    \(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
    となります。この関係式をあとで使います。

    丁寧に導出しましたが、ここを手抜きすると、後の導出の理解ができなくなります。下ごしらえは丁寧にやりましょう。

    ➂傾き\(β_j\)の期待値が導出できる(その1)

    傾き\(β_j\)の式

    傾きを計算する行列の式を再掲します。

    \(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(\left(
    \begin{array}{cccc}
    S^{11} & S^{12} & \ldots & S^{1p} \\
    S^{21} & S^{22} & \ldots & S^{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S^{p1} & S^{p2} & \ldots & S^{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    ここで、j列にある\(β_j\)を求める式を抜き出すと
    \(β_j\)=\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)
    ですね。

    傾き\(β_j\)の期待値

    上の式の期待値E[\(β_j\)]は、
    E[\(β_j\)]=E[\(S^{j1}S_{1y}\)+\(S^{j2}S_{2y}\)+…+\(S^{jk}S_{ky}\)+…+\(S^{jp}S_{py}\)]
    =(式1)
    ですね。

    ここで、

    分布関数に従うのは誤差を含む\(y\)であり、\(x_i\)だけで作られた値はすべて定数扱いとするので、\(S^{jk}\)は定数とし、期待値Eの外に出せます。

    (式1)
    = \(S^{j1}\)E[\(S_{1y}\)]+ \(S^{j2}\)E[\(S_{2y}\)]+…+ \(S^{jk}\)E[\(S_{ky}\)]+…+ \(S^{jp}\)E[\(S_{py}\)]
    =\(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
    =(式2)
    とまとめることができます。

    関係式を代入して傾き\(β_j\)の期待値を計算

    ここで、\(S_{ky}\)は、傾き\(β_j\)を求める行列の式から

    \(\left(
    \begin{array}{cccc}
    S_{11} & S_{12} & \ldots & S_{1p} \\
    S_{21} & S_{22} & \ldots & S_{2p} \\
    \vdots & \vdots & \ddots & \vdots \\
    S_{p1} & S_{p2} & \ldots & S_{pp}
    \end{array}
    \right)
    \)\(
    \left(
    \begin{array}{c}
    β_1 \\
    β_2 \\
    \vdots \\
    β_p
    \end{array}
    \right)
    \)=\(
    \left(
    \begin{array}{c}
    S_{1y} \\
    S_{2y} \\
    \vdots \\
    S_{py}
    \end{array}
    \right)
    \)

    \(S_{ky}\)=\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)
    と計算できるので、(式2)に代入します。

    (式2)= \(\sum_{k=1}^{p}S^{jk}\)E[\(S_{ky}\)]
    =\(\sum_{k=1}^{p}S^{jk}\)E[\(β_1 S_{k1}\)+\(β_2 S_{k2}\)+…+\(β_p S_{kp}\)]
    =(式3)

    期待値Eの[ ]の中は、変数\(x_i\)について値なので、定数扱いとしてE[ ] の外に出せます。よって(式3)は
    (式3)= \(\sum_{k=1}^{p}S^{jk} S_{k1}\)\(β_1\)+\(\sum_{k=1}^{p}S^{jk} S_{k2}\)\(β_2\)+…+\(\sum_{k=1}^{p}S^{jk} S_{kp}\)\(β_p\)
    =(式4)
    となります。

    上の「➁導出に必要な関係式を導出」で
    ●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=1 (\(i\)=\(j\))
    ●\(\sum_{k=1}^{p}S_{ik} S^{kj}\)=0 (\(i\)≠\(j\))
    を(式4)に代入すると、

    (式4)の中の\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)のみ(i=j)が
    \(\sum_{k=1}^{p}S_{ik} S^{ki}\)=1×\(β_j\)
    となり、それ以外(i≠j)は
    \(\sum_{k=1}^{p}S_{ik} S^{ki}\)=0になるので和はすべて0です。
    よって、まとめると
    (式4) =\(\sum_{k=1}^{p}S^{jk} S_{kj}\)\(β_j\)
    =\(β_j\)
    となります。

    E[\(β_j\)]=\(β_j\)
    なんて、当たり前じゃん!

    ですが、分散の計算に必要な前座でもあるので、期待値を丁寧に導出しました。

    では、分散の導出については、
    関連記事「重回帰分析の推定区間の式が導出できる(その2))で解説します。
    次行ってみよう!

    ➃傾き\(β_j\)の分散が導出できる(その2)

    ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)

    ⑥推定区間の式が導出できる(その2)

    まとめ

    「重回帰分析の推定区間の式が導出できる(その1)」を解説しました。

    • 推定区間の式(その1)
    • 導出に必要な関係式を導出(その1)
    • 傾き\(β_j\)の期待値が導出できる(その1)
    • ➃傾き\(β_j\)の分散が導出できる(その2)
    • ➄傾き\(β_j\)の共分散が導出できる(研究中)(その2)
    • ⑥推定区間の式が導出できる(その2)

  • 重回帰分析と単回帰分析の比較がわかる

    重回帰分析と単回帰分析の比較がわかる

    「単回帰分析と重回帰分析では、どちらの寄与率が大きいかわからない」と困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    重回帰分析と単回帰分析の比較がわかる

    おさえておきたいポイント

    • ①重回帰分析と単回帰分析を比較
    • ➁重回帰分析と単回帰分析で寄与率が等しい場合
    • ➂重回帰分析の方が単回帰分析より寄与率が大きい場合
    • ➃単回帰分析の方が重回帰分析より寄与率が大きい場合
    [themoneytizer id=”105233-2″]

    【QC検定®1級合格】回帰分析問題集を販売します!

    QC検定®1級合格したい方、回帰分析をしっかり学びたい方におススメです。
    【QC検定®合格】「回帰分析(単回帰分析・重回帰分析)」問題集を販売します! 内容は、①単回帰分析の基本、➁特殊な単回帰分析、➂単回帰分析の応用、➃重回帰分析の基礎、⑤重回帰分析の応用、の5章全41題を演習できる問題集です。

    多重共線性の話につながるテーマです。

    ①重回帰分析と単回帰分析を比較

    目的変数データは同じで、説明変数の種類を変えて寄与率を比較

    寄与率を比較するために、目的変数zは同じとし、
    説明変数は
    ●単回帰分析はxのみ
    ●重回帰分析はx,yとし、
    重回帰分析と単回帰分析のxデータも同じとし、
    yの値の差によって、寄与率がどう変化するかを考えます。

    イメージを下表に書きます。

    単回帰分析 重回帰分析
    x z x y z
    1 3 1 ?? 3
    4 4 4 ?? 4
    2 4 2 ?? 4
    5 7 5 ?? 7
    4 7 4 ?? 7
    2 5 2 ?? 5
    寄与率 A 寄与率 B A、Bどちらがおおきい? 

    公式を比較

    まず、重回帰分析と単回帰分析において、それぞれの
    ●「データの構造式」
    ●「回帰直線」
    ●「回帰直線の傾き」
    ●「平方和」
    ●「寄与率」
    について公式を確認しましょう。

    公式は暗記ではなく、導出できます。関連記事で導出過程を確認しましょう。

    単回帰分析の復習

    回帰分析と相関係数をマスターする
    回帰分析と相関係数。学びやすく、試験で点数化したい領域ですが、重要なポイントと回帰分析の導出を解説しました。本記事を一通りマスターしておけば試験では確実に点数とれます。

    重回帰分析の復習

    重回帰分析の回帰式が導出できる
    重回帰分析の回帰式は自力で導出できますか?本記事では公式暗記になりがちな重回帰分析の回帰式を途中経過を一切端折らず丁寧に解説します。ちゃんと自力で導出できて、重回帰分析や多変量解析ができるようになりましょう。重回帰分析や多変量解析を勉強する人は必読です。

    公式を比較

    下表にまとめます。あっさりした表ですが、個々の数式をすべて導出できるように上の関連記事で確認しましょう。

    単回帰分析 重回帰分析
    データの構造式 \((z_i-\bar{z})\)=\((\hat{z_i}-\bar{x})\)+\((z_i-\hat{z_i})\)
    回帰直線 \(z\)=\(α+βx\) \(z\)=\(η+γx+δy\)
    傾き \(β\)=\(\frac{S_{xz}}{S_{xx}}\) (*)
    回帰平方和 \(S_{R1}\)=\(\frac{S_{xz}^2}{S_{xx}}\) \(S_{R2}\)=\(γS_{xz}+δS_{yz}\)
    総平方和 \(S_T\)=\(S_{zz}\)
    寄与率R R1=\(\frac{S_{R1}}{S_T}\) R2=\(\frac{S_{R2}}{S_T}\)

    上表の(*)は、下の連立方程式を満たす解が傾き\(γ,δ\)となります。

    \(S_{xx}γ+S_{xy}δ\)=\(S_{xz}\)
    \(S_{xy}γ+S_{yy}δ\)=\(S_{yz}\)

    寄与率を比較

    上の表を使って,重回帰分析と単回帰分析の寄与率の差を比較しましょう。
    ところで、寄与率Rを求める際、
    \(R\)=\(\frac{S_R}{S_T}\)
    ですが、単回帰分析も重回帰分析も目的変数のデータが同じ場合は、
    どちらも、総平方和\(S_T\)=\(S_{zz}\)なので、
    寄与率を求める分子の¥(S_R¥)について比較します。

  • ワイブル確率紙

    ワイブル確率紙においては、打切りデータある場合の対処がないため、打切りデータが無い場合と同じ結果になります。

    結果を表にまとめると、

    ワイブル確率は、上表のX(=log(data))とY(=ln(ln(1/R))の直線グラフから定数\(m\)、\(η\)を求めます。グラフは下図になります。

    ワイブル確率紙

    結果は、
    \(m\)=直線の傾きより=1.233
    \(η\)=593.02
    (\(η\)は y切片 \(m(log(η)\))=7.8706から算出)
    となります。

    累積ハザード法

    累積ハザードを計算すると、下表になります。

    順位i
    (B)
    逆順位K=n-i+1
    (n=20)
    (C)
    時間ti
    (D)
    打切り有無
    ○⇒0
    ×⇒1
    不良率hi
    1/(逆順位) ×100%
    (E)
    累積ハザード値Hi
    ∑hi
    (F)
    1 20 40 0 0/20
    2 19 100 1 1/19 0/20+1/19=0.053
    3 18 110 1 1/18 0/20+1/19+1/18=0.108
    4 17 160 0 0/17 0.108
    5 16 190 1 1/16 0.171
    6 15 250 0 0/15 0.171
    7 14 290 1 1/14 0.242
    8 13 320 1 1/13 0.319
    9 12 350 1 1/12 0.402
    10 11 390 1 1/11 0.493
    11 10 420 1 1/10 0.593
    12 9 490 1 1/9 0.704
    13 8 590 1 1/8 0.829
    14 7 630 0 0/7 0.829
    15 6 730 1 1/6 0.996
    16 5 800 1 1/5 1.196
    17 4 940 1 1/4 1.446
    18 3 1060 0 0/3 1.446
    19 2 1260 1 1/2 1.946
    20 1 1770 0 0/1 0/20+1/19+1/18+…+0/3+1/2+0/1=1.946

    累積ハザード法を直線グラフにするために、上の表の色枠をつけた、時間log(ti)
    と、累積ハザード値log(Hi)を使って、下表にまとめます。

    ちなみに、打切り無しのデータを下表の右側にも参考で載せます。打切り有無でデータが変わっているのが分かりますね。

    log(t) log(H(t) log(H(t)
    (打切り無し)
    3.689 -2.996
    4.606 -2.945 -2.277
    4.701 -2.224 -1.844
    5.076 -2.224 -1.528
    5.248 -1.768 -1.275
    5.522 -1.768 -1.061
    5.67 -1.418 -0.873
    5.769 -1.143 -0.704
    5.859 -0.91 -0.548
    5.967 -0.707 -0.402
    6.041 -0.522 -0.263
    6.195 -0.35 -0.128
    6.381 -0.187 0.005
    6.446 -0.187 0.138
    6.594 -0.004 0.273
    6.685 0.179 0.415
    6.847 0.369 0.568
    6.967 0.369 0.741
    7.14 0.666 0.955
    7.48 0.666 1.28

    結果をグラフにまとめると

    累積ハザード法

    結果は、
    \(m\)=直線の傾きより=0.7965
    \(η\)=924.42
    (\(η\)は y切片 \(m(log(η)\))=5.4401から算出)
    となります。

    ワイブル確率紙と累積ハザード法を比較

    結果は、

    ワイブル確率紙 累積ハザード法
    \(m\) 1.233 0.7965
    \(η\) 593.02 924.42
    ワイブル確率紙でも累積ハザード法で、結果に差が出ました。
    mは累積ハザード法の方が低くでました。
    打切り有(未故障)データがあるので、寿命は長くなるはずだから、妥当な結果ですよね。
    ηは累積ハザード法の方が長くでました。
    打切り有(未故障)データがあるので、寿命は長くなるはずだから、妥当な結果ですよね。

    グラフでも比較すると、

    累積ハザード法

    打切りデータがあると、ワイブル確率紙は寿命が短いという厳しい評価をするために、累積ハザード法を使う必要があることがよくわかりますね。

    まとめ

    「ワイブル確率紙と累積ハザード法の違いがよくわかる」を解説しました。

    • ①累積ハザード法の基礎を理解する
    • ➁ワイブル確率紙と累積ハザード法の違いを理解する
    • ➂同じ問題をワイブル確率紙と累積ハザード法それぞれで解いてみる
    • ➃打切りが無い場合は、両者は同等の結果になる
    • ➄打切りが無い場合は、両者の結果に差が出る

  • error: Content is protected !!