【必読】R管理図の変数d2,d3の導出が(半分)わかる
「R管理図の変数d2,d3の導出がわからない」と困っていませんか?
こういう疑問に答えます。
本記事のテーマ
d2,d3の式
●\(d_2\)=\(\displaystyle \int_{-\infty}^{\infty} [1-(1-φ(x))^n-(φ(x))^n]dx\)
●\(d_3\)=\(\sqrt{2\displaystyle \int_{-\infty}^{\infty} \displaystyle \int_{-\infty}^{y}f(x,y)dxdy-d_2^2 }\)
\(f(x,y)=1-φ(y)^n-(1-φ(x))^n+(φ(y)-φ(x))^n\)
読んでも理解ができない超難関な式です。でも、これをR管理図の係数表としてよく見かけます。でも、どうやってこの式になったのか?と気になるのは当然!
注意!
完璧に導出できていませんが、日本中の資料をかき集めて、自分で研究した成果を解説します。d2,d3の導出で新たな知見が出たら、ブログを更新します。
Rのような0以上という特別な性質を表現できる
確率密度関数が無く、激ムズな式を導出しないといけない。
d2,d3の導出がわからないので、
JISの係数表が絶対正しいと確認できない。
自分で確認できないものは使いたくない。
R管理図よりs管理図の方を使った方がよいかもです。
s管理図については理論式の導出ができるからです。
本記事のテーマ
- ①範囲Rの特性
- ②順序統計量の同時分布を確率密度関数とする
- ③d2の導出(わかる範囲で)
- ④d3の導出(わかる範囲で)
- ⑤係数\(d_2\),\(d_3\)の参考文献
記事の信頼性
記事を書いている私は、管理図の係数表、群内変動・群間変動の解き方に疑問が残りました。そこで、管理図の理論を研究しました。その成果をブログで解説します。
●Youtube動画にも解説しています。ご確認ください。
①範囲Rの特性
範囲Rはいい点も、困る点もあります。
>範囲Rのいい点
- 「(最大)と(最小)の差」と計算しやすい
- 理解しやすい、使いやすい
なので、計量値を扱う管理図のほとんどが\(\bar{X}\)-R管理図です。
>範囲Rの困る点
- (最大)―(最小) ≥ 0と範囲Rの分布は0以上と限定
- xが正のみな分布を表現する確率密度関数が超複雑になる
その結果、d2,d3が
●\(d_2\)=\(\displaystyle \int_{-\infty}^{\infty} [1-(1-φ(x))^n-(φ(x))^n]dx\)
●\(d_3\)=\(\sqrt{2\displaystyle \int_{-\infty}^{\infty} \displaystyle \int_{-\infty}^{y}f(x,y)dxdy-d_2^2 }\)
\(f(x,y)=1-φ(y)^n-(1-φ(x))^n+(φ(y)-φ(x))^n\)
とわけのわからない式になってしまいます。
②順序統計量の同時分布を確率密度関数とする
範囲Rに合う確率密度関数を探す
範囲Rは
●0以上の値
●大きい値と小さい値の2つの差
という特性があります。
これを表現できる確率密度関数が、
順序統計量の同時分布です。
- 順序統計量って何? 難しい?⇒難しいです。
- 同時分布って何? 2変数で表現する難解な式です。
急にレベルが高くなりました。順序統計量、順序統計量の同時分布については関連記事で解説します。まずは、「こういう関数があるんだ!」でかまいません。まずは使ってみることです。
順序統計量の同時分布
●「順序統計量が難しい」
●「同時分布はもっと難しい」
と、2段階で難しい話ですが、式だけ追いましょう。
順序統計量の同時分布を表現する確率密度関数は次のようになります。
\(f_{X(k) X(l)} (u,v)\)
=\(\frac{n!}{(k-1)!(l-k-1)!(n-l)!}\)\(F_{X(u)}^{k-1} f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{l-k-1}\)\(f_{X(v)}\)\([1-F_{X(v)}]^{n-l}\)
範囲Rはx(n)-x(1)の差
順序統計量とは、個々の変数\(x_{i}\)について、
\(x_{1}\) ≤ \(x_{2}\) ≤ … ≤ \(x_{n}\)
の関係が成り立ちます。
範囲Rは最大と最小の差ですから、
R= \(x_{n}\) – \(x_{1}\) ≥ 0
が成り立ちます。
さらに\(x_{n}\) = \(x_{2}\), \(x_{1}\) = \(x_{1}\)にも注目しましょう。
範囲Rの確率密度関数
順序統計量の同時分布を表現する確率密度関数について、k=1,l=nを代入します。
\(f_{X(1) X(n)} (u,v)\)
=\(\frac{n!}{(1-1)!(n-1-1)!(n-n)!}\)\(F_{X(u)}^{1-1} f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{n-1-1}\)\(f_{X(v)}\)\([1-F_{X(v)}]^{n-n}\)
=\(\frac{n!}{(n-2)!}\)\(f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{n-2}\)\(f_{X(v)}\)
=\(n(n-1)\)\(f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{n-2}\)\(f_{X(v)}\)
③d2の導出(わかる範囲で)
E[R]の立式
辻褄合わせですが、範囲Rを
R=\(x_{2}\)-\(x_{1}\) = (u-v)σ
に変えて積分します。(ちょっと無理があるけど)
期待値と分散の公式
E[\(X^2\)]=\(\displaystyle \int R^2 f(R) dR\)
V[X]= E[\(X^2\)]-\(E[X]^2\)
でしたね。
よって、Rの期待値E[R]は次の式となります。
E[R]= \(\displaystyle \int R f(R) dR\)
=\(\displaystyle \int R \)\(n(n-1)\)\(f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{n-2}\)\(f_{X(v)}dR\)
=σ\(\displaystyle \int \int (u-v) n(n-1)\)\(f_{X(u)}\)\([F_{X(v)}-F_{X(u)}]^{n-2}\)\(f_{X(v)}dudv\)
●次に順序統計量について関係式を使います。
\(\displaystyle \frac{d F_{X(u)}}{dx}\)=\( f_{X(u)}\)
\(\displaystyle d F_{X(u)}\)=\( f_{X(u)} dx\)
と変形し、これを使います。
Rの期待値E[R]は
E[R]=σ\(n(n-1)\displaystyle \int d F_{X(u)} \int (u-v)\)\([F_{X(v)}-F_{X(u)}]^{n-2}\)\( d F_{X(u)}\)
積分区間と、u⇒x1,v⇒x2と表記を変えます。
E[R]=σ\(n(n-1)\displaystyle \int_{-\infty}^{\infty} d F_1 \int_{-\infty}^{x_1} (x_1-x_2)\)\([F_1-F_2]^{n-2} dF_2\)
この式が、「新編統計数値表 河出書房 1952」P207と同じ式です。ここまでの導出は理解したのですが、ここからがまだわかっていません。
E[R]の導出
「新編統計数値表 河出書房 1952」P207によって、係数d2を導出します。
E[R]=σ\(n(n-1)\displaystyle \int_{-\infty}^{\infty} d F_1 \int_{-\infty}^{x_1} (x_1-x_2)\)\([F_1-F_2]^{n-2} dF_2\)
を\([F_1-F_2]^{n-2}\)を展開して、部分積分をしたうえで、まとめると次の式になるようです。
E[R]=σ\(n! \sum_{r=0}^{n-2} \frac{(-1)^r}{(r+1)!(n-r-1)!}\)\( \displaystyle \int_{-\infty}^{\infty}(1-F_1^{n-r-1})F_1^{r+1} dx_1\)
=σ\( \displaystyle \int_{-\infty}^{\infty}(1-F_1^n-(1-F_1)^n)dx_1\)
=\(d_2\)σ
とすると、係数\(d_2\)の式になるようです。実際\(F_1\)を正規分布の確率密度関数\(φ(x)\)に置き換えるとOKです。
\(d_2\)=\( \displaystyle \int_{-\infty}^{\infty}(1-φ(x)^n-(1-φ(x))^n)dx\)
となります。
ただし、完全に導出できたかは、今も研究中です。わかり次第、ブログを更新します。
④d3の導出(わかる範囲で)
E[\(R^2\)]の立式
期待値と分散の公式
E[\(X^2\)]=\(\displaystyle \int R^2 f(R) dR\)
V[X]= E[\(X^2\)]-\(E[X]^2\)
でしたね。
E[R]=σ\(n(n-1)\displaystyle \int_{-\infty}^{\infty} d F_1 \int_{-\infty}^{x_1} (x_1-x_2)\)\([F_1-F_2]^{n-2} dF_2\)
でしたね。
●E[\(R^2\)]は
E[\(R^2\)]=\(σ^2 n(n-1)\displaystyle \int_{-\infty}^{\infty} d F_1 \int_{-\infty}^{x_1} (x_1-x_2)^2\)\([F_1-F_2]^{n-2} dF_2\)
となります。
この式も、ここからの導出は研究中ですが、「新編統計数値表 河出書房 1952」P207によると、次の結果になるそうです。
E[\(R^2\)]=\(σ^2\)2\(\displaystyle \int_{-\infty}^{\infty} \displaystyle \int_{-\infty}^{x_1} (1-F_1^n-(1-F_2)^n-(F_1-F_2)^n) dx_1 dx_2\)
Fをφに書き換えると
E[\(R^2\)]=\(σ^2\)2\(\displaystyle \int_{-\infty}^{\infty} \displaystyle \int_{-\infty}^{x_1} (1-φ(x_1)^n-(1-φ(x_2))^n-(φ(x_1)-φ(x_2))^n) dx_1 dx_2\)
と置きますね。
分散Vの立式
分散Vは、
V[R]= V[R]= E[\(R^2\)]-\(E[R]^2\)
=\(d_3 σ^2\)
平方根を取ると、
●D[R]=\(\sqrt{d_3}\)σ
●\(d_2\)=\(\displaystyle \int_{-\infty}^{\infty} [1-(1-φ(x))^n-(φ(x))^n]dx\)
●\(d_3\)=\(\sqrt{2\displaystyle \int_{-\infty}^{\infty} \displaystyle \int_{-\infty}^{y}f(x,y)dxdy-d_2^2 }\)
\(f(x,y)=1-φ(y)^n-(1-φ(x))^n+(φ(y)-φ(x))^n\)
と書けます。
⑤係数\(d_2\),\(d_3\)の参考文献
完全に導出できていませんので、参考文献を紹介します。
係数係数\(d_2\),\(d_3\)が分かったら教えてください。
引き続き研究して参ります。
参考文献
●「新編統計数値表 河出書房 1952」P207
最も詳細に書いていますが、計算の途中経過がいまいちよくわかりません。
●管理図法―品質管理教程 (1962年)
1986年改訂版もありますが、数式や理論は1962年の初版の方が詳しく解説している印象があります。
参考サイト
いくつか紹介しますが、導出過程まで解説したものはありません。
【水増し係数と割引き係数:不偏標準偏差と管理図係】数
c4,d2,d3についての解説があるが、導出は無い。
【エクセルQC館 管理図の係数】
管理図の係数の式は紹介されているが、導出は無い。
【Deriving Control Chart Constants】
管理図の係数の式は紹介されているが、導出は無い。
【管理図係数計算】
管理図の係数の式は紹介されているが、導出は無い。
係数\(d_2\),\(d_3\)の導出を一番詳しく書いているのは、
「新編統計数値表 河出書房 1952」P207ですが、
導出の途中経過までは書いていないため、自分で調べる必要があるのが現状です。
また、シューハートの論文などを読みましたが、計算過程が分からず…でした。
わかった内容をすべてお伝えし、さらに導出過程の解明に努めていきます。
まとめ
R管理図の管理限界線の係数\(d_2\),\(d_3\)の導出を解説しました。
- ①範囲Rの特性
- ②順序統計量の同時分布を確率密度関数とする
- ③d2の導出(わかる範囲で)
- ④d3の導出(わかる範囲で)
- ⑤係数\(d_2\),\(d_3\)の参考文献
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119