QCプラネッツ 品質のプロフェッショナルを育成するサイト

【必読】「標本の分散」と「標本平均の分散」の違いがわかる

サンプリング

「サンプリングするとなんで分散VがV/nになるのかがわからない」、と困っていませんか?

こういう疑問に答えます。

本記事のテーマ

【必読】「標本の分散」と「標本平均の分散」の違いがわかる
  • ①サンプリングするとなぜV/nなのか?
  • ➁標本の分散と標本平均の分散の違いを理解する
  • ➂標本平均の分散を実際に計算する
  • ➃ばらつきを減らすにはサンプル数を増やせばいいの?
統計学、QC検定®を勉強すると必ず出て来るV/n
nが大きくなると分散0になるけどいいの?
有限なサンプル数で分散求めると母集団の分散からちょっとはずれるのはわかりけど、何でnで割るの?
元の母集団と同じデータだから、どうサンプリングしても分散はVのままじゃないの?

と混乱していませんか?

QCプラネッツもずっと混乱していましたが、この記事書いてようやく区別できました!
●商標使用について、
①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

関連記事でも記述しましたが、今回はさらにパワーアップさせます!

【本記事限定】標本平均の分散の注意点(nで割るな!)
標本平均の分散や検定統計量では分散をサンプル数で割りますね。でも「サンプル数が大きいと分散が低減される」のは不思議だと思いませんか?本記事では、教科書やwebサイトに載っていない、標本平均の分散の注意点をわかりやすく解説します。公式としてサンプル数で割るべきかどうかを確認したい方は必見です。

①サンプリングするとなぜV/nなのか?

設問文章にある何気ない文字が重要!

サンプリングや、検定と推定の問題文を上げてみましょう。

●サンプリング
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本平均の推定精度(分散)はいくらか。
●検定と推定
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
母平均がaといえるかを検定せよ。

どこがキーポイントかわかりますか?

慣れないと違和感は感じないのですが。

ここです!

●サンプリング
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本平均の推定精度(分散)はいくらか。
●検定と推定
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
平均がaといえるかを検定せよ。
わかりましたね!
そうです! 「平均」です。

なので、もし、

●サンプリング
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本平均の推定精度(分散)はいくらか。
●検定と推定
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
母平均母集団のデータがaといえるかを検定せよ。

となっていたら、

母集団の分散と同じです。
標本の平均だから分散の式が変わるんです!

V/nは数学的に正しい

でも、1つ疑問が有ります。

標本平均の分散V/nの式って実は正しくない?

でも、

数学的に正しいです。

下の例題で確認しましょう。

【例題】
よく、母集団からn個抜き取る場合の、分散をVからV/nにするが、その理由を数式で説明せよ。

実際に解いてみましょう。
確率変数\(x_1\),\(x_2\),…, \(x_n\)において、それぞれ独立と仮定すると、
\(V(\bar{x})\)=\(V(\frac{x_1+x_2+…+x_n}{n})\)
=\(\frac{1}{n^2}(V(x_1)+V(x_2)+…+V(x_n))\)
=\(\frac{n}{n^2}(V)\)
=\(\frac{V}{n}\)
と、数学的に正しいので、どうしてもこの式を避けることができません!

1つ値に決まる平均にばらつきがあるのはなぜか?

サンプリングすると母集団のデータよりばらつき(荒)があるから分散は母集団から変わるのは理解できるが、サンプル数nで割るのは納得できない!
でも、数式は正しい。
何か、しっくりこない!
さまざまなデータ値を総和して個数で割った唯一の値である平均に、ばらつきがあるのはなぜか?もわからないし、この分散がV/nってさらに混乱する!

ですよね!

1つ値に決まる平均にばらつきがあるのはなぜか?

この理由は、

サンプリングする選び方がたくさんあるから、サンプリングの平均がたくさんできる

例えば、下図のように、元データがあり、そこから無作為で、サンプリングしたデータの束を、番号1,2,…,nとします。平均は番号分n個あるので、

標本平均の分散
\(V(\bar{x})\)は\(\bar{x_1}\),\(\bar{x_2}\),…, \(\bar{x_n}\)のデータのばらつきを見ているわけです。

まとめると

●標本分散は元データ\(x_i\)の集団のばらつきで母集団分散と同じ
●標本平均分散は\(V(\bar{x})\)は\(\bar{x_1}\),\(\bar{x_2}\),…, \(\bar{x_n}\)のデータのばらつき
と、全く別物です。

「平均」という言葉があるかどうかで判断しましょう。
折角なので、練習してみましょう。

➁標本の分散と標本平均の分散の違いを理解する

演習1

問1
ある部品が1000 個ある。その特性は正規分布N(\(μ,σ^2\))その中から、以下の条件で抜取り、その特性を測定した場合、あるデータ期待値EとVがいくらになるかを2人の部下に聞いた。
部下A:もともと正規分布N(\(μ,σ^2\))に従うデータなので、どう抜き取っても、E=\(μ\)、V=\(σ^2\)である。
部下B:教科書の公式からいうと、E=\(μ\)、V=\(\frac{σ^2}{n}\)である。
どちらの言い分が正しいか? 判断せよ。

意外と混乱しますよね。分散において、何を指しているかが両部下は違っています。
●Aさんは、抜き取ったデータ(標本)そのものの期待値と分散を言っている。
●Bさんは、抜き取ったデータ(標本)の平均についての期待値と分散を言っている。

演習2

検定と推定の問題もやってみましょう。途中のヒントまで解説しますので、解いてみてください。

問2
ある部品の特性は、母集団が正規分布N(100,0.2)に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合、
99.9、99.7、100.0、99.9、99.8、99.4、100.0、100.2、99.8、100.1 (平均:99.88)
(1) 母平均が100.0mmといえるかを検定せよ。
(2) データ値は100.0mmといえるかを検定せよ。
ただし、抜き取ったロットの標準偏差はσ=0.2mmと母集団と同じとする。

実は、
(1) は教科書でもQC検定®でも必ず載っている問題
(2) はないので、QCプラネッツが作成

検定統計量\(z\)=\(\frac{\bar{x}-μ}{σ/\sqrt{n}}\)と暗記しますよね。ここに\(σ/\sqrt{n}\)があります。(1)(2)の違いが理解できるかを確認しましょう。

(2)はQC検定®でも出題してほしいですね。そしたら面白い!

➂標本平均の分散を実際に計算する

サンプリングがいまいち理解できない理由

サンプリングがいまいち理解できない、難しいとする理由は

実データがなく、変な公式しかないので、
「この式でいいのか? 式の意味がよくわからない」
まま、代入して終わるので、何を解いているかピントこない。

なので、実際にデータを用意して、サンプリング後の、「標本平均」の分散を計算してみましょう。

実際に計算しよう!

よく、母集団から\(n\)個抜き取る場合の、分散を\(V\)から\(\frac{V}{n}\)にするが、正しいのかどうか、実際にデータを使って確認したい。そのため、母集団100個のデータを用意した。母集団から\(n\)個抜き取る場合の分散は、その\(n\)個ずつ抜き取った\(n\)個のデータの平均値\(\bar{x}\)が100/\(n\)パターンあるので、その\(\bar{x}\)に関する期待値E[\(\bar{x}\)]と分散V[\(\bar{x}\)]を計算すればよい。以下、\(n\)に値を代入して、実際の期待値E[\(\bar{x}\)]と分散V[\(\bar{x}\)]を公式の値と比較せよ。
(1) n=5の場合(No.1~5,No.6~10,…,No.96~100のデータに区切る)
(2) n=10の場合(No.1~10,No.11~20,…,No.91~100のデータに区切る)
(3) n=20の場合(No.1~20,No.21~40,…,No.81~100のデータに区切る)
(4) n=50の場合(No.1~50,No.51~100のデータに区切る)
No data No data No data No data No data
1 11 21 68 41 58 61 75 81 87
2 2 22 4 42 82 62 45 82 82
3 35 23 34 43 22 63 18 83 18
4 34 24 24 44 46 64 26 84 71
5 52 25 30 45 35 65 88 85 13
6 54 26 13 46 22 66 51 86 34
7 25 27 63 47 21 67 68 87 55
8 57 28 29 48 48 68 32 88 55
9 84 29 12 49 28 69 69 89 33
10 95 30 20 50 44 70 31 90 83
11 51 31 89 51 26 71 48 91 22
12 49 32 69 52 61 72 50 92 65
13 9 33 55 53 6 73 25 93 83
14 85 34 30 54 29 74 50 94 29
15 24 35 15 55 37 75 57 95 27
16 19 36 41 56 57 76 81 96 75
17 64 37 98 57 71 77 86 97 97
18 83 38 44 58 4 78 64 98 77
19 78 39 18 59 46 79 43 99 10
20 65 40 1 60 67 80 23 100 17

解説

実際に計算してみましょう。

結果をまとめると

n 実際 公式V/n
1 665.62 665.62
5 115.98 297.67
10 50.37 210.49
20 33.33 148.84
50 10.76 94.13

グラフにすると、実際に計算したものと公式では値は異なりますが、傾向は同じことがわかり、サンプル数が増えると、標本平均の分散は小さくなることがわかります。

また、期待値Eはサンプル数に関係なく同じですね。

分散

実際に計算した分散と、公式V/nの値にずれがありますが、公式は理想系なデータである場合、つまり、データが無限になる母集団の場合なので、実際のデータを無限に増やして、サンプル数も無限に増やすと両者は一致します。それを実際に示すのはムリですが、今回データ100個で実演しました。

➃ばらつきを減らすにはサンプル数を増やせばいいの?

ばらつきを小さくしたいからサンプル数を増やすわけではない

これ、よく勘違いしてしまいますが、

ばらつきを小さくしたいからサンプル数を増やすわけではない!
標本平均の分散が小さく見えるだけで、標本そのものの分散は生データのばらつきそのもの

サンプル数をどの程度取ると、標本分散と標本平均の分散に差が出るかがわかる程度で、
ばらつきを小さくしたいからサンプル数を増やすわけではない点に注意しましょう。

「標本の分散」と「標本平均の分散」の違いがわかりましたね!

まとめ

「【必読】「標本の分散」と「標本平均の分散」の違いがわかる」をわかりやすく解説しました。

  • ①サンプリングするとなぜV/nなのか?
  • ➁標本の分散と標本平均の分散の違いを理解する
  • ➂標本平均の分散を実際に計算する
  • ➃ばらつきを減らすにはサンプル数を増やせばいいの?


Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119

    Warning: Invalid argument supplied for foreach() in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 122
error: Content is protected !!