【必読】「標本の分散」と「標本平均の分散」の違いがわかる
「サンプリングするとなんで分散VがV/nになるのかがわからない」、と困っていませんか?
こういう疑問に答えます。
本記事のテーマ
- ①サンプリングするとなぜV/nなのか?
- ➁標本の分散と標本平均の分散の違いを理解する
- ➂標本平均の分散を実際に計算する
- ➃ばらつきを減らすにはサンプル数を増やせばいいの?
QC・統計に勝てるためのサンプリング問題集を販売します!
QC検定®1級、2級でサンプリングの問題で苦戦していませんか?本記事では、QC・統計に勝てるためのサンプリング問題集(20題)を紹介します。 |
nが大きくなると分散0になるけどいいの?
と混乱していませんか?
①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。
●リンクページ
関連記事でも記述しましたが、今回はさらにパワーアップさせます!
【本記事限定】標本平均の分散の注意点(nで割るな!) 標本平均の分散や検定統計量では分散をサンプル数で割りますね。でも「サンプル数が大きいと分散が低減される」のは不思議だと思いませんか?本記事では、教科書やwebサイトに載っていない、標本平均の分散の注意点をわかりやすく解説します。公式としてサンプル数で割るべきかどうかを確認したい方は必見です。 |
①サンプリングするとなぜV/nなのか?
設問文章にある何気ない文字が重要!
サンプリングや、検定と推定の問題文を上げてみましょう。
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本平均の推定精度(分散)はいくらか。
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
母平均がaといえるかを検定せよ。
どこがキーポイントかわかりますか?
慣れないと違和感は感じないのですが。
ここです!
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本平均の推定精度(分散)はいくらか。
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
母平均がaといえるかを検定せよ。
そうです! 「平均」です。
なので、もし、
12個のロットをランダムに取り出し、各々から1個の製品をランダムにサンプリングして12個のデータより標本平均を求めて特性の母平均を推定する。このとき、標本
ある部品の特性は、母集団が正規分布に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合,
a1,a2,…,a10
となっていたら、
標本の平均だから分散の式が変わるんです!
V/nは数学的に正しい
でも、1つ疑問が有ります。
でも、
下の例題で確認しましょう。
よく、母集団からn個抜き取る場合の、分散をVからV/nにするが、その理由を数式で説明せよ。
実際に解いてみましょう。
確率変数\(x_1\),\(x_2\),…, \(x_n\)において、それぞれ独立と仮定すると、
\(V(\bar{x})\)=\(V(\frac{x_1+x_2+…+x_n}{n})\)
=\(\frac{1}{n^2}(V(x_1)+V(x_2)+…+V(x_n))\)
=\(\frac{n}{n^2}(V)\)
=\(\frac{V}{n}\)
と、数学的に正しいので、どうしてもこの式を避けることができません!
1つ値に決まる平均にばらつきがあるのはなぜか?
でも、数式は正しい。
何か、しっくりこない!
ですよね!
1つ値に決まる平均にばらつきがあるのはなぜか?
この理由は、
例えば、下図のように、元データがあり、そこから無作為で、サンプリングしたデータの束を、番号1,2,…,nとします。平均は番号分n個あるので、
まとめると
●標本平均分散は\(V(\bar{x})\)は\(\bar{x_1}\),\(\bar{x_2}\),…, \(\bar{x_n}\)のデータのばらつき
と、全く別物です。
「平均」という言葉があるかどうかで判断しましょう。
折角なので、練習してみましょう。
➁標本の分散と標本平均の分散の違いを理解する
演習1
ある部品が1000 個ある。その特性は正規分布N(\(μ,σ^2\))その中から、以下の条件で抜取り、その特性を測定した場合、あるデータ期待値EとVがいくらになるかを2人の部下に聞いた。
部下A:もともと正規分布N(\(μ,σ^2\))に従うデータなので、どう抜き取っても、E=\(μ\)、V=\(σ^2\)である。
部下B:教科書の公式からいうと、E=\(μ\)、V=\(\frac{σ^2}{n}\)である。
どちらの言い分が正しいか? 判断せよ。
意外と混乱しますよね。分散において、何を指しているかが両部下は違っています。
●Aさんは、抜き取ったデータ(標本)そのものの期待値と分散を言っている。
●Bさんは、抜き取ったデータ(標本)の平均についての期待値と分散を言っている。
演習2
検定と推定の問題もやってみましょう。途中のヒントまで解説しますので、解いてみてください。
ある部品の特性は、母集団が正規分布N(100,0.2)に従っている。そのうち10個を抜き出して特性を測定した。次の結果が得られた場合、
99.9、99.7、100.0、99.9、99.8、99.4、100.0、100.2、99.8、100.1 (平均:99.88)
(1) 母平均が100.0mmといえるかを検定せよ。
(2) データ値は100.0mmといえるかを検定せよ。
ただし、抜き取ったロットの標準偏差はσ=0.2mmと母集団と同じとする。
実は、
(1) は教科書でもQC検定®でも必ず載っている問題
(2) はないので、QCプラネッツが作成
検定統計量\(z\)=\(\frac{\bar{x}-μ}{σ/\sqrt{n}}\)と暗記しますよね。ここに\(σ/\sqrt{n}\)があります。(1)(2)の違いが理解できるかを確認しましょう。
(2)はQC検定®でも出題してほしいですね。そしたら面白い!
➂標本平均の分散を実際に計算する
サンプリングがいまいち理解できない理由
サンプリングがいまいち理解できない、難しいとする理由は
「この式でいいのか? 式の意味がよくわからない」
まま、代入して終わるので、何を解いているかピントこない。
なので、実際にデータを用意して、サンプリング後の、「標本平均」の分散を計算してみましょう。
実際に計算しよう!
(1) n=5の場合(No.1~5,No.6~10,…,No.96~100のデータに区切る)
(2) n=10の場合(No.1~10,No.11~20,…,No.91~100のデータに区切る)
(3) n=20の場合(No.1~20,No.21~40,…,No.81~100のデータに区切る)
(4) n=50の場合(No.1~50,No.51~100のデータに区切る)
No | data | No | data | No | data | No | data | No | data |
1 | 11 | 21 | 68 | 41 | 58 | 61 | 75 | 81 | 87 |
2 | 2 | 22 | 4 | 42 | 82 | 62 | 45 | 82 | 82 |
3 | 35 | 23 | 34 | 43 | 22 | 63 | 18 | 83 | 18 |
4 | 34 | 24 | 24 | 44 | 46 | 64 | 26 | 84 | 71 |
5 | 52 | 25 | 30 | 45 | 35 | 65 | 88 | 85 | 13 |
6 | 54 | 26 | 13 | 46 | 22 | 66 | 51 | 86 | 34 |
7 | 25 | 27 | 63 | 47 | 21 | 67 | 68 | 87 | 55 |
8 | 57 | 28 | 29 | 48 | 48 | 68 | 32 | 88 | 55 |
9 | 84 | 29 | 12 | 49 | 28 | 69 | 69 | 89 | 33 |
10 | 95 | 30 | 20 | 50 | 44 | 70 | 31 | 90 | 83 |
11 | 51 | 31 | 89 | 51 | 26 | 71 | 48 | 91 | 22 |
12 | 49 | 32 | 69 | 52 | 61 | 72 | 50 | 92 | 65 |
13 | 9 | 33 | 55 | 53 | 6 | 73 | 25 | 93 | 83 |
14 | 85 | 34 | 30 | 54 | 29 | 74 | 50 | 94 | 29 |
15 | 24 | 35 | 15 | 55 | 37 | 75 | 57 | 95 | 27 |
16 | 19 | 36 | 41 | 56 | 57 | 76 | 81 | 96 | 75 |
17 | 64 | 37 | 98 | 57 | 71 | 77 | 86 | 97 | 97 |
18 | 83 | 38 | 44 | 58 | 4 | 78 | 64 | 98 | 77 |
19 | 78 | 39 | 18 | 59 | 46 | 79 | 43 | 99 | 10 |
20 | 65 | 40 | 1 | 60 | 67 | 80 | 23 | 100 | 17 |
解説
実際に計算してみましょう。
結果をまとめると
n | 実際 | 公式V/n |
1 | 665.62 | 665.62 |
5 | 115.98 | 297.67 |
10 | 50.37 | 210.49 |
20 | 33.33 | 148.84 |
50 | 10.76 | 94.13 |
グラフにすると、実際に計算したものと公式では値は異なりますが、傾向は同じことがわかり、サンプル数が増えると、標本平均の分散は小さくなることがわかります。
また、期待値Eはサンプル数に関係なく同じですね。
実際に計算した分散と、公式V/nの値にずれがありますが、公式は理想系なデータである場合、つまり、データが無限になる母集団の場合なので、実際のデータを無限に増やして、サンプル数も無限に増やすと両者は一致します。それを実際に示すのはムリですが、今回データ100個で実演しました。
➃ばらつきを減らすにはサンプル数を増やせばいいの?
ばらつきを小さくしたいからサンプル数を増やすわけではない
これ、よく勘違いしてしまいますが、
標本平均の分散が小さく見えるだけで、標本そのものの分散は生データのばらつきそのもの
サンプル数をどの程度取ると、標本分散と標本平均の分散に差が出るかがわかる程度で、
ばらつきを小さくしたいからサンプル数を増やすわけではない点に注意しましょう。
まとめ
「【必読】「標本の分散」と「標本平均の分散」の違いがわかる」をわかりやすく解説しました。
- ①サンプリングするとなぜV/nなのか?
- ➁標本の分散と標本平均の分散の違いを理解する
- ➂標本平均の分散を実際に計算する
- ➃ばらつきを減らすにはサンプル数を増やせばいいの?
Warning: count(): Parameter must be an array or an object that implements Countable in /home/qcplanets/qcplanets.com/public_html/wp-content/themes/m_theme/sns.php on line 119