カテゴリー: 基本統計量

  • 【簡単】χ2乗分布とt分布とF分布がすぐわかる【初心者向け】

    【簡単】χ2乗分布とt分布とF分布がすぐわかる【初心者向け】

    「χ2乗分布とt分布とF分布の式は複雑でわからない」、「χ2乗分布とt分布とF分布の関係がわからない」、「解き方は暗記したけど本質がわからない」など、分布の特性や利用目的を理解しないまま、検定や推定、分散分析していませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】χ2乗分布とt分布とF分布の関係がわかる【初心者向け】

    分布関数を理解するポイント

    • ➀χ2乗分布→t分布→F分布の順で学ぶ
    • 分布関数は導出イメージが理解できる
    • ③正規分布、χ2乗分布、t分布とF分布の関係
    [themoneytizer id=”105233-2″]

    さっそく見ていきましょう。

    ➀χ2乗分布→t分布→F分布の順で学ぶ

    教科書あるある

    正規分布→t分布→χ2乗分布→F分布

    教科書は、母平均の検定に使う正規分布とt分布を先に、分散の検定に使うχ2乗分布とF分布を後に紹介します。
    確かに、この順番でもOKですが、
    本記事はt分布よりχ2乗分布を先に解説します。

    本記事

    正規分布→χ2乗分布→t分布→F分布

    分布関数は導出イメージが理解できる

    それぞれの分布関数の使い方は個別の記事で紹介しますが、全体像を本記事で理解してください。

    ・正規分布
    ・χ2乗分布
    ・t分布
    ・F分布

    χ2乗分布は分散の検定のために作られた関数

    χ2乗分布の定義を見ましょう。

    N個の確率変数\(X_1\)、…、\(X_n\)が互いに独立に同一の平均μ、分散\(σ^2\)の正規分布に従う。このとき統計量
    \(χ^2=\frac{(X_1-\bar{X})^2+(X_2-\bar{X})^2+…+(X_n-\bar{X})^2}{σ^2}\)
    は、自由度N-1のχ2乗分布になる。

    正しいですが、わかりませんよね。簡単にわかるよう解説します。

    統計量の最重要な確認事項

    基本中の基本ですが、データ分析は、
    平均
    ばらつき
    しか使いません。まず、これだけ理解してください。

    平均を扱うのが、正規分布、t分布です。
    母集合の母分散が既知で理想的な分布な正規分布
    母集合の母分散が未知で現実的な分布なt分布
    と、平均を扱う分布は2種類あります。

    次にばらつき(分散)用の分布も必要になりますね。

    χ2乗分布は分散の検定のために作られた関数で
    正規分布から出発します。

    平均\(\bar{x}\)、分散\(σ^2\)の正規分布に従う変数\(x_i\)の分散を考えます。
    まず、変数\(x_i\)を標準化します。標準化についてはここを見てください。
    \( \frac{x_i-\bar{x}}{σ}\)
    そして、この2乗和が平方和であり、分散を考えるχ2乗分布関数の基本形になります。

    χ2乗分布関数

    \( Z=\sum_{i} (\frac{x_i-\bar{x}}{σ})^2\)
    関数のイメージ:(χ2乗分布関数)=Σ(正規分布関数)^2

    (χ2乗分布関数)
    \( f(x)= \frac{1}{2^{\frac{k}{2}}}\)\(Γ(\frac{k}{2}) \)\(x^{\frac{k}{2}-1}\)\(e^{\frac{x}{2}} \) (A)
    (正規分布関数)
    \( f(x)=\frac{1}{\sqrt{2π}}exp(-\frac{x^2}{2}) \)(B)
    と超難解な式です。ですが、
    (A)=Σ(B)^2で計算できる
    の理解で十分です。あとの難解な計算や式は、数学者にお願いしましょう。

    実務で統計学を早く理解するポイント

    ・難解な式を厳密に解くより、「何をやっている式なのか」をざっくりでよいので早く理解する!
    ・数学的な正しさより、相手にわかりやすい説明ができることが重要!

    χ2乗分布関数

    χ2乗分布関数は、ざっくり書くと
    \( Z=\sum_{i} (\frac{x_i-\bar{x}}{σ})^2\)
    ですね。よく見ると、
    \(\sum_{i} (x_i-\bar{x})^2\)
    は平方和Sですよね。
    つまり、
    $$ χ^2 = \frac{S}{σ^2} $$
    の関係があります。よく教科書にありますが、本記事を読めば、暗記する必要はありません。

    χ2乗分布のさらなる特徴については、χ2乗分布を読んでください。

    t分布は正規分布の一部を取り出した分布

    t分布の定義を見ましょう。

    2つの確率変数X,Yが独立で、Yが自由度nのχ2乗分布、Zが正規分布N(0,\(1^2\))に従うとき、
    \(X=\frac{Z}{\sqrt{Y/n}}\)
    は自由度n-1のt分布に従う。

    正しいですが、全然意味がわからないですね。簡単にわかるよう解説します。

    本記事で先に、χ2乗分布関数を説明した理由は、
    t分布の導出にχ2乗分布関数が必要だからです。

    平均を扱うのが、正規分布、t分布です。
    母集合の母分散が既知で理想的な分布な正規分布
    母集合の母分散が未知で現実的な分布なt分布
    ですね。

    正規分布は、理想・全体、無限のイメージですが、
    t分布は、現実・一部・有限のイメージがあります。

    t分布のイメージ

    ・正規分布 × 一部/全体 = t分布
    ・一部/全体についてはχ2乗分布関数を使う。
    ・正規分布、t分布は平均\(x\)、χ2乗分布は分散\(x^2\)なため、χ2乗分布の平方根を使う
    t分布 X = 正規分布 Z / √ χ2乗分布Y になっていますね!

    正規分布はσを、t分布はσではなく自由度nを使う理由

    t分布 X = 正規分布 Z / √χ2乗分布Y
    をよく見ると、
    正規分布 Z のσ/√χ2乗分布(σ^2/n)
    → σ/√(σ^2/n)=nとざっくり計算できますね。
    σ→nに変わっていますよね。これが、
    正規分布はσを、t分布はσではなく自由度nを使う
    わかりやすい理由です。

    数学的な証明ではないため、厳密さは欠けますが、
    慣れないうちはこの程度の説明で十分です。

    私がわかりやすい説明を考え抜いた結果、この説明にたどり着きました。

    t分布のさらなる特徴については、t分布を読んでください。

    F分布は分散比の検定のために作られた関数

    F分布の定義を見ましょう。

    2つの独立な確率変数Y,Zがあり、確率変数Yは自由度mのχ2乗分布、確率変数Zは自由度nのχ2乗分布に従うとき、
    \( X=\frac{\frac{Y}{m}}{\frac{Z}{n}}\)
    は自由度(m,n)のF分布に従う。

    正しいですが、わかりにくいですね。簡単にわかるよう解説します。

    F分布の目的

    ・分散比の検定が欲しいからF分布ができた。
    ・分散比だから、χ2乗分布関数の比になる。
    ・F分布によって、分散分析ができる。

    分散比だから、χ2乗分布関数の比になるわけですから、
    F分布関数= χ2乗分布関数1/ χ2乗分布関数2
    となりますよね。
    χ2乗分布関数1 と χ2乗分布関数2は自由度が異なるため、
    F分布は両方の自由度が必要となるのも理解できますね。

    F分布はこれだけわかれば十分です。

    F分布のさらなる特徴については、F分布を読んでください。

    ③正規分布、χ2乗分布、t分布とF分布の関係

    4つの分布関数の関係をざっくり書くと下の図のようになります。まずはこれだけわかれば十分実務に活かせます。

    分布関数

    それぞれの関係と、利用目的が理解しやすいですね。活用できる良いイメージ図です。

    なお、厳密に書くと下図になります。でも、わかりにくいですね。

    分布関数

    まとめ

    正規分布、χ2乗分布、t分布、F分布の順で、実務や試験に活かせるようにわかりやすく解説しました。かなりイメージがついて、検定・推定、分散分析の解法に自信がついたでしょう。

    • ➀χ2乗分布→t分布→F分布の順で学ぶ
    • 分布関数は導出イメージが理解できる
    • ③正規分布、χ2乗分布、t分布とF分布の関係

  • 【簡単】わかりやすく理解できるポアソン分布

    【簡単】わかりやすく理解できるポアソン分布

    「ポアソン分布の式がわからない」、 「ポアソン分布を使い方がイメージできない」などとポアソン分布は、二項分布や正規分布よりわかりくいですよね。

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】わかりやすくできるポアソン分布【初心者向け】

    ポアソン分布を理解するポイント

    • ➀ポアソン分布の式の覚え方
    • ②ポアソン分布のわかりやすい導出
    • ③ポアソン分布の活用例
    [themoneytizer id=”105233-2″]

    本記事を読んでいるあなたは、平方和、確率分布関数など統計学の基礎をマスターしたいはずです。理解度アップのための必須な関連記事がありますので、関連記事も読んでください。

    ★統計学で最初に悩む関門! 平方和が簡単にマスターできるページ

    確率分布関数の作り方や確率・期待値を積分で計算する理由が簡単にわかるページ

    ★品質管理・統計に頻出な分布関数をわかりやすく解説したページ



    さっそく見ていきましょう。

    ●You tube動画もご覧下さい

    ➀ポアソン分布の式の覚え方

    ポアソン分布の関数

    $$ f(x)= e^{-λ}\frac{λ^x}{x!} $$

    見た瞬間、「何じゃこりゃ?」ですね。
    \( e^{-λ}\)と\(λ^x \)と\( x!\)とややこしい項ばかりですね。
    式見てもグラフのイメージがつきません。
    どうやってこの式ができたのか?イメージつきません
    あなただけではありません。みんなイメージできません。

    ポアソン分布の関数の覚え方

    この式は何回使っても忘れます。忘れにくい方法があります

    • (A)\( e^{-λ}\)と\(λ^x \)と\( x!\)の書く順番を決める
    • (B)変数が変わったときに要注意
    • (C)覚え方

    (A)\( e^{-λ}\)と\(λ^x \)と\( x!\)の書く順番を決める

    \( e^{-λ}\)→\(λ^x \)→\( x!\)としましょう。入れ替わると私も式がわからなくなります。

    (B)変数が変わったときに要注意

    本記事では、λ、xとしています。教科書によってはλ→m,x→kに変えていることがあります。要注意です。

    (C)覚え方

    下図のように、λ,xの変数を一箇所に集めれば、間違いなく公式暗記できます。

    ポアソン分布1

    ②ポアソン分布のわかりやすい導出

    ポアソン分布の導出は、基本わかりにくいです。
    2つ導出方法があります。概要を解説します。詳細はここを参照ください。

    (A)二項分布の式で個数nをn→∞に発散させるとポアソン分布の式になる。
    (B) モデルから方程式を立てて導出する。

    (A)はいろいろな教科書やwebサイトでも紹介されています。
    メリットは、計算過程がわかりやすいことです。
    デメリットは、二項分布の極限がポアソン分布となり、分布の極限って何?と疑問に残ることです。

    ●二項分布からポアソン分布を導出します。
    二項分布
    P(X=k)=\( {}_nC_kp^k(1-p)^{n-k}\)
    ここで、p=\(\frac{λ}{n}\)を代入します。
    =\( {}_nC_k(\frac{λ}{n})^k(1-\frac{λ}{n})^{n-k}\)
    =\( \frac{n(n-1)…(n-k+1)}{k!} (\frac{λ}{n})^k (1-\frac{λ}{n})^n (1-\frac{λ}{n})^{-k}\)
    =\(\frac{λ^k}{k!}\)\(\frac{n(n-1)…(n-k+1)}{n・n…n}\)\((1-\frac{λ}{n})^{\frac{n}{λ}}\)\((1-\frac{λ}{n})^{-k}\)
    n→∞に持っていくと
    → \(\frac{λ^k}{k!}・1・e^{-λ}\)=\(e^{-λ}\frac{λ^k}{k!}\)
    となり、ポアソン分布型に変形できました。
    でも、難しいですね。よく二項分布の極限値がポアソン分布だと気がつきますよね。

    一方、(B)はレアです。
    メリットは、モデルから方程式を立てて導出するので納得感がある。
    デメリットは、計算過程が難しいことです。

    本記事では(B)のレア版を解説します。詳細解説を見る前に概要を理解しましょう。何をやっているのかを先に理解してください。

    ポアソン分布の導出

    時刻0から時刻tまでに事象がn回起こる確率をPn(t)とします。
    時刻tから微小時間Δに事象が1回起こる確率λΔとおきます。
    時刻0から時刻t+Δまでに事象がn回起こる確率をPn(t+Δ)は、➀②の和になります。
    ➀時刻tまで事象がn-1回で、時刻t以降1回発生する確率 Pn-1(t)(λΔ)
    ②時刻tまで事象がn回で、時刻t以降0回発生する確率Pn(t)(1-λΔ)
    Pn(t+Δ)= Pn-1(t)(λΔ)+ Pn(t)(1-λΔ)
    と微分方程式が立てられます

    式の各項を説明しましたが、一読では「何を言っているのかわからない」と思います。数回読むと慣れてきます。この方程式がポアソン分布のモデル式です。

    Pn(t+Δ)= Pn-1(t)(λΔ)+ Pn(t)(1-λΔ)
    を解けばPn(t)の関数形が得られます。

    変形すると
    (Pn(t+Δ)-Pn(t))/Δ=λ(-Pn(t)+Pn-1(t))
    Δ→0にすると微分になりますから
    \( \frac{d}{dt} Pn(t)\)= λ(-Pn(t)+Pn-1(t))
    これを満たすPn(t)は
    Pn(t)= \(e^{-λt}\frac{{λt}^n}{n!}\)
    となり、ポアソン分布の関数になります。

    (A)の二項分布の極限よりは、(B)のモデル式から導出する方が納得感はあります。ポアソン分布は難しいため、わかりやすく解説しても、この難しさです。

    ③ポアソン分布の活用例

    具体例を見てみましょう。なお、期待値、分散の導出も重要ですが、詳細解説で説明するとして、ここでは、ポアソン分布を具体的な値を使って慣れる練習をしましょう。

    二項分布とポアソン分布の比較

    故障率1/20の部品から10個を抜き出す。故障した部品の数がxである確率を二項分布とポアソン分布でそれぞれ求めよ。

    二項分布とポアソン分布は別物ですが、
    割合の場合は二項分布、
    個数の場合はポアソン分布、
    を扱うだけで、上の問いはどちらの分布でも計算ができます。

    ●二項分布の場合
    \( P_x={}_nC_x p^r (1-p)^{n-x}\)
    =\(_{10}C_x (\frac{1}{20})^x (1-\frac{1}{20})^{10-x}\)

    ●ポアソン分布の場合
    \(P_x= e^{-λ}\frac{λ^x}{x!}\)
    =\( e^{-\frac{1}{20}}\)\(\frac{(\frac{1}{20})^x}{x!}\)

    エクセルで計算した結果と、両者の結果を比較します。xが小さいとほぼ値は等しいですが、徐々に値がずれていくのがわかります。

    ポアソン分布2

    ポアソン分布の正規分布近似

    全数200個で不良数が20個のサンプルがある。そこから、抜取り数を➀10②20③40④
    50⑤100とした場合、不良数がxである確率をPxとする。xとPxの関係をグラフにせよ。

    不良個数と来たら、ポアソン分布の公式を書きましょう。
    \(P_x= e^{-λ}\frac{λ^x}{x!}\)
    λが必要になります。
    λは不良数×抜取数÷全数とします。
    λ:➀1②2③4④5⑤10となります。グラフは次のようになります。

    ポアソン分布3

    ポアソン分布は、λが高くなるにつれて正規分布に近似できます。
    二項分布もポアソン分布も最初から正規分布で計算してもそれほど結果は変わらないということになりますが、試験では各々の分布に関する問題が出ますので勉強しましょう。実務は正規分布で良いでしょうね。

    まとめ

    二項分布は確率分布の一種と見ずに、高校数学の確率の延長にあるものです。二項分布は、正規分布に近づく不思議な性質があります。また、抜取検査のOC曲線のベースにもなります。高校数学で書ける易しい分布であると理解できます。

    • ➀ポアソン分布の式の覚え方
    • ②ポアソン分布のわかりやすい導出
    • ③ポアソン分布の活用例

    本記事を読んでいるあなたは、平方和、確率分布関数など統計学の基礎をマスターしたいはずです。理解度アップのための必須な関連記事がありますので、関連記事も読んでください。

    ★統計学で最初に悩む関門! 平方和が簡単にマスターできるページ

    確率分布関数の作り方や確率・期待値を積分で計算する理由が簡単にわかるページ

    ★品質管理・統計に頻出な分布関数をわかりやすく解説したページ



  • 【簡単】高校数学で十分できる二項分布【初心者向け】

    【簡単】高校数学で十分できる二項分布【初心者向け】

    「正規分布、二項分布、ポアソン分布の公式を覚えるのが大変」、「二項分布って何?」、「正規分布がなぜ出てくるの?」、「OC曲線にも二項分布が出てくるけど何で?」など困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】高校数学で十分できる二項分布【初心者向け】

    二項分布を理解するポイント

    • ➀高校数学の確率を復習
    • ②二項分布の期待値・分散は暗記
    • ③二項分布の正規分布化を実例で体験
    • ④OC曲線に二項分布が必須

    記事の信頼性

    記事を書いている私は、QC検定®1級合格し、つまずきやすいQC検定®2級挑戦者に難解な確率密度関数をわかりやすく解説しています。

    [themoneytizer id=”105233-2″]
    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    理解を深めるための関連記事を紹介

    基本統計量をマスターするために必要な関連記事を紹介します。ご確認ください。
    【1】分散、平方和、確率変数に慣れる


    【2】正規分布、二項分布、ポアソン分布に慣れる



    さっそく見ていきましょう。

    ➀高校数学の確率を復習

    統計学や品質管理を勉強しているあなたは、高校数学をすでに勉強しているはずです。確率の良問を見ながら、二項分布に入っていきましょう。

    問:1から6まで等確率で出るサイコロ1個を600回投げる。
    1がr回出る確率をPrとする。
    (1) Prをrの式で表せ。
    (2) Prが最大になるrはいくらか。

    (1)は組み合わせの確率問題ですね。
    600回のうち、n回1(確率1/6)が出て、600-n回はそれ以外(確率5/6)が出ます。
    どのn回に1が出るかは組み合わせで求めましたよね。式でまとめます。
    Pr=\( _nC_r p^r (1-p)^{n-r} \)
    を使いますね。わからない場合は高校数学確率の章に戻って復習しましょう。

    n=600,p=\(\frac{1}{6}\)を代入すればよいです。
    よって、
    Pr=\( {}_{600}C_r (\frac{1}{6})^r (\frac{5}{6})^{600-r} \)

    (2)は解いてみてください。詳細は解説集に載せています。ご覧下さい。答えはr=100のときです。
    確率\(\frac{1}{6}\)で600回振るから100回になるのも納得できます。

    (1)の式を見ると、二項分布の式そのものですね。
    高校数学を学んでいれば二項分布の式は書けるはずです。大学の難しい数学ではありませんね。

    ②二項分布の期待値・分散は暗記

    ●期待値E[X]=np
    ●分散V[X]=np(1-p)

    高校数学で期待値と分散は証明できるのですが、意外と難しいです。
    しかし、計数値の検定・推定(母不適合品率がある場合の検定・推定)
    計数値管理図(pn管理図、p管理図)に二項分布が使われます。
    検定や管理図を使いこなせるレベル(資格でいうとQC検定®2級合格レベル)までは
    期待値と分散は公式暗記でよい
    です。

    なお、期待値E[X]=np、分散V[X]=np(1-p)の証明はここに記載しています。

    ➀の例題で、サイコロ1個をn=600回、確率p=\(\frac{1}{6}\)ですか、np=100が期待値となります。

    ③二項分布の正規分布化を実例で体験

    実際にやってみましょう。

    1から6まで等確率のサイコロを1個から6個までそれぞれ1回振って、出た目の合計をxとし、xが出る確率をPxとする。
    サイコロ1個から6個についてxとPxの関係をグラフに図示せよ。

    サイコロが1個2個の場合

    ●サイコロが1個の場合

    1 2 3 4 5 6
    回数 1 1 1 1 1 1

    回数を6で割ると確率Pになりますね。

    ●サイコロが2個の場合

    2 3 4 5 6 7 8 9 10 11 12
    回数 1 2 3 4 5 6 5 4 3 2 1

    回数を36で割ると確率Pになりますね。

    サイコロ1個,2個の場合についてグラフを描くと、次のとおりです。二項分布とはいえ、直線で角々していますね。

    二項分布1

    サイコロが3個以上の場合

    同様にサイコロの数を増やしていきます。その結果、滑らかな曲線になっていき、正規分布に近い形になっていますね。サイコロの数の目の出方は一見、正規分布とは関係がありませんが、データが増えるにつれて正規分布近似できるようになります。これが科学・社会データも同じことが言えます。不思議ですね。

    二項分布2

    ここで大事なのは、二項分布に従うデータも数が増えると正規分布に近づくことを実例で理解することです。教科書暗記せず、体感することが大切です。なお、サイコロの場合、たったn=3で正規分布に従う形になります。
    最初から二項分布を使わずに正規分布で考えても良いかもしれませんね。

    二項分布の理解を深める演習問題を解きましょう

    理解度のアップと、QC検定®2級の合格と一石二鳥です。

    ④OC曲線に二項分布が必須

    抜取検査で必須なOC曲線(Operating Characteristic curve)に二項分布の式が必須です。
    OC曲線は丸暗記する人が多いので、式で理解しましょう。解説します。

    OC曲線の目的

    一定の不良率pをもつサンプルを抜取検査する。不良率pとそのサンプルの合格率L(p)の関係を明確するためにOC曲線を描く。

    OC曲線は合格率L(p)と不良率pの関係を見るわけですから、縦軸はL(p)、横軸はpですね。
    次にL(p)の式を作りましょう。

    検査合格条件は不良数c個以下とします。不良率pのサンプル(サンプル数n)を取り出した際、不良がr個ある確率を式化し、0≦r≦cの場合の確率を合計がL(p)になります。

    式で書くと
    \( \sum_{r=0}^{c} {}_nC_r p^r(1-p)^{n-r} \)
    と書けます。

    OC曲線は、不良率から消費者危険、生産者危険、(n,c)によるグラフの関係性を見ます。これは抜取検査の記事で詳細に解説します。
    大事なのは、OC曲線は二項分布の式で作ることです。グラフの性質を丸暗記せず、式で理解しましょう。式で理解した方が、応用が効くからです。

    なお、いろいろな(n,c)の場合のOC曲線を見ましょう。ここまでグラフ化した図は本記事以外にありません。エクセルとVBAを使ってグラフにしました。貴重なデータですよ。

    二項分布

    まとめ

    二項分布は確率分布の一種と見ずに、高校数学の確率の延長にあるものです。二項分布は、正規分布に近づく不思議な性質があります。また、抜取検査のOC曲線のベースにもなります。高校数学で書ける易しい分布であると理解できます。

    • ➀高校数学の確率を復習
    • ②二項分布の期待値・分散は暗記
    • ③二項分布の正規分布化を実例で体験
    • ④OC曲線に二項分布が必須

    理解を深めるための関連記事を紹介

    基本統計量をマスターするために必要な関連記事を紹介します。ご確認ください。
    【1】分散、平方和、確率変数に慣れる


    【2】正規分布、二項分布、ポアソン分布に慣れる



  • 確率変数の期待値と分散が計算できる【初心者向け】

    確率変数の期待値と分散が計算できる【初心者向け】

    コインやサイコロの期待値は簡単ですよね。でも、確率変数や期待値の加法性を使って分散・標準偏差を計算するあたりから急に難しくなり、理解しないまま公式暗記して試験を乗り切ろうとしていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】期待値の公式アレルギーが無くなる【初心者向け】

    期待値の公式アレルギーが無くなるポイント

    • ➀コイン・サイコロの期待値が解ければOK
    • ②期待値の計算式を一般化する過程に慣れる
    • ③期待値E[X]と分散V[X]の関係式がわかればOK

    さっそく見ていきましょう。

    [themoneytizer id=”105233-2″]

    ●You tube動画もあります。ご確認ください。

    確率変数の期待値と分散が計算できる【初心者向け】

    ●You tube動画ご覧ください。

    ➀コイン・サイコロの期待値が解ければOK

    いきなり、

    • E[X]=\(\int x_ip_i dx\)
    • E[aX+b]=aE[X]+b
    • V[X]=E[\(X^2\)]-E\([X]^2\)

    に入らずに、中学・高校数学の出た期待値問題から始めましょう。上の式から入ると、数学アレルギー反応が出ますよね!算数の簡単な問題で使った式を一般化すると徐々に上の難解な式がすぐわかります

    【問】等確率なサイコロ(1から6の目)が1個ある。
    (1) サイコロを1回振って出る目の期待値はいくらか?
    (2) サイコロを2回振って出る目の期待値はいくらか?

    期待値の計算方法は、確率×出る目の合計ですよね。
    (1)期待値E=\(\frac{1+2+3+4+5+6}{6}\)=\(\frac{21}{6}\)=3.5
    (2)出る目と確率を整理しましょう。

    2 3 4 5 6 7 8 9 10 11 12
    確率 \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\) \(\frac{1}{12}\)

    期待値E=\(\frac{2×1+3×2+・・・+12×1}{12}\)
    =7
    また、1個の目の期待値の倍としてもよいですね。

    ②期待値の計算式を一般化する過程に慣れる

    期待値の計算方法を一般化する

    統計の難解な数式に早く慣れる方法を提案します。数学の得意・不得意関係なく、数式の意味を読み取るには結構時間がかかります。よく使う方法が2つあります。

    難しい数式の読み方

    ・式を言葉で読んでみて意味を理解する
    ・簡単な例で式を作ってから、式を一般化する

    先の、サイコロ1との出る目の期待値の計算は中高生でもできます。算出式をよく見ましょう。
    E=1×\(\frac{1}{6}\)+2×\(\frac{1}{6}\)+・・・+6×\(\frac{1}{6}\)
    =\(\frac{21}{6}\)=3.5
    ですね。数字1から6は「出る目」の値で、\(\frac{1}{6}\)は確率ですね。

    出る目を\(x_i\)、出る目\(x_i\)の確率を\(p_i\)、和をΣで書き直します。

    E=\(\sum_{i=1}^{n} x_i p_i\)
    が期待値の基本形です。必ずこの式から期待値はスタートします。

    ここで確率\(p_i\)を確率密度関数f(x)に変えて定義することもあります。その場合、2つ定義を変えます。

    ・確率\(p_i\)を確率密度関数f(x)に変える
    ・数列Σを積分∫に変える

    期待値Eは
    E=\(\int xf(x) dx\)
    となります。∫も関数も出てきましたが、基本は
    E=\(\sum_{i=1}^{n} x_i p_i\)
    です。見た目は違いますが、サイコロの出る目の期待値を求める式と同じです。

    期待値の加法性を理解する

    期待値の加法性

    a,bは定数、X,Yは変数とする。
    ・\(E[aX+bY]=aE[X]+bE[Y]\)
    ・\(E[aX+b]=aE[X]+b\)

    加法性の証明を教科書やwebサイトでは数式を使って導出しますが、「何をやっているのか?」「具体的なイメージがつかない」ですよね。

    具体的な例で理解しましょう。期待値の基本はサイコロの出た目の計算ですね。

    ➀等確率で出るサイコロA(1から6)を1個1回振り、その出た目を3倍にする。
    ②等確率で出るサイコロB(1から4)を1個1回振り、その出た目を2倍にする。
    ➀と②を足してさらに5を足した場合の期待値を求めよ。

    ➀は(\(1×\frac{1}{6}\)+・・・+\(6×\frac{1}{6}\))=\(\frac{21}{6}\)=3.5
    を3倍しますから、3.5×3=10.5です。

    ②は(\(1×\frac{1}{4}\)+・・・+\(4×\frac{1}{4}\))=\(\frac{10}{4}\)=2.5
    を2倍しますから、2.5×2=5です。

    さらに5を足すので、期待値は10.5+5+5=21.5です

    一方、期待値の加法性を使うと、
    E=E[aX+bY+c]
    に、a=3,b=2,c=5,E[X]=3.5,E[Y]=2.5を代入します。
    E[aX+bY+c]=aE[X]+bE[Y]+c=3×3.5+2×2.5+5=21.5
    と結果が一致します。

    期待値の加法性の公式を使ってもよいし、サイコロの出る目の式のまま解いてもよいのです。
    公式の方が一般性があるので説得力があります。しかし、慣れないうちはサイコロの出る目の計算で期待値を理解しましょう。慣れたら一般化の式を理解していきましょう。

    期待値の加法性がわかるポイント

    3つの式がイメージできること。(サイコロの例で理解しましょう)
    ➀E[aX]=aE[X]  「例:その出た目を3倍にする」
    ②E[X+Y]=E[X]+E[Y]  「例:2種類のサイコロの出た目を足した」
    ③E[X+a]=E[X]+a 「例:さらに5を足した」

    期待値E[X]のXにいろいろ値を入れて慣れる

    期待値の加法性に少し慣れたら、次の計算をしてみましょう。

    ➀E[3X+2]
    ②E[\(X^2\)]

    ➀は加法性で出たE[aX+bY+c]=aE[X]+bE[Y]+cを使えばよいです。でも、E[\(X^2\)]はどうしましょうか?

    基本に戻りましょう。サイコロの出る目の期待値の計算でOKです。サイコロの例で計算しましょう。

    等確率で出るサイコロ(X=1から6)の期待値を求めよ。
    ➀サイコロを1個1回振ったときの出る目の期待値E[X]
    ②サイコロを1個1回振ったときの出る目を2乗にした期待値E[\(X^2\)]

    ➀は(\(1×\frac{1}{6}\)+・・・+\(6×\frac{1}{6}\))=\(\frac{21}{6}\)=3.5ですね。
    ②は機械的にそのまま2乗を式に入れます

    E[\(X^2\)]=(\(1^2×\frac{1}{6}\)+・・・+\(6^2)×\frac{1}{6}\)
    =\(\frac{(1+4+9+16+25+36)}{6}\)
    =\(\frac{91}{6}\)ですね。

    \(x^2\)の期待値とはどういう意味か?が気になりますが、あまり気にしないで代入してください

    いい加減な意見ですが、私は長年E[\(X^2\)]の意味を考えましたが機械的に代入するものでよいと結論に至ったからです。

    ですから、E[\(X^3\)]を求めようとすると、
    E[\(X^3\)]=(\(1^3×\frac{1}{6}\)+・・・+\(6^3×\frac{1}{6}\))となります。

    出る目Xを変数にして、いろいろな変数を代入することに慣れてください。ここが分散の導出に必要です。期待値Eはサイコロの出る目の計算であることは変わりませんが、E[X]に変数Xをいろいろ代入するように慣れていきましょう。

    ③期待値E[X]と分散V[X]の関係式がわかればOK

    分散の定義を理解する

    分散の定義

    V[X]=E[\((X-E[X])^2\)]=E[\(X^2\)]-\(E[X]^2\)

    上の式が理解するための3つのポイントを解説します。

    分散の定義で理解したポイント

    (A)E\([(X-E[X])^2]\)の意味?
    (B)\(E[X^2]-E[X]^2\)になる理由
    (C)\(E[X^2] \)の値の算出方法(先ほどやりましたね)

    (A)E\((X-E[X])^2\)の意味

    分散の定義は、各データと平均との差を2乗した和を個数で割る値ですね。式で書くと、
    \(V=\frac{(x_i-μ)^2}{n}\)
    になります。

    ここで、
    (あ)\(x_i\)をX
    (い)μをE[X]に変え、
    (う)全体の\(\frac{1}{n}\)は平均Eとすると、
    \(V=\frac{(x_i-μ)^2}{n}\)
    =\(\frac{(X-E[X])^2}{n}\)
    =E[\((X-E[X])^2\)]
    に変えることができます。

    (あ)(い)は文字を変えるだけで理解しやすいです。(う)は理解しづらいので解説します。

    個数nで割るは、全体を平均値とすると同じですね。なので、全体に期待値E[]をつけることになります。

    (B)\(E[X^2]-E[X]^2\)になる理由

    次で解説します。

    分散の式を展開してE[X]に慣れる

    E[X]に慣れるために、教科書やwebサイトのように途中経過を省かずに計算します。

    V[X]
    =E[\((X-E[X])^2\)]
    =E[\(X^2-2XE[X]+E[X]^2\)]
    ここは、\((x+y)^2=x^2+2xy+y^2\)です。
    =E[\(X^2\)]-E[2XE[X]]+E[\(E[X]^2\)]

    各項をばらばらにしました。
    さて、ここでE[X]は平均値μで、変数ではなく定数ですよね。
    =E[\(X^2\)]-E[2Xμ]+E[\(μ^2\)]
    =E[\(X^2\)]-2μE[X]+\(μ^2\)
    平均値μは定数なので、E[]の外に出せます。

    さらに、定数μ=E[X]に戻します。ここの変形が強引ですけど。
    =E[\(X^2\)]-2 E[X]E[X]+\( E[X]^2\)
    = E[\(X^2\)]-\( E[X]^2\)
    よって、
    V[X]= \(E[X^2]-E[X]^2\)

    分散の導出過程をよく見て、期待値E[X]、E[\(X^2\)]アレルギーを無くしていきましょう。ここがクリアーすれば、回帰分析、分散分析、検定などの理解が早くなります。

    まとめ

    期待値は、確率×出る目の合計です。これを一般化すると期待値の加法性や分散の公式まで導出ができました。他に期待値を使った複雑な式を見たら、アレルギー反応する前にこの記事に戻りましょう。期待値は確率×出る目の合計から始まります。

    • ➀コイン・サイコロの期待値が解ければOK
    • ②期待値の計算式を一般化する過程に慣れる
    • ③期待値E[X]と分散V[X]の関係式がわかればOK

  • 【初心者必見】正規分布の標準化や応用問題は怖くない!必勝解法を解説します。

    【初心者必見】正規分布の標準化や応用問題は怖くない!必勝解法を解説します。

    「正規分布の標準化する理由がわからない」、「平均μ、分散\(σ^2\)の一般的な正規分布の確率の計算ができない」、「試験で解ける気がしない」など困っていませんか?。

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】正規分布の必勝解法がすぐわかる【初心者向け】

    正規分布の応用問題を解けるためのポイント

    • ➀正規分布の標準化をする理由がわかる
    • ②正規分布の解法は1つで十分
    • ③正規分布の応用問題が解ける
    [themoneytizer id=”105233-2″]

    さっそく見ていきましょう。

    ●You tube動画もご確認ください。

    [themoneytizer id=”105233-2″]

    ➀正規分布の標準化をする理由がわかる

    正規分布の標準化とは

    正規分布の標準化とは、平均0、分散\(1^2\)に直すことです。数式では、平均μ(≠0)、分散\(σ^2≠1^2\)な正規分布を次の式で標準化します。

    $$ Z=\frac{\bar{x}-μ}{σ} $$

     標準化した場合のグラフの変化イメージを見ましょう。平均10,分散\(5^2\) (以下N(10,\(5^2\))と書きます)の正規分布を標準化した場合の図です。正規分布は平均、分散によって尖り具合が違いのがわかります。

    正規分布

    正規分布の標準化は正規分布表が1つで済むから

    正規分布の標準化する理由は、正規分布表が1つで済むからです。わかっているなら簡単ですが、そうでない場合は、理由をわからずに標準化の式を使っていることになり、注意が必要です。

    世の中には、いろいろな平均・分散から成る正規分布がたくさんあります。
    にあるように、正規分布は積分が困難な関数なので、正規分布表を作っていましたね。

    あらゆる平均、分散に対して正規分布表を作ると大変になります。だから、平均0、分散\(1^2\)に直します。そうすれば、平均0、分散\(1^2\)の正規分布表1枚で済みますよね。

    ②正規分布の解法は1つで十分

    標準化する理由を理解した次は、いろいろな応用問題に振り回されずに済む必勝方法を解説します。

    数学が得意で正規分布に慣れた私でも、出題された瞬間、手が止まります。でも安心!必勝方法に持ち込めば解けます! その方法は次の3つです。簡単な問いでも難しい問いでも必ず3つの方法で解いていきます。

    • (A)正規分布が問題に出たら、正規分布のグラフを手で描く
    • (B)求められる確率の区間を斜線で塗る
    • (C)標準化Z(N(0,1))に直して、正規分布表から確率(面積)を読みとる

    次に、資格試験に頻出な応用問題を例に必勝解法で攻略します

    ③正規分布の応用問題が解ける

    3題挙げます。

    問1.確率変数Xが正規分布N(10,5^2)に従うとき次の確率を求めよ。
    ①P(X<15)
    ②P(X≦3)
    ③P(12≦X≦14)
    ④P(5≦X≦11)

    これならできそう

    問2.ある国の20歳の男性の身長は平均170cm,標準偏差6cmであり、ほぼ正規分布に従うとする。
    (1)この国の20歳の男性で身長が180cm以上の人はおよそ何%いるか?
    (2)この国の20歳の男性を1000人調べた。身長が160cm以上175cm以下の人はおよそ何%いるか?

    ちょっと応用

    問3.ある資格試験では合格最低点は70点で、合格率は15%だった。
    この試験の点数分布はほぼ正規分布に従うと仮定する。
    なお、補欠合格というのもあり、60点以上が対象でその合格率は35%だった。
    (1)この試験の平均点と点数の標準偏差はいくらか?
    (2)Aさんはこの試験で80点とって合格した。上位何%にいることになるか?
    (3)Bさんはこの試験で45点とって不合格だった。上位何%にいることになるか?

    かなり応用、手ごわい

    重要なのは、どんな問いが出ても次の3つの方法で攻略すれば解けます!

    • (A)正規分布が問題に出たら、正規分布のグラフを手で描く
    • (B)求められる確率の区間を斜線で塗る
    • (C)標準化Z(N(0,1))に直して、正規分布表から確率(面積)を読みとる
    問1.確率変数Xが正規分布N(10,5^2)に従うとき次の確率を求めよ。
    ①P(X<15)
    ②P(X≦3)
    ③P(12≦X≦14)
    ④P(5≦X≦11)
    • (A)正規分布が問題に出たら、正規分布のグラフを手で描く

    正規分布のなめらかなグラフを描きます。

    • (B)求められる確率の区間を斜線で塗る

    正規分布の①P(X<15)、②P(X≦3)、③P(12≦X≦14)、④P(5≦X≦11)区間を斜線で塗りましょう。

    なめらかなグラフを描きます。
    正規分布

    • (C)標準化Z(N(0,1))に直して、正規分布表から確率(面積)を読みとる

    Z=\(\frac{μ-\bar{x}}{σ}\)=\(\frac{μ-10}{5}\)を代入します。結果は上図のKpになります。
    ここまで、機械的に絵を描けば、どの面積を出せば良いかがはっきりしますね。面積は正規分布表から値を求めます。

    ➀はKp=1以上の面積ですから正規分布表Kp=1のpが答えです。よって、p=0.1587
    ②は左右対称性で考えれば、Kp=1.4以上の面積ですから正規分布表Kp=1.4のpが答えです。よって、p=0.0808
    ③はKp=0.4以上の領域から、0.8以上の領域を引けばよいですね。よってp=0.3446-0.2119=0.1327
    ④はKp=-1から0までの領域と、0から0.2までの領域に分けます。
    Kp=-1から0までの領域は、左半分確率0.5からKp=-1以下の領域を引けばよいですね。
    Kp=0から0.2までの領域は右半分確率0.5からKp=0.2以上の領域を引けばよいですね。
    よって答えは (0.5-0.1587)+(0.5-0.4207)=0.4206

    正規分布表はこの4パターンが図から計算できれば完璧です!

    問2.ある国の20歳の男性の身長は平均170cm,標準偏差6cmであり、ほぼ正規分布に従うとする。
    (1)この国の20歳の男性で身長が180cm以上の人はおよそ何%いるか?
    (2)この国の20歳の男性を1000人調べた。身長が160cm以上175cm以下の人はおよそ何%いるか?
    • (A)正規分布が問題に出たら、正規分布のグラフを手で描く

    正規分布のなめらかなグラフを描きます。

    • (B)求められる確率の区間を斜線で塗る

    正規分布の①P(X>180)、②P(160≦X≦175)区間を斜線で塗りましょう。

    なめらかなグラフを描きます。
    正規分布

    • (C)標準化Z(N(0,1))に直して、正規分布表から確率(面積)を読みとる

    Z=\(\frac{μ-\bar{x}}{σ}\)=\(\frac{μ-170}{6}\)を代入します。結果は上図のKpになります。
    ここまで、機械的に絵を描けば、どの面積を出せば良いかがはっきりしますね。面積は正規分布表から値を求めます。

    ➀はKp=1.66以上の面積ですから正規分布表Kp=1.66のpが答えです。よって、p=4.85%
    ②は160cm(Kp=-1.66)から170cmまでの確率と170cmから175cm(Kp=0.83)までの確率を求めたらよいですね。
    Kp=-1.66から0までの領域は、左半分確率0.5からKp=-1.66以下の領域を引けばよいですね。
    Kp=0から0.83までの領域は右半分確率0.5からKp=0.83以上の領域を引けばよいですね。
    よって答えは (0.5-0.0485)+(0.5-0.2033)=0.7198
    1000人あたりでは719人とわかりますね。

    問3.ある資格試験では合格最低点は70点で、合格率は15%だった。
    この試験の点数分布はほぼ正規分布に従うと仮定する。
    なお、補欠合格というのもあり、60点以上が対象でその合格率は35%だった。
    (1)この試験の平均点と点数の標準偏差はいくらか?
    (2)Aさんはこの試験で80点とって合格した。上位何%にいることになるか?
    (3)Bさんはこの試験で45点とって不合格だった。上位何%にいることになるか?

    これも同様にして解けます。平均μと標準偏差σを求める必要があります。別途問題集で解説します。

    まとめ

    本記事では、一般的な正規分布を標準化する理由を解説し、一般の正規分布における任意の区間の確率を1つの方法で解ける解法を紹介しました。

    • ➀正規分布の標準化をする理由がわかる
    • ②正規分布の解法は1つで十分
    • ③正規分布の応用問題が解ける

  • 【簡単】正規分布は怖くない!正規分布表や確率計算の求め方がすぐわかる

    【簡単】正規分布は怖くない!正規分布表や確率計算の求め方がすぐわかる

    「正規分布とは何か?」、「正規分布の難解な式が理解できない」、「正規分布表の意味がわからない」など困っていませんか?難解な公式を暗記だけして済ませていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】正規分布の特徴や確率計算の求め方がすぐわかる【初心者向け】

    正規分布を理解するポイント

    • ➀正規分布がなぜよく使われるかがわかる
    • ②正規分布はどんな確率密度関数かがわかる
    • ③正規分布表の使い方が理解できる

    記事の信頼性

    記事を書いている私は、QC検定®1級合格し、つまずきやすいQC検定®2級挑戦者に難解な確率密度関数をわかりやすく解説しています。

    正規分布の理解を深めるための関連記事を紹介します。眺めて、慣れて、手で計算して習得しましょう。






    さっそく見ていきましょう。

    [themoneytizer id=”105233-2″]
    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    ●You tube動画もご確認ください。

    ➀正規分布がなぜよく使われるかがわかる

    世の中のデータや分布をグラフにまとめると、

    • ・中心がピーク
    • ・中心の前後で対称性をもつ
    • ・なめらかな曲線になる

    のような分布が綺麗とされています。

    身長、体重、試験点数などを分布にとると、綺麗な分布になりますよね。
    数学的に証明されていませんが、多くのデータが不思議と正規分布にのります

    経験的に、社会現象、生物などのデータをとってきた結果、綺麗な分布な正規分布に従うことがおおいため、正規分布が確率密度関数の中心的存在となっています。
    だから、教科書で最初に習う関数なのです。

    「正規」に意味はない

    正規分布の「正規」とは何か? 理想的? 中心的? など気になりますが、
    「正規」に意味はありません。正規分布を英語にすると「normal distribution」です。
    正規分布とは、標準的「normal」な確率密度関数です。

    ②正規分布はどんな確率密度関数かがわかる

    確率密度関数は難しいイメージがありますが、y=ax+bやy=\(x^2\)などの簡単な関数でも良いです。

    ただし、で解説したように、区間[-∞,∞]で定積分∫f(x)dxが有限値を取り、なめらかである必要があります。

    よって、指数関数などの難しい式になります。

    正規分布関数の難しい式を見る前に、正規分布関数の特徴をおさえましょう。

    正規分布関数の特徴

    • ・特徴1:平均0、分散\(1^2\)な関数
    • ・特徴2:y軸に対称でなめらか
    • ・特徴3:不定積分がないため積分計算が困難

    正規分布の平均と分散(特徴1)

    特徴1については平均がμ、分散\(σ^2\)と一般型にできますが、本記事では簡単のため平均0、分散\(1^2\)で解説します。なお、平均(期待値E)と分散Vは次の式で計算できます。
    期待値E,分散Vを積分から算出する過程も慣れてください。

    $$ E= \int xf(x) dx $$
    $$ V=\int x^2f(x) dx -E^2 $$

    y軸に対称でなめらか(特徴2)

    で解説したように、y軸対称で平均0、分散\(1^2\)な関数は正規分布以外にもあります。

    $$ f(x)=\frac{1}{4} e^{-|x|} $$

    です。期待値E=0,分散V=1になります。しかし、\(e^{-x}\)型は尖っていて、なめらかではないため、あまり使いません。正規分布の関数より簡単な式なのに、残念!

    なめらかな形状が必要な理由は、高い山をイメージすればわかります。例えば富士山の山頂は尖って要らずなめらかですよね。頂上ほど大気などによって削られてなめらかになります。多くのデータも中心付近でなめらかになります。

    分布関数

    不定積分がないため積分計算が困難(特徴3)

    正規分布の関数の最大に弱点が、不定積分が求められないことです。つまり、
    \(\int e^{-x^2}\)=??
    なのです。

    大学数学を駆使すれば定積分
    \( \int_{-∞}^∞ f(x)dx\)
    は計算できます。

    不定積分がなければ、求めたい区間の積分値が計算できません。

    積分値が計算できないため正規分布表がある

    正規分布表の使い方を理解する前に、区間の定積分が計算できないから表があることを理解しましょう。

    なお、なめらかさを取らずに、正規分布関数を
    \( f(x)=\frac{1}{4} e^{-|x|} \)
    にすれば、区間の定積分が簡単に計算できます。この場合、正規分布表は不要ですね。

    近似値で確率を求めるイメージ

    近似値として積分値を求めるイメージを紹介します。

    正規分布

    赤線部dSの面積を求めます。曲線とはいえ、微小な領域を小さくすれば、面積dSはほぼ台形として近似して良いです。
    図では例として、x=0.14と0.15の区間の面積dSとして台形の面積を求めます。
    実際はx=0.14と0.15と差0.01よりもっと細かくして微小面積dSを求めていきます。

    数値計算やシミュレーションでは積分できないものは細かく細分化して台形の面積としてかき集めることをやります。

    ③正規分布表の使い方が理解できる

    正規分布表の使い方

    • 1.確率は面積(積分)から求める
    • 2.正規分布表の距離Kpと面積pとの関係をイメージできる
    • 3.自力で面積が算出できないから正規分布表があることを理解する

    1.確率は面積(積分)から求める

    確率は確率密度関数から面積(積分)で求めることがイメージできない方は、

    を読んでください。

    確率密度関数は、変数xの区間[a,b]に発生する確率を算出したり、全体の分布がわかる便利な関数です。
    また、確率密度関数の全区間の積分値は全確率1になります。

    面積(積分)の計算が楽になるように、確率密度関数を簡単な式にしたいのですが、変な式ばかりなのが現実です。これが苦手意識につながります。苦手な人はイメージだけ持ってください。計算は世の中の数学が好きな人にお願いしましょう。

    2.正規分布表の距離Kpと面積pとの関係をイメージできる

    正規分布表はKpとpから値を読み取ります。ただの数表と思わず、面積で考えるイメージを持ってください。

    正規分布表

    正規分布表は下の図の青部の面積とそのxの位置を数値化したものです

    正規分布表とグラフ

    まず縦にxに相当するKpがあります。正規分布は正負対称のグラフなので、正(x≧0)のみ表があれば十分です。例えば、Kp=1.96の時は確率P=0.05ですが、Kp=-1.96の時も同じ確率P=0.05です。

    次に確率Pを見ます。確率PはKpが0の時は図3の左図のように1の半分の0.5と最大になりますが、Kpが大きくなるにつれて確率Pは小さくなります。表で見ると確率Pは上が大で下に行くにつれて確率Pは小になります。正規分布のグラフをイメージしましょう。

    最後に表の横の流れを見ます。表の横は、Kpの0.01の桁とそれに対応する確率Pの値が書いており、横の流れは微調整程度と理解してください。本来はKpの値ですから縦に並べるべきですが、表が縦長になるため、0.01桁は横に流しているわけです。

    よく使う正規分布表の値

    ・Kp=0.00の時は確率P=0.5ですね。
    ・片側検定でよく使うP=0.05のときのKp=1.645。
    ・両側検定でよく使うP=0.025(=0.05/2)のときのKp=1.96
    表の見方を暗記するのではなく、関数のグラフをよく見て理解しましょう。

    3.自力で面積が算出できないから正規分布表があることを理解する

    正規分布表の見方がわかれば、おしまいではなく、慣れたころにも再度ここに戻ってきてください。
    なぜ正規分布表があるのか?説明できますか? それは積分計算が大変だからです。
    正規分布表の使い方という手段だけでなく、正規分布表が必要な意味や目的も理解しましょう。

    まとめ

    本記事では、正規分布がよく活用される背景や、分布の特徴、正規分布表の存在意義や使い方を解説しました。計算だけでなくグラフ、面積、確率を図でイメージすることが重要です。

    • ➀正規分布がなぜよく使われる関数なのかがわかる
    • ②正規分布はどんな確率密度関数かがわかる
    • ③正規分布表の使い方が理解できる

    正規分布の理解を深めるための関連記事を紹介します。眺めて、慣れて、手で計算して習得しましょう。






  • 【簡単】不偏分散はn-1で割る理由がすぐわかる

    【簡単】不偏分散はn-1で割る理由がすぐわかる

    「なぜ、標本分散と不偏分散の2種類あるのか?」、「なぜ、不偏分散はn-1で割るのか?」がわからず、困っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【簡単】不偏分散はn-1で割る理由がすぐわかる

    【簡単】不偏分散はn-1で割る理由がすぐわかる

    • ➀母集団の推定のために標本から標本分散を算出
    • ②標本分散の期待値は母分散と一致しない
    • ③母分散と一致する不偏分散を導出

    記事の信頼性

    記事を書いている私は、QC検定®1級合格し、分散や検定・推定でつまずきやすい社内のQC検定®2級挑戦者にわかりやすく説明しています。

    QC模試受験しよう!

    QC模試で、腕試ししましょう!
    QC模試(品質技量の腕試し&QC検定®対策)
    品質技量の実力を試したい! QC検定®合格対策に活用したい! 1,000円で提供します! 公式、暗記で終わらず、自分のものにできているかを試すオリジナル試験問題です!

    品質力が鍛えられる「QC塾」を是非ご利用ください。

    【2022/4/22up!】QC塾(有料)開設します!
    ブログでは、品質の勉強、実務、QC検定®に役立つ情報をアップして 「わかる」価値を提供していますが、「わかる」を「できる」に変える トレーニング塾「QC塾」を是非ご利用ください。 難解な品質が、すっきりわかり、指導できるレベルまで上達できます!

    さっそく見ていきましょう。

    [themoneytizer id=”105233-2″]
    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    ➀母集団の推定のために標本から標本分散を算出

    母集団と標本データの違い

    母集団と標本データの違いを説明します。母集団とはデータ全体であり、標本とは母集団から一部を取り出したものですね。

    具体例も紹介します。

    20代の日本人を調べたい。
    ➀母集団は20代の日本人全員→データは絶対入手できない
    ②標本は、100人の20代の日本人→データは絶対入手できる

    母集団は20代の日本人全員のデータを集めるのはムリですね。全員見つけるのは大変ですし、常に人数は増減します。だから、現実に評価可能な範囲の人数を②標本として調べますよね。

    また、標本データに興味はなく、標本から母集団の様子を推定したいはずです。
    なので、標本から母集団を推定するデータ解析が必要になります。それは平均と分散なわけです。

    標本から取り出せる平均は「標本平均」、分散は「標本分散」と呼んでいます。

    手元にある標本の平均と分散から母集団を推定したい

    2つのニーズがあります。

    ・標本平均から母平均(期待値)を推定したい
    ・標本分散から母分散を推定したい

    値を定義します。

    ・標本平均=\(\bar{x}\)
    ・母平均=μ
    ・標本分散=\(s^2\)
    ・母分散=\(σ^2\)

    では、標本と母集団の平均と分散の関係を調べましょう。

    標本 母集団
    平均 標本平均\(\bar{x}\) 母平均μ(=E[\(\bar{x}\)])か?
    分散 標本分散\(s^2\) 母分散\(σ^2\)(=E[\(s^2\)])か?

    ②標本分散の期待値は母分散と一致しない

    平均と分散についてそれぞれ標本と母集団との関係式を見てみましょう。

    標本平均の期待値は母平均と一致する

    E[\(\bar{x}\)]
    =E[\(\frac{1}{n}(x_1+x_2+…+x_n\)]
    =\(\frac{1}{n}\)(E[\(x_1\)]+ E[\(x_2\)]+…+ E[\(x_n\)])
    =\(\frac{1}{n}\)(μ+μ+…+μ)
    = \(\frac{1}{n}\)nμ

    となり、標本平均の期待値は母平均と一致します。

    なお、E[\(x_i\)]=μを使っています。
    各サンプルの平均の推定値である母平均はすべてμになるはずと期待しているからです。

    標本分散の期待値は母分散と一致しない

    式が長く続きますので、ポイントを解説します。

    • (A) \((x_i-\bar{x})\)の式の中に母平均μを入れて展開
    • (B)標本平均の期待値は母平均に一致E[\(x_i\)]=μを使う
    • (C)分散の定義V(X)=E[\((X-E[X])^2\)]を代入
    • (D)分散の加法性V(\(x_i)=σ^2\)、V(\(\bar{X}\))=\(\frac{1}{n}σ^2\)を代入

    ではやってみましょう。数式苦手な方は眺めるだけでOKです。結論だけ見てください。

    (A) \((x_i-\bar{x})\)の式の中に母平均μを入れて展開

    E[\(s^2\)]
    =E[\(\frac{1}{n} \sum^{n}_{i=1}(x_i-\bar{x})^2\)]
    =E[\(\frac{1}{n} \sum^{n}_{i=1}((x_i-μ)-(\bar{x}-μ))^2\)]
    =\(\frac{1}{n}E[\sum^{n}_{i=1}((x_i-μ)^2\)\(-2(x_i-μ)(\bar{x}-μ) \)\(+(\bar{x}-μ)^2)]\)
    =\(\frac{1}{n}E[(\sum^{n}_{i=1}(x_i-μ)^2\)\(-2(\bar{x}-μ)\sum^{n}_{i=1} (x_i-μ) \)\(+(\bar{x}-μ)^2\sum^{n}_{i=1}1]\) (★1)

    ここで、第2項の\(\sum^{n}_{i=1} (x_i-μ)\)は、実際に書き出してみると、

    \(\sum^{n}_{i=1} (x_i-μ)\)
    =\((x_1-μ)+(x_2-μ)+・・・+(x_n-μ) \)
    =\((x_1+・・・+x_n)-nμ\)\(=n(\bar{x}-μ)\)となります。

    また、第3項の\(\sum^{n}_{i=1}1\)は1+1+・・・+1=nとなります。これらを式(★1)に代入します。

    (★1)
    =\(\frac{1}{n}E[\sum^{n}_{i=1}(x_i-μ)^2\)\(-2n(\bar{x}-μ)^2 \)\(+n(\bar{x}-μ)^2]\)
    =\(\frac{1}{n}E[\sum^{n}_{i=1}(x_i-μ)^2\)\(-n(\bar{x}-μ)^2]\) (★2)

    (B)標本平均の期待値は母平均に一致E[\(x_i\)]=μを使う

    式(★2)に,E[\(x_i\)]=μ,E[\(\bar{x}\)]=μを代入します。
    (★2)
    =\(\frac{1}{n}E[\sum^{n}_{i=1}(x_i-E[x_i])^2\)\(-n(\bar{x}-E[\bar{x}])^2]\) (★3)

    (C)分散の定義V(X)=E[\((X-E[X])^2\)]を代入

    E[(\(x_i-E[x_i])^2\)=V(\(x_i\))と
    E[(\(\bar{x}-E[\bar{x}])^2\)]=V(\(\bar{x}\))
    を式(★3)に代入します。
    (★3)
    =\(\frac{1}{n}E[\sum^{n}_{i=1} V(x_i)\)\(-nV(\bar{x})] \) (★4)

    (D)分散の加法性V(\(x_i)=σ^2\)、V(\(\bar{X}\))=\(\frac{1}{n}σ^2\)を代入

    さらに次の2の式
    V(\(x_i)=σ^2\)、
    V(\(\bar{x}\))=\(\frac{1}{n} σ^2\)
    を式(★4)に代入します。
    (★4)
    =\(\frac{1}{n}E[\sum^{n}_{i=1} σ^2 – n \frac{1}{n} σ^2]\)
    =\(\frac{1}{n} (nσ^2-σ^2)\)
    =\(\frac{n-1}{n} σ^2 \)

    まとめると、
    \(E[s^2]=\frac{n-1}{n} σ^2\neq σ^2\)
    となり、標本偏差の期待値は母分散と一致しません。残念!

    ③母分散と一致する不偏分散を導出

    標本平均の期待値は母平均と一致しますが、標本分散の期待値は母分散と一致しません。ではどうするか?

    母分散に一致する分散を定義すればよいわけで、これが不偏分散が出てきた理由です。

    不偏分散を作る

    不偏分散をuとして、式で定義します。
    \(u^2=\frac{n}{n-1} s^2\)
    いかにも母分散に一致させる感じが出てますね。

    不偏分散の期待値を計算

    では、不偏分散の期待値を計算して母分散になるか?調べてみましょう。
    E[\(u^2\)]
    =E[\(\frac{n}{n-1} s^2]\)
    \(=\frac{n}{n-1} E[s^2] \)
    =\(\frac{n}{n-1} \frac{n-1}{n} σ^2 \)
    \(=σ^2\)
    確かにE[\(u^2]=σ^2\)となり、母分散\(σ^2\)に一致しました。

    不偏分散の式をまとめる

    \(u^2=\frac{n}{n-1} s^2\)に
    \(s^2=\frac{1}{n} \sum^{n}_{i=1}(x_i-\bar{x})^2\)を代入します。
    \(u^2\)
    =\(\frac{n}{n-1} \frac{1}{n} \sum^{n}_{i=1}(x_i-\bar{x})^2\)
    =\(\frac{1}{n-1} \sum^{n}_{i=1}(x_i-\bar{x})^2\)

    この式が、教科書でよく見る「n-1で割る」不偏分散の公式ですね。

    以上から、母集団の分散を特定したければ、「n-1で割った不偏分散という変な値を使う」理由がわかりました。

    まとめ

    母集団を推定するために、部分をサンプリングします。標本データの平均と分散の期待値を求めますが、分散だけ一致しません。そのためにn-1で割る不偏分散をよく使います。標本分散の期待値の導出過程をしっかり見ていただきました。

    • ➀母集団の推定のために標本から標本分散を算出
    • ②標本分散の期待値は母分散と一致しない
    • ③母分散と一致する不偏分散を導出

  • 【本記事限定】標本平均の分散の注意点(nで割るな!)

    【本記事限定】標本平均の分散の注意点(nで割るな!)

    分散を\(σ^2/n\)とサンプル数nで割る公式。でも「サンプル数nが大きいと分散\(σ^2/n\)が低減される」のは不思議だと思いませんか?「数学的に証明された公式だから」といってそのまま計算していませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【本記事限定】標本平均の分散の注意点(nで割るな!)【5分で理解できます】

    標本平均の分散の注意点(nで割るな!)

    • ➀数学的に正しい標本平均の分散\(σ^2/n\)の注意点
    • ②標本平均の分散は\(σ^2/n\)で良いのか?
    • ③標本平均の分散はあなたが判断する

    さっそく見ていきましょう。

    [themoneytizer id=”105233-2″]

    ➀数学的に正しい標本平均の分散\(σ^2/n\)の注意点

    標本平均の分散\(σ^2/n\)が正しいのかどうかと言われたら、最初に「数学的に正しいのか?」を疑うはずです。まず、標本平均の分散を紹介して、数学的に正しいことを証明します。

    標本平均の分散

    n個の独立した確率変数\(x_i\) (\(i=1,…,n)\)において、それぞれの期待値、分散を\(E(x_i)=μ\),\(V(x_i)=σ^2\)とする。このとき、平均値\(\bar{x}\)を定義すると、平均値\(\bar{x}\)の期待値、分散はそれぞれ\(E(\bar{x})=μ\),\(V(\bar{x})=σ^2/n\)となる。

    \(V(\bar{x})=σ^2/n\) が正規分布や、検定・推定によく出てくる式なので無条件にnで割りますよね。しかも、大数の法則や中心極限定理で数学的に証明されているから、安心して公式を使って良いのです。

    標本平均の分散\(σ^2/n\)の証明

    \(V(\bar{x})
    =V(\frac{x_1+x_2+…+x_n}{n})\)
    =\(\frac{1}{n^2}(V(x_1)+V(x_2)+…+V(x_n))\)
    =\(\frac{1}{n^2} (σ^2+σ^2+…+σ^2)\)
    =\(\frac{1}{n^2} nσ^2\)
    =\(\frac{σ^2}{n}\)

    シンプルに証明できます。

    ②標本平均の分散は\(σ^2/n\)で良いのか?

    標本平均の分散をサンプル数で割って良いかを悩ます例題を紹介します。

    標本平均の分散を悩ます問題

    ある会社の製品の性能データは平均50、母分散\(5^2\)の正規分布に従っている。ある時期から製法を変えたため、いくつか製品サンプルを抜き取り、製法の違いがあるかどうかを有意水準5%の片側検定を使って確かめた。
    (1)サンプルn=4の製品を取り出したところ、性能の平均は51だった。製法の違いが出たといえるか?
    (2)サンプルn=100の製品を取り出したところ、性能の平均は51だった。製法の違いが出たといえるか?

    サンプル数によって検定結果が変わります。。計算して確かめてみましょう。
    検定については、ここを見てください。検定統計量を定義します。
    検定統計量 \(Z=\frac{\bar{x}-μ}{σ/\sqrt{n}}\)
    なお、片側検定の有意水準5%ですからZ0=1.96で判断します。
    (1) \(Z=\frac{\bar{x}-μ}{\sqrt{n}}\)=\(Z=\frac{51-50}{5/\sqrt{4}}\)=0.4 <1.96
    (2) \(Z=\frac{\bar{x}-μ}{\sqrt{n}}\)=\(Z=\frac{51-50}{5/\sqrt{100}}\)=2 >1.96
    (1)は有意でない(製法に差がない)となりますが、
    (2)は有意である(製法に差がある)となります。

    検定統計量で扱う、分散は\(σ^2/n\)として、母分散をサンプル数で割ります。でもサンプル数によって上の検定の結果が変わるのはおかしいですよね。都合よいサンプル数を取って検査を合格使用する人がいてもおかしくはありません

    標本平均の分散\(V(\bar{x})=σ^2/n\)は、nが大になると分散は小さくなり、その逆もある

    数学的は正しいですが、よく考えると本当?と疑問に思ってしまいます。

    標本平均の分散\(V(\bar{x})\)は母分散と同じ\(σ^2\)ではないのか?

    次の例を見てみましょう

    5個のデータから成る、確率変数\(x_i(i=1,2,3,4)\)がある。
    \(x_1: 55,53,47,44,51 \)
    \(x_2: 55,53,47,44,51 \)
    \(x_3: 55,53,47,44,51 \)
    \(x_4: 55,53,47,44,51 \)
    すべて平均が50,分散は80
    (1)ここで、標本平均\(\bar{x}\)のデータを求めよ。
    (2)標本平均\(\bar{x}\)の分散\(V(\bar{x})\)を求めよ。

    (1)は\(x_1~x_4\)まで同じデータ群なので、\(\bar{x}\)=55,53,47,44,51ですね。
    (2) \(\bar{x}\)=55,53,47,44,51の分散を求めるので、\(V(x_i)\)と同じ\(V(\bar{x})\)=80ですね。

    一方、標本平均の分散\(V(\bar{x})=σ^2/n\)をそのまま使うと、\(V(\bar{x})=80/4\)=20となります。

    同じ標本平均の分散\(V(\bar{x})\)でも、問いかけを変えると答えが変わります

    標本平均の分散\(V(\bar{x})\)の意味と式を考える

    \(V(\bar{x})=V(\frac{x_1+x_2+…+x_n}{n})\)=\(\frac{σ^2}{n}\)
    の式の意味を考えます。
    \(V(\bar{x})= V(\frac{x_1}{n}+\frac{x_2}{n}+…+\frac{x_n}{n})\)と変形します。

    \(V(\bar{x})\)の式は、
    \(x_i\)のデータを1/n倍に圧縮した分散\(V(\frac{x_1}{n})\)をi=1~nまで合わせたもの

    上の事例で当てはめると、次のようになります。

    \(x_1\):55/4,53/4,47/4,44/4,51/4
    \(x_2\):55/4,53/4,47/4,44/4,51/4
    \(x_3\):55/4,53/4,47/4,44/4,51/4
    \(x_4\):55/4,53/4,47/4,44/4,51/4
    どれも(平均50/4,分散80/16)

    分散がn=4の2乗の16で割った80→5に変化します。分散5を4つ加算するため、5→20となったものが、
    \(V(\bar{x})\)=\(\frac{σ^2}{n}\)=80/4=20
    なのです。

    しかし、よく見ると、\(\bar{x}\)=55,53,47,44,51の分散を求めるので、\(V(x_i)\)と同じ\(V(\bar{x})\)=80ですね。

    標本平均の分散の算出ポイント

    母集合(母分散\(σ^2\))からサンプリングして標本を抽出します。標本分散は次の2通り考えるべきです。
    (1) 母集合とデータのばらつきは変わらないから、標本分散も\(σ^2\)とする
    (2) 母集合から個々のデータをサンプル数で割ったデータのついての分散を作る。その分散をサンプル数分加して\(\frac{σ^2}{n}\)とする。

    (1)と(2)の違いがイメージできますか?同じ式ですがイメージが異なります。

    分散を求める式の左辺は\(V(\bar{x})\)ですが、公式どおりに母分散をサンプル数nで割るか、元のデータの母分散と同じとするかはよく考える必要があります。
    でも試験ではとりあえず公式どおりに母分散をサンプル数nで割ってください。

    ③標本平均の分散はあなたが判断する

    標本(サンプル)の分散を母分散\(σ^2/n\)とする前に、nで割るべきかどうかを考えましょう。
    試験対策では、機械的にnで割ってください。でも、分散の値がサンプル数の逆数で変わるのは違和感があります。

    標本平均の分散\(V(\bar{x})\)の式が、
    \(V(\bar{x})=V(\frac{x_1+x_2+…+x_n}{n})\)と違和感なく書けるため、そのまま機械的に\(V(\bar{x})\)=\(\frac{σ^2}{n}\)と導出できます。しかし、実務では

    \(V(\bar{x})=V(x_i)\)=\(σ^2\)とするか、
    \(V(\bar{x})\)=\(\frac{σ^2}{n}\)とするかを
    よく考える必要があります。

    まとめ

    標本平均の分散の求め方で注意すべきポイントを解説しました。試験では機械的にサンプル数nで割ってください。目的は合格することです。でも、実務はよく考えて分散値を求めてください。

    • ➀数学的に正しい標本平均の分散の注意点
    • ②標本平均の分散は\(σ^2/n\)で良いのか?
    • ③標本平均の分散はあなたが判断する

  • 【本記事限定】分散の加法性を使う時の注意点

    【本記事限定】分散の加法性を使う時の注意点

    「データを加減したら、分散は加法性により増大するのはなぜ?」、「機械的に加法して良いか?」 「わずかのデータの加減によって、集合全体の分散は増大するのか?」など、疑問に思っていませんか?

    こういう疑問に答えます。

    本記事のテーマ

    【本記事限定】分散の加法性を使う時の注意点【5分で理解できます】

    分散の加法性を使うときの注意点

    • ➀分散の加法性は数学的には正しい
    • ②分散を加法すべきを迷う場合がある
    • ③分散を加法するかどうかはあなたが判断する

    記事の信頼性

    記事を書いている私は、QC検定®1級合格した後、さらに磨きをかけて分散について研究しています。

    [themoneytizer id=”105233-2″]
    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    ●You tube動画ご覧ください。

    さっそく見ていきましょう。

    ➀分散の加法性は数学的には正しい

    分散の加法性を使ってよいかを迷ったあなたは、最初に「数学的に正しいのか?」を疑うはずです。

    分散の加法性は数学的に「正しい」です。

    分散の加法性の証明

    \(V(aX±bY)=a^2V(X)\)\(±2ab cov(X,Y)+b^2V(Y)\)を証明します。

    \(V(aX±bY)\)
    =\(E[((aX±bY)-E[aX±bY])^2]\)
    =\(E[(a(X-E[X])±b(Y-E[Y]))^2]\)
    =\(E[(a(X-E[X])^2]\)\(±E[2ab(X-E[X])(Y-E[Y])]\)\(+b^2E[(Y-E[Y])^2]\)
    =\(a^2E[(X-E[X])^2]±2abE[(X-E[X])(Y-E[Y])]\)\(+b^2E[(Y-E[Y])^2]\)
    =\(a^2V(X)±2abcov(X,Y)\)+\(b^2V(Y)\)

    分散の加法性は、\( aX±bY \)の±に関係なく+\(b^2V(Y)\)の+になる点が特徴ですね。第2項のcovが共分散ですね。共分散covは相関係数も関係してくる係数です。QC検定®で言うと2級では共分散covは扱いませんが、1級では扱いますね

    ②分散を加法すべきを迷う場合がある

    では、機械的に加法性を使うことに迷う場合の事例を挙げてみます。意地悪な記事ですが、きっと悩むはずです。なお、試験では正解を1つにするために、機械的に加法してよい問いしか出ません。でも、実務や生活していると試験のような単純な問いではありません。

    分散の加法性のポイント

    本記事は試験には出ません。試験では機械的に加法して得点を稼いでください。でも、実際は加法してよいかをよく吟味する段階が必ず来ます。

    あなたを悩ます加法性の吟味は次の2つのパターンがあります。

    • (A)大量のデータ群から無視できるほど少ないデータを取り出す場合
    • (B)母集合から一部データを取り出したが元に戻した場合
    • (C)機械的に分散の加法性が使える場合

    (A)大量のデータ群から無視できるほど少ないデータを取り出す場合

    例題を挙げます。一緒に考えましょう。

    1億個のデータからなる集合A(分散\(σ_1^2\))の中に、10個のデータからなる集合B(分散\(σ_2^2\))を混ぜた全体の集合の分散はいくらか?
    <答えの選択肢>
    (あ) \(σ_1^2\)のままとする
    (い) \(σ_1^2+σ_2^2\)と分散の加法性を適応する
    あなたなら、(あ)(い)どちらを答えますか?

    分散の加法性を機械的に使うなら「(い)」が正解となります。でも、10個のデータはその1000万倍のデータに比べてほぼ無視できるでしょうから、1億個の中に10個異なるデータが入っても何も変わらないといして「(あ)」と選択するのも正しいですよね。

    実は分散の加法性を使う際に、集合AとBを合わせる場合に、A+B→A+Bとするか、A+B→Aとするかはあなたが選択するのです。
    前者を選ぶと「(い)」と回答し、後者を選ぶと「(あ)」と回答することになります。

    (B)母集合から一部データを取り出したが元に戻した場合

    例題を挙げます。一緒に考えましょう。

    (1)1億個の部品の集合体A(性能の分散\(σ_A^2\)から10個の部品B(性能の分散\(σ_B^2\)を一回抜き出した。残った部品の性能分散をいくらか?
    (2) 一回抜き出した10個の部品Bを集合体Aに戻した。全体の集合体Aの部品性能の分散はいくらか?
    (3)(1)(2)をn回繰り返した。全体の集合体Aの部品性能の分散はいくらか?
    (1)~(3)について、AとBの共分散は無視してよい。

    下にイメージ図も載せます。

    分散の加法性1

    機械的に分散の加法性を使うと、
    (1) V(A-B)=V(A)+V(B)= (σ_A^2+σ_B^2)
    (2) V(A-B+B)= V(A-B)+V(B)= (σ_A^2+σ_B^2+σ_B^2)=(σ_A^2+2σ_B^2)
    (3) V=(σ_A^2+(σ_B^2+σ_B^2)×n)=(σ_A^2+2nσ_B^2)
    と分散がどんどん増えていきます。でも元に戻しているのにだんだん分散が増加するのは違和感がありますよね。

    よく考えたら、Bを抜いてもAは変わらないと考えても良いし、一旦抜いて戻したら元のAと同じとしてもよい。よって、
    V(A-B)=V(A),V(A+B)=V(A)とデータの増減はあっても、
    V()の()に入れる変数は変えないと考えて
    (1)(2)(3) すべてV=(σ_A^2)
    と考えてもよいはずです。

    つまり、データの増減をそのまま分散の加法性に適用してよいかは、よく考える必要があります。

     

    (C)機械的に分散の加法性が使える場合

    大学の試験やQC検定®などの資格試験では、「機械的に分散の加法性」を使ってください。なぜなら、分散の加法性が使えるように配慮した問題が用意されているからです。

    下にQC検定®2級で出題された「うまく作られた」問題例を紹介します。何が上手に作られたかを見ましょう。

    ペットボトルに500mlの飲料水を入れる。ペットボトルの重さは50g(標準偏差5g)、飲料水は510g(標準偏差12g)である。販売時の全体の重さの標準偏差は何gか?

    飲料(液体)とペットボトル(固体)は全く別物です。ここがうまい!ポイントです。データの増減によって全体集合を変えるかどうかを考える必要が全くないからです。

    試験問題は、正解は1つしかないため、受験者が混乱しないよう、十分配慮された問題となっています。試験を作る人は神経質になって作問していることが想像できます。

    上の問いの答えは、 (5^2+12^2=13^2)より標準偏差は13gですね。

    ③分散を加法するかどうかはあなたが判断する

    分散を加法するかどうかを判断する場合、分散の加法性は数学的に正しいため、V()の()に入る変数を増減するか、しないかをあなたが判断する必要があります。

    どの教科書やwebサイトにも書いていないわりに、少し分散の加法性が分かってきたら必ず悩むポイントになるため、本記事限定で解説しました。

    試験問題は正解を誘導するために意図して作られたものですが、実務では分散の加法性をそのまま使ってよいかを考える場面が多々あります。勉強できたら実務ができるわけではありません。よく考える必要があります。

    まとめ

    分散の加法性の使い方で注意すべきポイントを解説しました。試験では機械的に加法性を使ってください。目的は合格することです。でも、実務はよく考えて加法性を使ってください。

    • ➀分散の加法性は数学的には正しい
    • ②分散を加法すべきを迷う場合がある
    • ③分散を加法するかどうかはあなたが判断する

  • 【簡単】統計学最初の関門「平方和」がマスターできる【初心者向け】

    【簡単】統計学最初の関門「平方和」がマスターできる【初心者向け】

    統計学や品質管理を学ぶときに、最初につまずくのが「平方和」です。公式を覚えて計算しても、「平方の和である理由」、「平方和の公式の変形」や「測定データを変換して平方和の導出」がわからず、困りますよね。

    こういう疑問に答えます。

    本記事のテーマ

    【初心者向け】平方和がマスターできる【5分で理解できます】

    平方和をマスターするポイント

    • ➀なぜ平方和は2乗和なのかを理解する
    • ②平方和の公式をスムーズに変形できる
    • ③測定データを変換して平方和を算出できる

    記事の信頼性

    記事を書いている私は、QC検定®1級合格し、平方和でつまずきやすい社内のQC検定®2級挑戦者にわかりやすく説明しています。

    [themoneytizer id=”105233-2″]
    ●商標使用について、
    ①QC検定®と品質管理検定®は、一般財団法人日本規格協会の登録商標です。
    ➁このコンテンツは、一般財団法人日本規格協会の承認や推奨、その他の検討を受けたものではありません。
    ➂QCプラネッツは、QC検定®と品質管理検定®の商標使用許可を受けています。

    本記事を読んでいるあなたは、平方和、確率分布関数など統計学の基礎をマスターしたいはずです。理解度アップのための必須な関連記事がありますので、関連記事も読んでください。

    確率分布関数の作り方や確率・期待値を積分で計算する理由が簡単にわかるページ

    ★品質管理・統計に頻出な分布関数をわかりやすく解説したページ



    ★理解が難しいポアソン分布がすぐ理解できるページ

    QC模試受験しよう!

    QC模試で、腕試ししましょう!
    QC模試(品質技量の腕試し&QC検定®対策)
    品質技量の実力を試したい! QC検定®合格対策に活用したい! 1,000円で提供します! 公式、暗記で終わらず、自分のものにできているかを試すオリジナル試験問題です!

    品質力が鍛えられる「QC塾」を是非ご利用ください。

    品質のリーダーを育成する「QC塾」
    ブログでは、品質の勉強、実務、QC検定®に役立つ情報をアップして 「わかる」価値を提供していますが、「わかる」を「できる」に変える トレーニング塾「QC塾」を是非ご利用ください。 難解な品質が、すっきりわかり、指導できるレベルまで上達できます!

    [themoneytizer id=”105233-2″]

    さっそく見ていきましょう。

    ➀なぜ平方和は2乗和なのかを理解する

    平方和に入る前に、他の式を考えて比較すると平方和の良さが理解できます。理解してから公式を使うようにしましょう。

    You tubeでもわかりやすく解説しています。ブログも合わせてマスターしましょう。

    1乗和のばらつき算出式を作る

    世の中のデータは、「平均」と「ばらつき」の2つで評価します。平均の式は「合計/個数」です。「合計/個数」以外の式はほぼ使いませんよね。

    では、ばらつきの算出式を「平方和を知らない」人として考えてみましょう。
    ばらつきの定義から考えると、「平均からのズレ」ですよね。式に書きましょう。あるデータ \(x_i\)と平均 \(\bar{x}\)とするとばらつきは
    $$ \sum_{i} (x_i-\bar{x}) $$
    という式になります。

    平方和と違って、2乗しませんから計算は簡単ですね。でも公式として使われていません。なぜでしょうか?

    例を見ればわかります。5個のデータを見ましょう。

    \(x_i\) 53,48,44,57,58
    \(\bar{x}\) 52,52,52,52,52
    \(x_i-\bar{x}\) 1,-4,-8,5,6 →合計0

    なんと、\(\sum_{i} (x_i-\bar{x})\)となります。式は正しそうに書いていますが、式の意味は「全部の合計」と「平均×個数」の差です。どちらも全部の合計になるため、0になります。この式は使えません。残念!

    修正した1乗和のばらつき算出式を作る

    ばらつきの式が0にならないように再考します。ばらつきは「平均からのズレ」であり、この値は常に正になります。そこで、次の式に改良しました。

    あるデータx(i)と平均bar(x)とするとばらつきは
    $$ \sum_{i} |x_i-\bar{x}| $$
    という式になります。苦手意識の高い絶対値記号ですが、大丈夫です!

    例を見てチェックしましょう。同じく5個のデータを見ましょう。

    \(x_i\) 53,48,44,57,58
    \(\bar{x}\) 52,52,52,52,52
    \(|x_i-\bar{x}|\) 1,4,8,5,6 →合計24

    ばらつきの合計が24で平均24/5=4.8と5程度平均からずれる。確かにデータを見ると正しいとわかります。

    実は、ばらつきを評価する式の1つに
    $$ \sum_{i} |x_i-\bar{x}| $$
    もあります。でもなぜ教科書にはいつも平方和の式なのでしょうか?

    計算が楽だからばらつきは平方和で算出

    ばらつきを評価する
    $$ \sum_{i} |x_i-\bar{x}| $$
    は1つ大きな問題があります。それは「絶対値|x|の||を外すのが手間」なんです。

    絶対値|x|はx≧0ならx,x<0なら-xと2通りあります。
    \(\sum_{i} |x_i-\bar{x}|\) =\( |x_1-\bar{x}|+ |x_2-\bar{x}|\)+\(・・・+|x_n-\bar{x}|\)
    とn個の項それぞれに中身の正負を見て絶対値記号を外すのが大変手間です。

    なので、面倒な絶対値記号を外す手間を不要な方法を考えるはずです。

    これは「2乗」すればよいのです。()の中身の正負に関係なく簡単に()を外すことができます。これがばらつきを平方和で評価する理由なのです。

    ばらつきを評価する式は平方和以外にもありますが、平方和が複雑な式ですが、計算の手間が少ないわけです。

    ちなみに上の例の平方和は142となります。

    \(x_i\) 53,48,44,57,58
    \(\bar{x}\) 52,52,52,52,52
    \((x_i-\bar{x})^2\) 1,16,64,25,36 →合計142

    ②平方和の公式をスムーズに変形できる

    平方和は2つの式で表現できます。試験に使いやすい方を覚えておくと便利です。でも数列の和Σの変形に慣れておくと、分散分析、実験計画法、回帰分析の理解が早くなります。式の変形を見ましょう。

    You tubeでも解説しています。ブログも合わせてマスターしてください。

    平方和の式の2つの顔

    平方和の式は「平均からのズレの2乗和」です。式で書くと
    $$ S=\sum_{i} (x_i-\bar{x})^2 $$
    です。この式を変形した、よく使われる式があります。
    $$ S=\sum_{i} x_i^2- (\sum_{i} x_i)^2/n $$

    平方和の式を変形

    教科書では変形過程を見たいところを省くので、本記事は省かずに導出過程を書きます。

    $$ S=\sum_{i} (x_i-\bar{x})^2 $$
    $$ =\sum_{i} (x_i^2-2\bar{x}x_i+(\bar{x})^2) $$

    ここで、\(\bar{x}\)は平均で、\(\bar{x}=(\sum_{i} x_i)/n\)を代入します。

    \( S=\sum_{i} x_i^2\)-\(2((\sum_{i} x_i)/n)(\sum_{i} x_i)\)+\(\sum_{i}((\sum_{i} x_i)/n)^2 \)

    急に難しくなりましたね。眺めるだけでも十分な勉強になるので、まずは見ましょう!
    第2項は、\(2(\sum_{i} x_i)/n)(\sum_{i} x_i)\)=\(2/n(\sum_{i} x_i)^2\)に変形できます。
    第3項は、\(\sum_{i}((\sum_{i} x_i)/n)^2\)=\(n((\sum_{i} x_i)/n)^2\)=\(1/n(\sum_{i} x_i)^2)\)に変形できます。

    まとめると、
    \(S=\sum_{i} x_i^2- 2/n(\sum_{i} x_i)^2\)+\(1/n(\sum_{i} x_i)^2\)=\(\sum_{i} x_i^2-(\sum_{i} x_i)^2/n\)と変形できました。

    大事なのは、第2項、第3項の変形です。実験計画法、回帰分析で活用する分散分析の分散期待値の変形に応用されます。

    公式の当てはめ方

    例題を見ましょう。慣れないうちは2つも平方和の公式を覚えず、1つだけにしましょう。最初は、平方和S=\(\sum_{i} x_i^2-(\sum_{i} x_i)^2/n\)をよく使っていました。

    1. 5個のデータにおける平方和を求めよ。

    \(x_i\) 8,12,6,10,4 (合計40)8
    \(x_i^2\) 64,144,36,100,16 (合計360)

    試験では、データの2乗を与えている場合があります。
    平方和S=\(\sum_{i} x_i^2-(\sum_{i} x_i)^2/n\)を使います。
    S=360-40^2/5=40

    2. 5個のデータにおける平方和を求めよ。

    \(x_i\) 8,12,6,10,4 (合計40)

    平均が8と簡単に求められるので、
    \(S=\sum_{i} (x_i-\bar{x})^2\)を使います。
    S=(8-8)^2+(12-8)^2+(6-8)^2+(10-8)^2+(4-8)^2=40

    ③測定データを変換して平方和を算出できる

    平方和に慣れていないあなたを惑わす試験問題があります。よく、測定データをわざわざ変換して平方和が変換値の2乗に変化する内容です。心理統計学の期末試験やQC検定®3級・2級に頻出問題ですね。

    事例を挙げます。

    測定データが5つあり、その重さを測定した。xの値は大きいので、X=(x-260)×10とするXに変換した。

    x 261.4,267.3,255.3,257.3,258.7
    X 14,73,-47,-27,-13

    xによる平方和Sxと、Xによる平方和SXの関係には Sx=(➀)SXの関係がある。(➀)はいくらか?

    安心してください。慣れている人でも即答できません。一般化した方がわかりやすいので、式で見ましょう。

    ある変数xにXをX=(x-m)×M (x,Xは変数、m,Mは定数)するように変換します。Xによる平方和SXの式を作ります。

    \(SX=\sum(X_i-\bar{X})^2\)
    ここで、 \(X=(x-m)×M\)ですから、
    \(X_i=(x_i-m)×M\),\(\bar{X} =(\bar{x}-m)×M\)
    を代入します。

    \(SX=\sum((x_i-m)×M -(\bar{x}-m)×M)^2\)
    =\(M^2\sum(x_i -m)^2\)=\(M^2Sx\)となりますね。
    なので(➀)はM=10から100が答えとなります。

    変換した平方和の出題は、本質的な内容ではありません。しかし、慣れないあなたに出題される問いなので、平方和の式変形は慣れておくとよいです。

    まとめ

    平方和でつまずきやすいポイントを3つ解説しました。

    • なぜ平方和は2乗和なのかを理解する
    • ②平方和の公式をスムーズに変形できる
    • ③測定データを変換して平方和を算出できる

    本記事を読んでいるあなたは、平方和、確率分布関数など統計学の基礎をマスターしたいはずです。理解度アップのための必須な関連記事がありますので、関連記事も読んでください。

    確率分布関数の作り方や確率・期待値を積分で計算する理由が簡単にわかるページ

    ★品質管理・統計に頻出な分布関数をわかりやすく解説したページ



    ★理解が難しいポアソン分布がすぐ理解できるページ

error: Content is protected !!