こんにちは!のーちです。
このシリーズでは、QC検定の資格取得を目指して学習をしている私が、学習した内容を備忘録として配信しています。
前回の記事では統計の基礎について学習しました。
3回目の今回は「サンプリング」について記事にしました。
統計学やQC(Quality Control)を考える上で、サンプリングは非常に重要な内容です。
QC検定の試験でも必出の項目ですので、しっかり理解したいですね!
- サンプリングとはなにか
- サンプリングの種類
- それぞれのサンプリング方法の詳細
- サンプリングの注意点
サンプリングとは
サンプリングの定義
サンプリングとは、知りたいことのデータの集まり全体(母集団)から、その一部(サンプル)を調べてデータの集まり全体の姿を推定することです。
例えば、日本国民の平均身長が知りたいとすると、知りたいデータの集まり全体(母集団)は日本国民全員の身長です。そして、その一部(サンプル)である1,000人の身長データから日本国民全員の身長を推定することをサンプリングと言います。
なぜサンプリングするのか
データの集まり全体の姿を知りたいのに、なぜサンプリングをする必要があるのでしょうか。
それは、母集団(知りたい対象の全体)を全て調べるのは 大変 or 不可能 だからです。
例えば、日本国民全員の身長を知りたい場合、赤ちゃんからお年寄りまで約1億2千万人全員の身長を測定する必要があります。これは労力や費用の面で現実的ではありません。
そこで、日本国民全員から一部を抜き出して身長を測定し、そのデータから全体の姿を予測します。
そうすることで母集団全てを調べなくても、その姿を知ることができるのです。
サンプリングには誤差がある
サンプリングをすれば、母集団全体を調べなくても母集団の姿を推定することが出来ますが、気を付けなければ行けないことがあります。
それは、サンプリングには誤差があることです。
サンプリング誤差
サンプリング誤差とは、サンプルから母集団を推定するときに生じる誤差のことです。
例えば日本国民全員の平均身長を知りたいのに、小学生の身長をサンプリングとして抽出してしまった場合などです。
この場合は母集団の本当の姿よりも、かなり低い身長が平均身長として推定されてしまうでしょう。
測定誤差
測定誤差とは、真値と測定値の間に生じる誤差のことです。
測定対象の真の値は一つですが、測定機器が持っている誤差や、測定機器を使用する人による誤差などが発生します。
身長の例で言うと、Aさんの本当の身長はただ一つですが、測定器の目盛りがズレていたり、目盛りの読み取り方による誤差が測定誤差です。
サンプリングの種類
母集団の姿を推定するサンプリングですが、サンプリングには5種類の方法があります。
- 単純ランダムサンプリング
- 2段サンプリング
- 層別サンプリング
- 集落サンプリング
- 系統サンプリング
それぞれのサンプリング方法の説明(具体的な例)とメリットデメリットを解説します。
単純ランダムサンプリング
単純ランダムサンプリングとは、母集団を構成する全ての要素が同じような確率でサンプルとして選ばれるようにサンプリングをする方法です。
逆に言えば層や段、集落に分けないでサンプリングをします。
例えば、10個のボールが入っている袋があるとして、ボールの平均質量が知りたい場合を考えます。
ボール一つ一つに1~10の通し番号を振って、その中から3個をランダムに選びます。3個のボールの質量を測り、その平均値から袋の中身全体の平均値を推測します。
このようなサンプリング方法が単純ランダムサンプリングです。
単純ランダムサンプリングは、最もシンプルで基本のサンプリング方法ですが、母集団の規模が大きくなったり、選ぶサンプル数が多くなったりするとサンプリングが大変になります。
2段サンプリング
2段サンプリングは、母集団をいくつかのグループに分けて、2段階にサンプリングを行う方法です。
先ほどと同じく、ボールの平均質量が知りたい例を考えます。
今回は袋が5つあり、それぞれに10個ずつボールが入っています。
まず初めに5つの袋の中から2つを選びます。そして、選んだ袋の中からそれぞれ3つずつボールを選びます。
選ばれた6つのボールの平均質量から全てのボールの平均質量を推測します。
このようなサンプリング方法を2段サンプリングと言います。
2段サンプリングは母集団が膨大な場合に、コストを抑えられるメリットがありますが、1段階目で偏ったグループを選んでしまうと、サンプルに偏りが生じてしまいます。
そのため、厳密なランダムサンプリングよりも精度が落ちます。
層別サンプリング
層別サンプリングは、母集団をいくつかの層に分類して、各層からランダムサンプリングする方法です。
層別サンプリングでは、層内のばらつきが小さくなるように、層を設定します。
とある中学校の全校生徒校の均身長を例に考えてみます。
各学年(1年生、2年生、3年生)には100名ずつ生徒が在籍しており、全校生徒300人の平均身長が知りたいです。
今回の例では各学年を層に設定します。そして各学年から10名ずつ選び身長を測定して、全体の平均を推定します。
このようなサンプリング方法を層別サンプリングと言います。
層別サンプリングでは、母集団を各層に正確に分けられることができれば、単純ランダムサンプリングよりも精度が高いですが、そのためには事前に母集団の構成を知っておく必要があります。
今回の例では、中学生の身長は一般に高学年になるほど高いことが分かっています。また1年生同士の身長のばらつきの方が、1,2,3年生が混ざった集団のばらつきよりも小さいと考えられるため層に設定しています。
食品総合研究所さんの例が非常に分かりやすかったので、こちらも参考にしてみてください。
集落サンプリング
集落サンプリングは、母集団を複数の集落に分けて、その中からランダムに集落を選び、その中身全てをサンプルとする方法です。
選ばれなかった集落は調査されないため、集落ごとのばらつきは小さく、集落内のばらつきが大きくなるように集落分けをします。
イチゴを例に考えます。1パックに10個のイチゴが入っています。パックは全部で5個あります。全てのイチゴの平均質量が知りたいです。
この例の場合は、5つのパックが集落になります。
初めに5つのパック(集落)の中から2つを選びます。その後、選んだ集落の中身全てを測定し、母集団の平均質量を推定します。
このようなサンプリング方法を集落サンプリングといいます。
先に紹介した層別サンプリングとの違いは、1次サンプルごとのばらつきは小さく(各パックの重さのばらつきは小さい)、1次サンプル内のばらつきが大きい(パック内のイチゴ一つ一つのばらつきは大きい)ことと、1次サンプルで選ばれた集落の中身全てを調査することです。
抽出した集落だけ調べればいいのでコストを抑えられますが、適切に集落を設定しないと結果に偏りが生じる可能性があります。
系統サンプリング
系統サンプリングは、母集団のサンプリング単位を何らかの順序で並べた後、最初の1つをランダムに抽出し、その後は一定間隔でサンプリングを行う方法です。
今回はネジを例に考えます。1日1,000本のネジを生産するとして、ネジの長さに変化がないかを一定間隔で測定して調査することにしました。
始めの1本を選んだら、そこから100本ごとに抜き取って長さを測定します。
このようなサンプリング方法を系統サンプリングといいます。
最初の1つを選んでしまえば、後は機械的に決まっていきますが、サンプリング単位に周期性があり、それがサンプリングの周期と重なると偏りが生じます。
例えば、ネジを100本生産するごとに刃物を交換しているので、1本目から100本目にかけて長さが徐々に長くなるが、刃物交換とサンプリングのタイミングが重なっていて、サンプルのばらつきを検知できない場合などです。
まとめ
今回はサンプリングについて記事にしました。
サンプリングとは知りたいデータの集まり全体(母集団)から、その一部を抜き取って調べて、全体の姿を推定することです。
サンプリングには誤差があるため、正しく母集団を推定するためには正確なサンプリングをすることが重要です。
サンプリングの精度が悪いと母集団の推定に影響がでます。
サンプリングは統計の基礎であり、QC検定でも必出の項目なので、QC検定の資格取得を目指している方は必ず覚えておきましょう。
コメント