こんにちは。のーちです。
前回の記事で、お伝えしたようにQC検定2級の取得を目指して勉強を始めました。
今回から私は次の様なステップで学習を進めることにしました。
- 統計の基礎を勉強する
- QCの基礎を勉強する
- 過去問、例題を解く
今回は、ステップ1「統計学の基礎」を学習しましたので、学習内容を備忘録的に書いて行きます。
過去問や問題集を進める上で必要になる最低限の知識ですので、忘れないようにしたいですね。
統計の基礎を勉強する
今回は統計的にデータを扱う際に出てくる言葉と、その意味についてまとめています。
基本的には高校数学程度の範囲で理解出来る内容です。
より詳しく知りたい方はこちらの本がおすすめです。私もこの本で学習しました。
この本ではタイトルのとおり、数式ではなく言葉で説明されているので、数学が苦手な方でも理解しやすいのでおすすめです!
今回は例として、ある製品から10個の質量を、抜き取りで測定したデータをサンプルに説明していきます。
ある製品の質量を管理する必要があるとして、全体の姿を把握ために、ある製品10個の質量を測ると、それぞれ以下のようになりました。
平均値
平均値とは、データの全ての数値を足し合わせて、データの個数で割った値です。
ここでは、製品10個分の重さを足した値(100.1)を、データの個数(10) で割った値(10.01)が平均値です。
偏差
偏差は、個々の値と平均値の差のことです。
1つ目の製品の質量を例に取ると、個々の値は10.1で、平均値は10.01なので、その差は10.1-10.01=0.09です。
偏差は足し合わせると0になる性質があります。
このことをグラフを使って少し詳しく説明してみます。
まず、個々の値と平均値をグラフにすると下図のようになります。
偏差は個々の値と平均値の差なので、下のグラフの斜線部分に当たります。青斜線はプラス、赤斜線はマイナスです。
青い部分と赤い部分を取り出して並べてみると、同じ大きさになります。正負の絶対値が同じなので、足し合わせると0になります。つまり個々の値と平均値の差(偏差)の合計は0になるのです。
二乗
二乗は同じ数を2回掛け合わせた値です。中学校で習いますね。
下のように、数字の右上に小さい2を書いて表したり、PCで入力するさいは2^2と表したりします。
2×2=4 ですから、2の二乗は4ということになります。
同じように、3の二乗は9、4の二乗は16です。
二乗には大事な性質があります。それは負の数値の二乗は、負号が反転して正になることです。
二乗でなくても、マイナス×マイナスの負号はプラスになります。(-3)×(-2)=(+6) ですね。
範囲
範囲は最大値と最小値の差です。
今回は最大値は10.3、最小値が9.7なので、その差10.3-9.7=0.6が範囲となります。
図で表すと下のようなイメージですね。
平方根
2回掛け合わせると平方根の中身になる値です。これも中学校で習いますね。記号√を使って表します。
例えば4の平方根は2です。
2×2=4 なので、
√4=2 になります。
平方根は2回かけ合わせると、平方根の中身の数字になります。
√4×√4=4
√4=2 なので、√4×√4=2×2=4 です。
母集団
ここから少し統計学っぽい単語が出てきます。
まずは母集団ですね。
母集団とは、知りたいと思っている集団全体のことを言います。
今回の例で言うと、ある製品全ての質量のことになります。
他の例で例えると、日本国民全員の平均身長が知りたいとすると、日本国民全員の身長が母集団ということになります。
分布
母集団などのデータの集まりは均一ではなく、ばらついています。
このばらついている姿・形のことを分布といいます。
今回の例ですと、ある製品10個の質量はすべて同じではなく、軽いモノ、重いモノ、様々あります。
全体から10個取り出して、ばらついているのですから、全体の質量(母集団)もばらついていると考えられます。
このとき、そのばらつき具合がどんな姿・形をしているかのことを分布といいます。
母平均
母集団の平均 分布の中心のことを母平均といいます。
母集団は知りたいと思っている集団全体なので、母平均は集団全体の平均ということになります。
前述した「平均」とは区別されますので、気を付けましょう。
前述した「平均」はあくまで、抜き取りした10個の質量の平均ですので、母平均とは異なります。
母平均を知るためには、集団全体のデータを取る必要がありますので、ある製品が既に10万個生産されていたとすると、10万個分のデータが必要ということになります。
分散
分散とは、偏差の二乗を足し合わせて、データの個数で割った数のことです。
偏差の二乗をデータの個数で割っているので、偏差の二乗の平均ということになります。
前述したように、偏差は足し合わせると0になってしまうため、そのままでは平均を求めることができません。
そこで、負の値を二乗すると正になることを利用して、偏差の二乗を使います。
偏差が大きいとは、平均値からの差が大きいことですので、その二乗の平均が大きい、つまり分散が大きいということは、ばらつきが大きいと言えます。
標準偏差
標準偏差は分散の平方根を計算したものです。
前述したように、分散をもとめるときに、偏差を二乗しているため、そのままだと使い勝手が悪いです。
例えば今回扱っている単位は㎏ですが、偏差の二乗を用いているため、分散の単位は㎏^2となってしまっています。
なので、平方根を計算してやり、単位を元の㎏に戻してあげることにします。
今回のデータで標準偏差を計算すると約0.2でした。
分散と同様、標準偏差が大きいとばらつきが大きいということが言えます。
(*実は標準偏差を求める際にはデータの数ではなく、データの数-1で割る必要があるのですが、それは次回の記事にて説明します。)
最頻値(mode)
最頻値とは、データのなかで最も多く登場する値のことです。
サンプルデータを昇順に並び替えると下図のようになりました。
そうすると、10.1という値が3回登場していることが分かります。9.7と10.2が2回、9.8、9.9、10.3は各1回です。
なので今回のデータの最頻値は10.1ということになります。
中央値(median)
データを昇順に並べた時に、真ん中に来る値のことを中央値と言います。
9個のデータがあるときは、5個目の値
10個のデータがあるときは5個目と6個目のデータの平均値になります。
今回は5個目と6個目のデータがどちらも10.1でしたので、平均値は10.1。
中央値も10.1ということになります。
まとめ
今回は、QC検定の取得に向けて覚えておきたい統計学の基礎をまとめてみました。
はじめて聞くものもあると思いますが、数学者になる訳ではないので、知識としてざっくり覚えておけば良いと思います。
次回は分布について、もう少し詳しくまとめてみたいと思います。
QC検定2級取得に向けて、一緒に学習を頑張りましょう!
コメント