1、正規分布とは
まずは正規分布とは何なのか、というところから見ていきましょう。正規分布とは一言で表してしまえば最もよく見られるデータの分布のことです。
正規分布は以下の特徴を持ちます。
・平均値、中央値、最頻値の3つが一致する。
(最頻値はここでは初めて登場する項目です。読んで字のごとく、データセットの中で最も頻繁に現れる数値のことを示しており、この機会に覚えてしまいましょう。)
・グラフを作成すると平均値(または中央値、最頻値)を軸として左右対称な釣鐘状の形となる。
文字で説明をするよりかは実際にグラフを見て頂いた方が良いでしょう。
正規分布は以下の特徴を持ちます。
・平均値、中央値、最頻値の3つが一致する。
(最頻値はここでは初めて登場する項目です。読んで字のごとく、データセットの中で最も頻繁に現れる数値のことを示しており、この機会に覚えてしまいましょう。)
・グラフを作成すると平均値(または中央値、最頻値)を軸として左右対称な釣鐘状の形となる。
文字で説明をするよりかは実際にグラフを見て頂いた方が良いでしょう。
上記では縦軸に相対度数、横軸に階級値をとっています。
ここから平均値、中央値、最頻値の3つが一致していること、またそれを基準として左右対称な釣鐘型になっていることが見て取れるかと思います。
皆さんもこの形状をしたグラフを目にしたことがあるのではないでしょうか。これが正規分布です。
そして自然界においては正規分布に沿う事象が多く観測されます。例えば人間の身長もそうです。様々な動物の体重もそうだと言われます。しかし、どういう力が働いて正規分布になるかはわかっていないのです。。
ここから平均値、中央値、最頻値の3つが一致していること、またそれを基準として左右対称な釣鐘型になっていることが見て取れるかと思います。
皆さんもこの形状をしたグラフを目にしたことがあるのではないでしょうか。これが正規分布です。
そして自然界においては正規分布に沿う事象が多く観測されます。例えば人間の身長もそうです。様々な動物の体重もそうだと言われます。しかし、どういう力が働いて正規分布になるかはわかっていないのです。。
2、 正規分布の特徴
次に正規分布の特徴について見てみましょう。最も重要なこととして以下の特徴が挙げられます。
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
どういうことでしょうか。
例えば都内の高校生10,000人が数学のテストを受けたとします。横軸に点数、縦軸に人数を取ってグラフ化してみたところ、以下のように正規分布に近い形が得られたと仮定しましょう。
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
どういうことでしょうか。
例えば都内の高校生10,000人が数学のテストを受けたとします。横軸に点数、縦軸に人数を取ってグラフ化してみたところ、以下のように正規分布に近い形が得られたと仮定しましょう。
そしてテストの平均点は70点、標準偏差は12点だったとします。
そうすると約70%の人は平均点から標準偏差1個分、つまり58点~82点の範囲内に収まるということが言えます。
加えて、約95%の人は平均点から標準偏差2個分、つまり46点~94点の範囲内に収まるのです。
この時、95点以上を取れた人は極めて優秀でしょうし、45点以下の点数になってしまった人は気合を入れて勉強しなければいけないかもしれませんね。
そうすると約70%の人は平均点から標準偏差1個分、つまり58点~82点の範囲内に収まるということが言えます。
加えて、約95%の人は平均点から標準偏差2個分、つまり46点~94点の範囲内に収まるのです。
この時、95点以上を取れた人は極めて優秀でしょうし、45点以下の点数になってしまった人は気合を入れて勉強しなければいけないかもしれませんね。
今見た例というのはあくまで正規分布に近い例、つまり完全な正規分布ではありません。しかし完全な正規分布の場合は平均値から標準偏差1個分の中に68.3%、標準偏差2個分の中に約95.4%のデータが存在することが分かっています。
3、 正規分布の応用
それでは、ここまで見てきた正規分布の話を少し応用して考えてみましょう。
皆様は高校受験や大学受験などで偏差値という言葉は馴染み深いのではないでしょうか。
実は偏差値とは、テストの点数の分布が正規分布であると仮定した上で平均点が50と、標準偏差が10となるように変換した値なのです。
ちょっと難しいですよね。
なぜそのようなことをするのでしょうか。
たとえばA君が前回、数学のテストで80点をとれたのに今回70点しかとれなかったとしましょう。一見するとA君が今回はあまり勉強しなかったようにも見えますね。しかし、前回のテストの平均点が85点で今回のテストの平均点が65点だったとするとどうでしょう。
前回は平均点を下回っていたのに、今回は平均点を上回っています。
これを踏まえると、恐らく今回はテストが難しかっただけでA君は勉強を頑張っていたことがわかりますね。
このように、テストの点数だけを単純に比較してしまうとミスリードに繋がってしまう恐れがあります。
そこで異なったテストでも全体の中での立ち位置を比較できるように偏差値が登場するわけです。
偏差値は以下の計算式で求められます。
偏差値=(得点-平均点)/標準偏差×10+50
例を見てみましょう。10人のクラスでテストの点数が以下のようになったとします。
皆様は高校受験や大学受験などで偏差値という言葉は馴染み深いのではないでしょうか。
実は偏差値とは、テストの点数の分布が正規分布であると仮定した上で平均点が50と、標準偏差が10となるように変換した値なのです。
ちょっと難しいですよね。
なぜそのようなことをするのでしょうか。
たとえばA君が前回、数学のテストで80点をとれたのに今回70点しかとれなかったとしましょう。一見するとA君が今回はあまり勉強しなかったようにも見えますね。しかし、前回のテストの平均点が85点で今回のテストの平均点が65点だったとするとどうでしょう。
前回は平均点を下回っていたのに、今回は平均点を上回っています。
これを踏まえると、恐らく今回はテストが難しかっただけでA君は勉強を頑張っていたことがわかりますね。
このように、テストの点数だけを単純に比較してしまうとミスリードに繋がってしまう恐れがあります。
そこで異なったテストでも全体の中での立ち位置を比較できるように偏差値が登場するわけです。
偏差値は以下の計算式で求められます。
偏差値=(得点-平均点)/標準偏差×10+50
例を見てみましょう。10人のクラスでテストの点数が以下のようになったとします。
この時、平均点は71、標準偏差は14となります。
平均点が偏差値50となるので、この時点でクラスにおける偏差値50は71点であることが分かります。
ではA君が62点だったとして、A君の偏差値はどうなるでしょう。
上記の式にあてはめてみましょう
A君の偏差値=(82-71)/14×10+50
=58
このようにA君の偏差値は58であることが分かります。
同様にB君が97点だったとして、偏差値を計算してみましょう。
A君の偏差値=(97-71)/14×10+50
=69
B君の偏差値は69でした。
ここで、前節の内容を思い出してみましょう。
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
偏差値において、標準偏差は10です。
つまり、偏差値69というのは平均値からほぼ標準偏差2個離れており、とても優秀な成績であるということが分かるのです。
ここで学んだ偏差値は少々応用的な内容かと思います。
ですので、理解して頂けなくても大丈夫ですが今まで耳にしてきた偏差値という言葉にも正規分布が関わっているということを知って頂ければ、より統計学が身近に感じられるかと思います。
平均点が偏差値50となるので、この時点でクラスにおける偏差値50は71点であることが分かります。
ではA君が62点だったとして、A君の偏差値はどうなるでしょう。
上記の式にあてはめてみましょう
A君の偏差値=(82-71)/14×10+50
=58
このようにA君の偏差値は58であることが分かります。
同様にB君が97点だったとして、偏差値を計算してみましょう。
A君の偏差値=(97-71)/14×10+50
=69
B君の偏差値は69でした。
ここで、前節の内容を思い出してみましょう。
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
偏差値において、標準偏差は10です。
つまり、偏差値69というのは平均値からほぼ標準偏差2個離れており、とても優秀な成績であるということが分かるのです。
ここで学んだ偏差値は少々応用的な内容かと思います。
ですので、理解して頂けなくても大丈夫ですが今まで耳にしてきた偏差値という言葉にも正規分布が関わっているということを知って頂ければ、より統計学が身近に感じられるかと思います。
4、 まとめ
さて、今回は標準偏差について見てきました。
今までの内容を振り返ってみましょう。
・正規分布とは最もよく見られるデータの分布のこと
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
・偏差値とは、テストの点数の分布が正規分布であると仮定した上で、平均点が50と、標準偏差が10となるように変換した値である。
次回では今日学んだ話をもう少し応用してみたいと思います!ここまで見て頂きありがとうございました。
今までの内容を振り返ってみましょう。
・正規分布とは最もよく見られるデータの分布のこと
・平均値から標準偏差1個分の中に約70%のデータが存在する。
・平均値から標準偏差2個分の中に約95%のデータが存在する。
・偏差値とは、テストの点数の分布が正規分布であると仮定した上で、平均点が50と、標準偏差が10となるように変換した値である。
次回では今日学んだ話をもう少し応用してみたいと思います!ここまで見て頂きありがとうございました。
17 件