1、 データの散らばりを知りたい時
例えば5人のクラスにおいて算数のテストの点数を比べてみたとしましょう。A組、B組の2クラスにおいて5人の点数は以下のようになりました。
これらの2クラスにおいて平均点はいずれも78点です。ただ、平均点が同じでもデータの特徴は大きく違いますよね。A組においてはデータの散らばりが少なく、一番高い得点の人と一番低い得点の人でも10点しか差がありません。しかし、B組においては53点もの開きがあります。
このように平均値や中央値だけを見て全体を判断するということは非常に危険なのです。そこで登場するのがデータの散らばり具合を表した分散、標準偏差といった指標です。
このように平均値や中央値だけを見て全体を判断するということは非常に危険なのです。そこで登場するのがデータの散らばり具合を表した分散、標準偏差といった指標です。
2、 分散、標準偏差とは
分散や標準偏差はデータの散らばり具合を表す指標です。
分散はある一つのデータセットにおいて、それぞれのデータと平均値の差を二乗して合計し、データの個数で割ることによって得られます。
そして分散の平方根が標準偏差となります。
例を用いて紹介する前に、式を見てみましょう。
分散はSの二乗、標準偏差はSを使って表します。
分散はある一つのデータセットにおいて、それぞれのデータと平均値の差を二乗して合計し、データの個数で割ることによって得られます。
そして分散の平方根が標準偏差となります。
例を用いて紹介する前に、式を見てみましょう。
分散はSの二乗、標準偏差はSを使って表します。
一見、とても難しそうに見えますね・・・
しかし、見た目ほどの難しさはないのでご安心ください。
これを見てまずわかることとして、分散に√をつけたもの、つまり分散の平方根が標準偏差になっています。
なので、分散を求めてしまえば標準偏差は分かったも同然です。
分散は、データセットにおいて各々のデータと平均値の差の2乗を足し上げ、データの個数で割ったものです。
そして、分散の平方根が標準偏差Sとなります。
しかし、見た目ほどの難しさはないのでご安心ください。
これを見てまずわかることとして、分散に√をつけたもの、つまり分散の平方根が標準偏差になっています。
なので、分散を求めてしまえば標準偏差は分かったも同然です。
分散は、データセットにおいて各々のデータと平均値の差の2乗を足し上げ、データの個数で割ったものです。
そして、分散の平方根が標準偏差Sとなります。
先ほどのA組の例で見てみますね。
まず、A組の平均点は78点なので、クラスのメンバーの点数と平均点の差を求めます。
まず、A組の平均点は78点なので、クラスのメンバーの点数と平均点の差を求めます。
このようになりますね。
この差分を二乗すると以下のようになります。
この差分を二乗すると以下のようになります。
そして得られた各数値を合計し、データの個数で割ります。
計算式は
(36+4+1+9+16)÷5=13.2となりますね。
これが分散です。差分の二乗を平均した値です。
ここでもし2乗をせずに足し上げるとどうなるでしょう。(-6)+(-2)+1+3+4=0となりますね。
これは、平均値からの差を足し上げると、プラスの差とマイナスの差が相殺されてしまうためです。これでは、散らばり具合が分からないので、2乗をすることによりプラスの差とマイナスの差の影響が出ないようにしているのです。
さて、分散が求められたので続いて標準偏差を求めましょう。
標準偏差は分散の平方根でしたね!
√13.2=約3.6となります。
こうして得られた数値が標準偏差です。
なぜ分散からわざわざ二乗を外して標準偏差を求めるのか、それについて現段階では、分散は大きすぎるため扱いが難しいから、という風に理解して頂ければ大丈夫です。分散は求める過程において二乗をしているので、時として大きくなりすぎることがあり、扱いにくいのです。
そうなると分散は重要じゃないのではないか、という意見も聞こえてきそうですね。ただ、分散は後々応用がききやすいというメリットがあります。そのため、ここでは分散と標準偏差、どちらもその求め方を覚えておいてください!
さて、この計算式でB組においても分散、標準偏差を求めてみましょう。
計算式は
(36+4+1+9+16)÷5=13.2となりますね。
これが分散です。差分の二乗を平均した値です。
ここでもし2乗をせずに足し上げるとどうなるでしょう。(-6)+(-2)+1+3+4=0となりますね。
これは、平均値からの差を足し上げると、プラスの差とマイナスの差が相殺されてしまうためです。これでは、散らばり具合が分からないので、2乗をすることによりプラスの差とマイナスの差の影響が出ないようにしているのです。
さて、分散が求められたので続いて標準偏差を求めましょう。
標準偏差は分散の平方根でしたね!
√13.2=約3.6となります。
こうして得られた数値が標準偏差です。
なぜ分散からわざわざ二乗を外して標準偏差を求めるのか、それについて現段階では、分散は大きすぎるため扱いが難しいから、という風に理解して頂ければ大丈夫です。分散は求める過程において二乗をしているので、時として大きくなりすぎることがあり、扱いにくいのです。
そうなると分散は重要じゃないのではないか、という意見も聞こえてきそうですね。ただ、分散は後々応用がききやすいというメリットがあります。そのため、ここでは分散と標準偏差、どちらもその求め方を覚えておいてください!
さて、この計算式でB組においても分散、標準偏差を求めてみましょう。
平均点は78なのでその差を2乗し、データの個数5で割ります。
{(31×31)+
(14×14)+(9×9)+(14×14)+(22×22)}÷5=(961+196+81+196+484)÷5=383.6
となります。
また標準偏差はその平方根なので19.6となりますね。
A組の標準偏差3.6よりも大きな数値となり、B組の方が点数の散らばりが大きいことが分かります。
このように同じデータセットにおいて、平均点が同じだとしてもそのばらつきは全く異なっていることがあるのです。
{(31×31)+
(14×14)+(9×9)+(14×14)+(22×22)}÷5=(961+196+81+196+484)÷5=383.6
となります。
また標準偏差はその平方根なので19.6となりますね。
A組の標準偏差3.6よりも大きな数値となり、B組の方が点数の散らばりが大きいことが分かります。
このように同じデータセットにおいて、平均点が同じだとしてもそのばらつきは全く異なっていることがあるのです。
さて、ここまで分散と標準偏差の求め方について見てきました。それを踏まえ、ここでは標準偏差の持つ意味について考えてみましょう。
今まで見てきたこと以外にも、標準偏差には以下の意味があります。
・複数のデータ内において、特定のデータがどのような意味を持つか明らかにすることが出来る
例えば30人のクラスを想像してみましょう。平均点が70点の算数のテストで80点を取れたとします。果たしてその点数は良いのでしょうか、悪いのでしょうか。65点~75点あたりに多くの人が集中しているのであれば良いような気がしますし、反面50点の人も多くいれば80点台、90点台の人も多くいるというのであればあまり良いとは言えないような気もします。
そこで登場するのが標準偏差です。
今まで見てきた標準偏差は平均値からの離れ具体を平均化した値と言えます。標準偏差が10点ならば、80点という点数は70点から10点(標準偏差1個分)しか離れておらず、自信をもって高得点とは言えないのではないでしょうか。一方で標準偏差が5点であるならば80点は平均点から標準偏差2つ分離れているので高得点と言えそうな気がします。
このように標準偏差というのは、複数のデータにおいて、特定のデータが持つ意味を明らかにするのにも役立つのです。
今まで見てきたこと以外にも、標準偏差には以下の意味があります。
・複数のデータ内において、特定のデータがどのような意味を持つか明らかにすることが出来る
例えば30人のクラスを想像してみましょう。平均点が70点の算数のテストで80点を取れたとします。果たしてその点数は良いのでしょうか、悪いのでしょうか。65点~75点あたりに多くの人が集中しているのであれば良いような気がしますし、反面50点の人も多くいれば80点台、90点台の人も多くいるというのであればあまり良いとは言えないような気もします。
そこで登場するのが標準偏差です。
今まで見てきた標準偏差は平均値からの離れ具体を平均化した値と言えます。標準偏差が10点ならば、80点という点数は70点から10点(標準偏差1個分)しか離れておらず、自信をもって高得点とは言えないのではないでしょうか。一方で標準偏差が5点であるならば80点は平均点から標準偏差2つ分離れているので高得点と言えそうな気がします。
このように標準偏差というのは、複数のデータにおいて、特定のデータが持つ意味を明らかにするのにも役立つのです。
3、 まとめ
さて、今回は分散や標準偏差について見てきました。
今までの内容を振り返ってみましょう。
・代表値はデータの散らばりまでは教えてくれず、その確認のためには分散や標準偏差を知る必要がある
・分散はそれぞれのデータと平均値との差を二乗し、合計した上で、データの個数で割って得られる
・標準偏差は分散の平方根である
次回では引き続き標準偏差の話や、また正規分布の話について見ていこうと思います。本日もありがとうございました!
今までの内容を振り返ってみましょう。
・代表値はデータの散らばりまでは教えてくれず、その確認のためには分散や標準偏差を知る必要がある
・分散はそれぞれのデータと平均値との差を二乗し、合計した上で、データの個数で割って得られる
・標準偏差は分散の平方根である
次回では引き続き標準偏差の話や、また正規分布の話について見ていこうと思います。本日もありがとうございました!
21 件