前回は度数分布表とヒストグラムについて解説しましたが、第2回は平均値と中央値について解説していきます。
平均値と中央値ってどちらも「複数のデータの中で真ん中の数値」というイメージですよね。ではその2つって具体的にどう違のかをここでは見ていきましょう。
それでは宜しくお願い致します。
平均値と中央値ってどちらも「複数のデータの中で真ん中の数値」というイメージですよね。ではその2つって具体的にどう違のかをここでは見ていきましょう。
それでは宜しくお願い致します。
1、平均値とは
平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のことです。
例えば、7人のクラスでで算数のテストをしたときに以下のような点数になったとします。
(7人のクラスというのはあまりないと思いますが、計算の都合上そうさせて下さい。)
例えば、7人のクラスでで算数のテストをしたときに以下のような点数になったとします。
(7人のクラスというのはあまりないと思いますが、計算の都合上そうさせて下さい。)
この場合、平均値は以下の計算で求められます。
(63+65+77+78+82+97+100)÷7=80
この80点が平均点となります。
クラスの人数が増えても同様です。
仮に30人のクラスなら30人分の点数を足し上げて30で割れば平均値を求めることが出来ます。
なので平均点は複数のデータを足し上げて、その個数で割ることによって得られるということを覚えておいてください。
(63+65+77+78+82+97+100)÷7=80
この80点が平均点となります。
クラスの人数が増えても同様です。
仮に30人のクラスなら30人分の点数を足し上げて30で割れば平均値を求めることが出来ます。
なので平均点は複数のデータを足し上げて、その個数で割ることによって得られるということを覚えておいてください。
2、中央値とは
それではここからは中央値について見ていきましょう。
中央値とは複数のデータを小さい順番で並べた時に中央に位置する数値のことです。
例として先ほどのクラスの点数を見ていきましょう。
中央値とは複数のデータを小さい順番で並べた時に中央に位置する数値のことです。
例として先ほどのクラスの点数を見ていきましょう。
この7個のデータにおいて丁度中央に位置する値、つまり78が中央値となります。
もしデータの個数が偶数の場合は中央に位置する2つのデータの平均が中央値となります。
例えば下記のようにデータが8個ある場合だと
もしデータの個数が偶数の場合は中央に位置する2つのデータの平均が中央値となります。
例えば下記のようにデータが8個ある場合だと
真ん中にある78と82の平均である80が中央値となります。
3、平均値と中央値って何が違うの?
ここまで平均値と中央値について見てきました。
どちらも代表値(データの特徴を表す値)という点では同じですが、何が違うのでしょうか。
ここまで見てきた7人のクラスだと平均値は80、中央値は78となります。
ほとんど差はないですね。
どちらも代表値(データの特徴を表す値)という点では同じですが、何が違うのでしょうか。
ここまで見てきた7人のクラスだと平均値は80、中央値は78となります。
ほとんど差はないですね。
では次に、以下の例を見てみましょう。
7人のクラスで算数のテストを行いましたが1人、欠席をしたために点数が0点という扱いになったとします。
そうなるとクラスの点数は以下のようになります。
7人のクラスで算数のテストを行いましたが1人、欠席をしたために点数が0点という扱いになったとします。
そうなるとクラスの点数は以下のようになります。
この時、中央値は78となります。
では平均点はどうでしょうか。
(0+65+77+78+82+97+100)÷8=62となります。
8人中7人が62点以上の数値をとっているのに平均点が62点となるのはとなってしまうのは違和感がありますね。
この点数で、第一講で学んだヒストグラムを作ってみるとこのようになります。
では平均点はどうでしょうか。
(0+65+77+78+82+97+100)÷8=62となります。
8人中7人が62点以上の数値をとっているのに平均点が62点となるのはとなってしまうのは違和感がありますね。
この点数で、第一講で学んだヒストグラムを作ってみるとこのようになります。
0点が他のデータの分布より大きく外れていることが分かりますね。
このような数値を統計では「外れ値」といいます。
そして外れ値の影響を大きく受けてしまうのが平均値の特徴です。
ただ一方で、以下の今まで見てきた2つのデータにおいて
中央値はどちらも78となります。
このような数値を統計では「外れ値」といいます。
そして外れ値の影響を大きく受けてしまうのが平均値の特徴です。
ただ一方で、以下の今まで見てきた2つのデータにおいて
中央値はどちらも78となります。
これは1人の点数が63点であろうが0点であろうが中央値には一切影響していないということなので、逆に言えば中央値は全ての数値を反映できているわけではない、ということになります。
このように平均値と中央値にはそれぞれの特徴がありますが、そのどちらが良いとかどちらが優れているという話ではなく、あくまで性質の違いなのでそれについて理解しておくことが重要でしょう。
また平均値を見るときは外れ値がないか確認することが重要です。
よく企業ごとの平均年収という数値がありますが、例えば同じ平均年収600万円だとしても一部社員が非常に高額な報酬を貰っている、などのケースもあるでしょう。
平均値にしても中央値にしてもあくまで代表値の一つとして、その概念を理解し、データに惑わされないことが重要です。
このように平均値と中央値にはそれぞれの特徴がありますが、そのどちらが良いとかどちらが優れているという話ではなく、あくまで性質の違いなのでそれについて理解しておくことが重要でしょう。
また平均値を見るときは外れ値がないか確認することが重要です。
よく企業ごとの平均年収という数値がありますが、例えば同じ平均年収600万円だとしても一部社員が非常に高額な報酬を貰っている、などのケースもあるでしょう。
平均値にしても中央値にしてもあくまで代表値の一つとして、その概念を理解し、データに惑わされないことが重要です。
4、まとめ
さて、今回は混同されがちな平均値と中央値の違いについて見てきました。
今までの内容を振り返ってみましょう。
・平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のこと
・中央値とは複数のデータを小さい順番で並べた時に中央に位置する値のこと
・平均値は外れ値の影響を受けやすい
・中央値は全ての数値を反映しているわけではない
平均値と中央値の違いについて理解して、データを正しく見て頂ければと思います。
ここまで読んで頂きありがとうございました!
今までの内容を振り返ってみましょう。
・平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のこと
・中央値とは複数のデータを小さい順番で並べた時に中央に位置する値のこと
・平均値は外れ値の影響を受けやすい
・中央値は全ての数値を反映しているわけではない
平均値と中央値の違いについて理解して、データを正しく見て頂ければと思います。
ここまで読んで頂きありがとうございました!
セルフ型ネットリサーチツールのご案内
当記事を運営する株式会社マーケティングアプリケーションズは、セルフ型のリサーチツール「Surveroid(サーベロイド)」をご提供しております。アンケートをする際に必要になる、アンケート画面作成機能、配信機能、集計機能を一通りそろえており、リサーチ初心者の方にも多くご活用いただいております。意思決定の手段としてアンケートに興味がある方は下記のボタンより是非サービスサイトをご確認ください。
27 件