目次
前回は度数分布表とヒストグラムについて解説しましたが、第2回は平均値、中央値、最頻値について解説していきます。
この記事を読むと、代表値それぞれの違いと使い分け方を理解することが出来ます。
この記事を読むと、代表値それぞれの違いと使い分け方を理解することが出来ます。
平均値とは何か?
平均値とは、ある複数のデータを全て足し上げた後、それをデータの個数で割った際に得られる数値のことです。
計算式に表すと下記となります。
平均値=データの合計÷データの個数
計算式に表すと下記となります。
平均値=データの合計÷データの個数
平均値の例
例えば、あるケーキ屋の曜日ごとの売上個数データから1週間の平均売上個数を出します。
この場合、平均値は以下の計算で求められます。
(89+62+78+62+48+70+100)÷7=72.7
よって、週の売上個数の平均は72.7個ということがわかります。
この場合、平均値は以下の計算で求められます。
(89+62+78+62+48+70+100)÷7=72.7
よって、週の売上個数の平均は72.7個ということがわかります。
中央値とは何か?
それではここからは中央値について見ていきましょう。
中央値とは複数のデータを小さい順番で並べた時に中央に位置する数値のことです。
中央値とは複数のデータを小さい順番で並べた時に中央に位置する数値のことです。
中央値の例
先ほどのケーキの売上個数を例に中央値を出す際は、小さい順に並べ直す必要があります。
並びかえると、「48,62,62,70,78,89,100」となります。
丁度中央に来る数字は「70」となり、中央値は「70」個ということがわかりました。
今回はデータの個数が奇数だったので、丁度真ん中の数字がわかりましたが、データの個数が偶数の場合は、中央に位置する2つのデータの平均が中央値となります。
例えば、「48,62,62,70,72,78,89,100」のようなデータの場合、真ん中にある「70」個と「72」個の平均である「71」個が中央値となります。
並びかえると、「48,62,62,70,78,89,100」となります。
丁度中央に来る数字は「70」となり、中央値は「70」個ということがわかりました。
今回はデータの個数が奇数だったので、丁度真ん中の数字がわかりましたが、データの個数が偶数の場合は、中央に位置する2つのデータの平均が中央値となります。
例えば、「48,62,62,70,72,78,89,100」のようなデータの場合、真ん中にある「70」個と「72」個の平均である「71」個が中央値となります。
最頻値とは何か?
最頻値とはデータの中で最も出現回数が多い値(最大の度数を持つ値)を指します。最も頻繁に出現する値は1つだけではない場合もあり、データ数が少ない(=どの値も1回しか出てこないなど)場合は、最頻値自体が意味をなさない場合もあります。
最頻値の例
先ほどの中央値と同様に、最頻値を確認する際も並び順を整えた方がわかりやすいです。最も登場回数が多い数字は「62」となるため、最頻値は「62」個ということがわかりました。
平均値と中央値って何が違うの?
ここまで平均値・中央値・最頻値の特徴について解説してきました。
どちらも代表値(データの特徴を表す値)という点では同じですが、何が違うのでしょうか。
ここまで見てきた曜日ごとの売上個数だと平均値は73個、中央値は70個となりほとんど差はありません。
では次に、以下の例を見てみましょう。
台風の影響でお客さんが全く来ず、木曜日の売上個数が0個になったとします。
この時の、中央値は70個のまま変わりません。
では平均点はどうでしょうか。
(0+89+62+78+62+0+70+100)÷7=65.8となります。
1週間のうち5日間は平均値越え(100個売りあげた曜日もある)のに平均売上個数が約66個となるのはとなってしまうのは違和感がありますね。
この点数で、第一講で学んだヒストグラムを作ってみるとこのようになります。
どちらも代表値(データの特徴を表す値)という点では同じですが、何が違うのでしょうか。
ここまで見てきた曜日ごとの売上個数だと平均値は73個、中央値は70個となりほとんど差はありません。
では次に、以下の例を見てみましょう。
台風の影響でお客さんが全く来ず、木曜日の売上個数が0個になったとします。
この時の、中央値は70個のまま変わりません。
では平均点はどうでしょうか。
(0+89+62+78+62+0+70+100)÷7=65.8となります。
1週間のうち5日間は平均値越え(100個売りあげた曜日もある)のに平均売上個数が約66個となるのはとなってしまうのは違和感がありますね。
この点数で、第一講で学んだヒストグラムを作ってみるとこのようになります。
0個が他のデータの分布より大きく外れていることが分かりますね。
このような数値を統計では「外れ値」といいます。
そして外れ値の影響を大きく受けてしまうのが平均値の特徴です。
一方で、以下の今まで見てきた2つのデータにおいて中央値はどちらも70となります。
これは売上個数が62個であろうが0個であろうが中央値には一切影響していないということなので、逆に言えば中央値は全ての数値を反映できているわけではない、ということになります。
このような数値を統計では「外れ値」といいます。
そして外れ値の影響を大きく受けてしまうのが平均値の特徴です。
一方で、以下の今まで見てきた2つのデータにおいて中央値はどちらも70となります。
これは売上個数が62個であろうが0個であろうが中央値には一切影響していないということなので、逆に言えば中央値は全ての数値を反映できているわけではない、ということになります。
このように平均値と中央値にはそれぞれの特徴がありますが、そのどちらが良いとかどちらが優れているという話ではなく、あくまで性質の違いなのでそれについて理解しておくことが重要でしょう。
また平均値を見るときは外れ値がないか確認することが重要です。
厚生労働省が発表している所得の分布状況を例にとって説明すると、日本人の平均所得金額は547万円となっておりますが、平均所得については、一般社員と役員のように所得差が大きい場合に影響を受けやすいため、平均値より中央値を代表値として用いた方が適切です。
平均値にしても中央値にしてもあくまで代表値の一つとして、その概念を理解し、データに惑わされないことが重要です。
また平均値を見るときは外れ値がないか確認することが重要です。
厚生労働省が発表している所得の分布状況を例にとって説明すると、日本人の平均所得金額は547万円となっておりますが、平均所得については、一般社員と役員のように所得差が大きい場合に影響を受けやすいため、平均値より中央値を代表値として用いた方が適切です。
平均値にしても中央値にしてもあくまで代表値の一つとして、その概念を理解し、データに惑わされないことが重要です。
via www.mhlw.go.jp
平均値・中央値・最頻値の用途の違い
データの特性を掴む際に指標として使われる平均値・中央値・最頻値ですが、データの個数やバラツキ具合によって見るべき値が変わります。どういうときに見るべきか、目的に応じて使い分けができるようにしておきましょう。
平均値は、データ全体やデータ間で比較を行いたい場合に使用します。マーケティング分析における基本的な指標の1つであるため、ある商品の入荷数を決める際に週平均でどれくらい売れているのかなどを参考にします。一方で、データに外れ値がある場合、平均値だけを見るとデータを誤って解釈する可能性があるため、そのようなときには中央値や最頻値も併せて確認します。また、最頻値は1つとは限らないためデータの代表値を確認することが難しい場合もあります。
データの外れ値やデータのバラツキなどに応じて、それぞれの指標を活用することで、膨大なデータの特徴を正確に捉えやすくなるでしょう。
データの外れ値やデータのバラツキなどに応じて、それぞれの指標を活用することで、膨大なデータの特徴を正確に捉えやすくなるでしょう。
適切な代表値の選び方
平均値・中央値・最頻値のどの代表値を使うかを判断する際には、ヒストグラムを活用すると便利です。ヒストグラムの分布によりデータの偏りや外れ値の有無を確認できるため、分布の型の違いで適切な代表値を選択できます。
具体的には以下のステップで進めましょう。
具体的には以下のステップで進めましょう。
①ヒストグラムを作成し、データの分布を把握する
ヒストグラムを作成することで、データの代表値を選ぶ手助けができます。ヒストグラムはデータを範囲ごとに分け、それぞれの範囲に属するデータの数を棒グラフで示します。これにより、データの集中している部分を視覚的に把握でき、平均値や中央値、最頻値といった代表値を選ぶ際の参考にすることが出来ます。
②上記を元に代表値を選ぶ
ヒストグラムを作ると一般的にデータの分布は、 1.左右対称のきれいな山型 2.左右対称ではない型 の2種類に大分できます。代表値はこの分布の違いで選択できます。
1.左右対称のきれいな山型分布の場合
ヒストグラムがきれいな山形になっている場合、代表値は「平均値」を選びましょう。
きれいな山型の場合は、平均値と中央値、最頻値がほぼ似た数値となります。データに偏りや外れ値が認められないため、データ間の比較を行いやすい平均値を代表値とするのが一般的です。
また最頻値は1つとは限らないため、きれいな山型が複数形成されることもあります。この場合はそれぞれの山ごとにデータの分布を確認して、データの中心的な傾向を表す指標を選択しましょう。
きれいな山型の場合は、平均値と中央値、最頻値がほぼ似た数値となります。データに偏りや外れ値が認められないため、データ間の比較を行いやすい平均値を代表値とするのが一般的です。
また最頻値は1つとは限らないため、きれいな山型が複数形成されることもあります。この場合はそれぞれの山ごとにデータの分布を確認して、データの中心的な傾向を表す指標を選択しましょう。
2.左右対称ではない型の場合
一方左右対称ではなく山型となっていないヒストグラムの場合の代表値は、「中央値」や「最頻値」を採用しましょう。
左右対称でなくきれいな山型になっていないということは、データの偏りや外れ値があることを示しています。たとえばある企業の年収分布で平均値が600万円だとしても、人数が多い一般社員の200万円~400万円の間に中央値や最頻値が存在します。高所得者の年収に影響を受けて平均値が高くなるため、この場合は中央値や最頻値を代表値として選ぶのが一般的です。
左右対称でなくきれいな山型になっていないということは、データの偏りや外れ値があることを示しています。たとえばある企業の年収分布で平均値が600万円だとしても、人数が多い一般社員の200万円~400万円の間に中央値や最頻値が存在します。高所得者の年収に影響を受けて平均値が高くなるため、この場合は中央値や最頻値を代表値として選ぶのが一般的です。
まとめ
さて、今回は代表値の違いについて見てきました。
今までの内容を振り返ってみましょう。
・平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のこと
・中央値とは複数のデータを小さい順番で並べた時に中央に位置する値のこと
・最頻値とはデータの中で最も出現頻度が高い値のこと
・平均値は外れ値の影響を受けやすい
・中央値は全ての数値を反映しているわけではない
・それぞれの指標を用いてデータを捉える
各代表値の特性を理解し、データを正しく見て頂ければと思います。
今までの内容を振り返ってみましょう。
・平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のこと
・中央値とは複数のデータを小さい順番で並べた時に中央に位置する値のこと
・最頻値とはデータの中で最も出現頻度が高い値のこと
・平均値は外れ値の影響を受けやすい
・中央値は全ての数値を反映しているわけではない
・それぞれの指標を用いてデータを捉える
各代表値の特性を理解し、データを正しく見て頂ければと思います。
セルフ型ネットリサーチツールのご案内
当記事を運営する株式会社マーケティングアプリケーションズは、セルフ型のリサーチツール「Surveroid(サーベロイド)」をご提供しております。アンケートをする際に必要になる、アンケート画面作成機能、配信機能、集計機能を一通りそろえており、リサーチ初心者の方にも多くご活用いただいております。意思決定の手段としてアンケートに興味がある方は下記のボタンより是非サービスサイトをご確認ください。
サーベロイドでリサーチをはじめませんか?
-
サービス概要・事例がわかる資料ダウンロード
-
ターゲットの声がすぐに聴ける登録してみる(無料)
44 件