平均値とは?中央値・最頻値との用途の違い、計算例を紹介

23 2024.01

統計学

平均値とは?中央値・最頻値との用途の違い、計算例を紹介
前回は度数分布表とヒストグラムについて解説しましたが、第2回は平均値、中央値、最頻値について解説していきます。
この記事を読むと、代表値それぞれの違いと使い分け方を理解することが出来ます。

平均値とは何か?

平均値とは、ある複数のデータを全て足し上げた後、それをデータの個数で割った際に得られる数値のことです。
計算式に表すと下記となります。
平均値=データの合計÷データの個数

平均値の例

曜日ごとのケーキの売上個数

曜日ごとのケーキの売上個数

例えば、あるケーキ屋の曜日ごとの売上個数データから1週間の平均売上個数を出します。
この場合、平均値は以下の計算で求められます。
(89+62+78+62+48+70+100)÷7=72.7

よって、週の売上個数の平均は72.7個ということがわかります。

中央値とは何か?

それではここからは中央値について見ていきましょう。
中央値とは複数のデータを小さい順番で並べた時に中央に位置する数値のことです。

中央値の例

曜日ごとのケーキの売上個数(昇順に並び替え)

曜日ごとのケーキの売上個数(昇順に並び替え)

先ほどのケーキの売上個数を例に中央値を出す際は、小さい順に並べ直す必要があります。
並びかえると、「48,62,62,70,78,89,100」となります。
丁度中央に来る数字は「70」となり、中央値は「70」個ということがわかりました。

今回はデータの個数が奇数だったので、丁度真ん中の数字がわかりましたが、データの個数が偶数の場合は、中央に位置する2つのデータの平均が中央値となります。
例えば、「48,62,62,70,72,78,89,100」のようなデータの場合、真ん中にある「70」個と「72」個の平均である「71」個が中央値となります。

最頻値とは何か?

最頻値とはデータの中で最も出現回数が多い値(最大の度数を持つ値)を指します。最も頻繁に出現する値は1つだけではない場合もあり、データ数が少ない(=どの値も1回しか出てこないなど)場合は、最頻値自体が意味をなさない場合もあります。

最頻値の例

先ほどの中央値と同様に、最頻値を確認する際も並び順を整えた方がわかりやすいです。最も登場回数が多い数字は「62」となるため、最頻値は「62」個ということがわかりました。
平均値と中央値って何が違うの?

平均値と中央値って何が違うの?

ここまで平均値・中央値・最頻値の特徴について解説してきました。
どちらも代表値(データの特徴を表す値)という点では同じですが、何が違うのでしょうか。

ここまで見てきた曜日ごとの売上個数だと平均値は73個、中央値は70個となりほとんど差はありません。

では次に、以下の例を見てみましょう。
台風の影響でお客さんが全く来ず、木曜日の売上個数が0個になったとします。

この時の、中央値は70個のまま変わりません。
では平均点はどうでしょうか。
(0+89+62+78+62+0+70+100)÷7=65.8となります。
1週間のうち5日間は平均値越え(100個売りあげた曜日もある)のに平均売上個数が約66個となるのはとなってしまうのは違和感がありますね。

この点数で、第一講で学んだヒストグラムを作ってみるとこのようになります。
ヒストグラム

ヒストグラム

0個が他のデータの分布より大きく外れていることが分かりますね。

このような数値を統計では「外れ値」といいます。
そして外れ値の影響を大きく受けてしまうのが平均値の特徴です。

一方で、以下の今まで見てきた2つのデータにおいて中央値はどちらも70となります。
これは売上個数が62個であろうが0個であろうが中央値には一切影響していないということなので、逆に言えば中央値は全ての数値を反映できているわけではない、ということになります。
このように平均値と中央値にはそれぞれの特徴がありますが、そのどちらが良いとかどちらが優れているという話ではなく、あくまで性質の違いなのでそれについて理解しておくことが重要でしょう。

また平均値を見るときは外れ値がないか確認することが重要です。
厚生労働省が発表している所得の分布状況を例にとって説明すると、日本人の平均所得金額は547万円となっておりますが、平均所得については、一般社員と役員のように所得差が大きい場合に影響を受けやすいため、平均値より中央値を代表値として用いた方が適切です。
平均値にしても中央値にしてもあくまで代表値の一つとして、その概念を理解し、データに惑わされないことが重要です。
所得の分布状況

所得の分布状況

平均値・中央値・最頻値の用途の違い

平均値・中央値・最頻値の用途の違い

データの特性を掴む際に指標として使われる平均値・中央値・最頻値ですが、データの個数やバラツキ具合によって見るべき値が変わります。どういうときに見るべきか、目的に応じて使い分けができるようにしておきましょう。
平均値・中央値・最頻値の用途の違い
平均値は、データ全体やデータ間で比較を行いたい場合に使用します。マーケティング分析における基本的な指標の1つであるため、ある商品の入荷数を決める際に週平均でどれくらい売れているのかなどを参考にします。一方で、データに外れ値がある場合、平均値だけを見るとデータを誤って解釈する可能性があるため、そのようなときには中央値や最頻値も併せて確認します。また、最頻値は1つとは限らないためデータの代表値を確認することが難しい場合もあります。
データの外れ値やデータのバラツキなどに応じて、それぞれの指標を活用することで、膨大なデータの特徴を正確に捉えやすくなるでしょう。

まとめ

さて、今回は代表値の違いについて見てきました。
今までの内容を振り返ってみましょう。
・平均値とは複数のデータを全て足し上げた後、そのデータの個数で割った際に得られる数値のこと
・中央値とは複数のデータを小さい順番で並べた時に中央に位置する値のこと
・最頻値とはデータの中で最も出現頻度が高い値のこと
・平均値は外れ値の影響を受けやすい
・中央値は全ての数値を反映しているわけではない
・それぞれの指標を用いてデータを捉える

各代表値の特性を理解し、データを正しく見て頂ければと思います。

セルフ型ネットリサーチツールのご案内

当記事を運営する株式会社マーケティングアプリケーションズは、セルフ型のリサーチツール「Surveroid(サーベロイド)」をご提供しております。アンケートをする際に必要になる、アンケート画面作成機能、配信機能、集計機能を一通りそろえており、リサーチ初心者の方にも多くご活用いただいております。意思決定の手段としてアンケートに興味がある方は下記のボタンより是非サービスサイトをご確認ください。
33 件

Related Contents