目次
データ集計の業務中、他の数値から大きく離れた極端なデータを見つけ、「そのまま計算に含めてよいのか、削除すべきか」と対応に迷った経験はありませんか?統計の専門知識がないと、入力ミスなのか意味のある数値なのか判断が難しく、誤ったデータ処理をしてしまう不安もあるでしょう。
この記事では、「外れ値」の正確な定義や、原因が明確な「異常値」との違いを分かりやすく解説します。さらに、データに潜む極端な数値を見つける具体的な調べ方から、状況に応じた適切な処理方法まで詳しく紹介します。
この記事では、「外れ値」の正確な定義や、原因が明確な「異常値」との違いを分かりやすく解説します。さらに、データに潜む極端な数値を見つける具体的な調べ方から、状況に応じた適切な処理方法まで詳しく紹介します。

外れ値(はずれち)とは?
データ集計の過程で、全体の傾向からポツンと離れた極端な数値に遭遇することは珍しくないでしょう。まずは、この極端な数値が持つ本来の意味や、よく似た用語との違いについて整理していきましょう。
| 項目 | 定義 | 発生原因の例 | 分析時の基本的な扱い方 |
|---|---|---|---|
| 外れ値 | 他の大多数のデータから著しく離れた極端な値 | 自然なばらつき、特殊な事象、入力ミスなど | 原因に応じて除外・修正・保持を判断する |
| 異常値 | 外れ値の中でも、原因が明確な誤ったデータ | 人為的な入力ミス、機器の故障、測定漏れなど | 実態を反映していないため、原則として除外や修正を行う |
外れ値の定義とデータ分析における意味
データ分析を進める中で、他の大多数の観測値から著しく離れた極端な値を見つけることがあるでしょう。
このようなデータを、統計学では「外れ値(はずれち)」と呼びます。
外れ値が含まれると、平均値だけでなく、データ全体の傾向や相関関係、分析結果の解釈に大きな影響を与える場合があります。そのため、分析を行う際は、外れ値がどのような原因で発生しているのか、結果にどの程度影響するのかを確認することが重要です。
外れ値の存在を正しく把握することは、データ分析の精度や信頼性を高める第一歩と言えるでしょう。
このようなデータを、統計学では「外れ値(はずれち)」と呼びます。
外れ値が含まれると、平均値だけでなく、データ全体の傾向や相関関係、分析結果の解釈に大きな影響を与える場合があります。そのため、分析を行う際は、外れ値がどのような原因で発生しているのか、結果にどの程度影響するのかを確認することが重要です。
外れ値の存在を正しく把握することは、データ分析の精度や信頼性を高める第一歩と言えるでしょう。
外れ値と異常値(エラー)の違い
外れ値と似た言葉に、「異常値」があります。
どちらも通常のデータから大きく離れた数値を指す場面で使われますが、実務では区別して扱われるケースが一般的です。
外れ値とは、ほかのデータから著しく離れた値のことを指します。実際に発生した正しいデータであっても、極端な数値であれば外れ値として扱われる場合があります。
一方、異常値は、入力ミスや測定機器の故障など、原因が明確な誤データを指すことが多いです。例えば、本来「100」と入力すべきところを「1000」と誤入力したケースなどが該当します。
つまり、外れ値の中には「意味のある極端な値」と「単なるエラー」が混在している可能性があります。データ分析では、その数値が本当に発生したものなのか、誤りなのかを見極めたうえで、除外・修正・保持を判断することが重要です。
どちらも通常のデータから大きく離れた数値を指す場面で使われますが、実務では区別して扱われるケースが一般的です。
外れ値とは、ほかのデータから著しく離れた値のことを指します。実際に発生した正しいデータであっても、極端な数値であれば外れ値として扱われる場合があります。
一方、異常値は、入力ミスや測定機器の故障など、原因が明確な誤データを指すことが多いです。例えば、本来「100」と入力すべきところを「1000」と誤入力したケースなどが該当します。
つまり、外れ値の中には「意味のある極端な値」と「単なるエラー」が混在している可能性があります。データ分析では、その数値が本当に発生したものなのか、誤りなのかを見極めたうえで、除外・修正・保持を判断することが重要です。
外れ値が生じる主な原因
データのなかに極端な数値が混ざり込む背景には、大きく分けて2つのパターンが存在することが多いです。
なぜその数値が発生したのかを知ることで、正しい判断を下すための材料が揃うでしょう。
なぜその数値が発生したのかを知ることで、正しい判断を下すための材料が揃うでしょう。
| 原因の分類 | 具体的な発生要因の例 | データとしての価値 | 対処の方向性 |
|---|---|---|---|
| 人為的・機械的要因 | 手入力による桁間違い、センサーの一時的な故障、転記ミス | 実態を反映しておらず価値は低い | ノイズとして除外、または正しい値に修正する |
| 自然なばらつき要因 | 特異な購買行動、予期せぬトレンドの発生 | 新たな知見を得るための価値が高い | ビジネスのヒントとして、そのまま残して分析する |
測定ミスや入力ミスによって生じる
データの中に極端な数値が混ざる原因として、まず挙げられるのが人間による人為的なミスやシステムの不具合です。
キーボードで数値を手入力する際に誤って桁数を多く打ち込んでしまったり、アンケート回答時の誤操作や入力ミスするケースが該当します。
また、データを計測するセンサーや機器が一時的な不具合を起こし、通常ではあり得ない数値を記録してしまうこともゼロではありません。このような原因で生じた数値は、現実の実態を正しく反映していないため、そのまま分析に用いると正確な結論を導き出せなくなるリスクがあります。
分析の精度を保つためには、こうした人為的または機械的なミスを早期に発見する仕組みが必要なのです。
キーボードで数値を手入力する際に誤って桁数を多く打ち込んでしまったり、アンケート回答時の誤操作や入力ミスするケースが該当します。
また、データを計測するセンサーや機器が一時的な不具合を起こし、通常ではあり得ない数値を記録してしまうこともゼロではありません。このような原因で生じた数値は、現実の実態を正しく反映していないため、そのまま分析に用いると正確な結論を導き出せなくなるリスクがあります。
分析の精度を保つためには、こうした人為的または機械的なミスを早期に発見する仕組みが必要なのです。
データ本来の自然なばらつきに影響される
ミスやエラーによるものとは異なり、実際に起きた事象として自然に極端な数値が現れるケースも存在します。
特定の顧客層による突出した購買行動や、通常とは異なる頻度でのアクセス行動などは、一般的な層とは大きく異なる数値を示しがちです。特に、利用者数の多いサービスや大規模データでは、一定数の極端な行動が自然に発生することがあります。
実際に存在している正しいデータであるため、異常値として安易に処理するのは避けましょう。むしろ、このような極端な数値の中に、新しい顧客層の開拓や隠れたニーズの発見につながる重要なヒントが隠されていることもあるのです。ミスによるものか、それとも意味のある極端な数値なのかを見極めることが、データ分析担当者の腕の見せ所とも言えるでしょう。
【関連記事】データ理解のための分析手法とは?実際のアンケートデータを用いて分析の流れを紹介-目的ベースのデータ分析①
特定の顧客層による突出した購買行動や、通常とは異なる頻度でのアクセス行動などは、一般的な層とは大きく異なる数値を示しがちです。特に、利用者数の多いサービスや大規模データでは、一定数の極端な行動が自然に発生することがあります。
実際に存在している正しいデータであるため、異常値として安易に処理するのは避けましょう。むしろ、このような極端な数値の中に、新しい顧客層の開拓や隠れたニーズの発見につながる重要なヒントが隠されていることもあるのです。ミスによるものか、それとも意味のある極端な数値なのかを見極めることが、データ分析担当者の腕の見せ所とも言えるでしょう。
【関連記事】データ理解のための分析手法とは?実際のアンケートデータを用いて分析の流れを紹介-目的ベースのデータ分析①

外れ値を見つけるための具体的な調べ方
膨大なデータの中から、目視だけで極端な数値を見つけ出すのは困難でしょう。ここでは、効率的かつ客観的に外れ値を特定するための代表的な手法を紹介します。
| 検出手法の名称 | 特徴と仕組み | メリット | どのような場面に適しているか |
|---|---|---|---|
|
箱ひげ図(IQR)
|
データを四等分し、中心からの広がりを基準に判定する | グラフとして視覚的に分かりやすく、計算が比較的シンプルである | データ全体の分布を素早く把握したい場面 |
|
スミルノフ・グラブス検定
|
平均値からの距離をもとに、確率的な珍しさを判定する | 統計的な裏付けがあり、客観的な判断基準を提示できる | 分析結果に対して厳密な説得力が求められる場面 |
|
散布図
|
二つの変数を縦軸と横軸に取り、点の位置関係から特定する | 項目同士の関係性から逸脱したデータを直感的に発見できる | 複数の要因が絡むデータの関係性をチェックしたい場面 |
【関連記事】D.I.Y.リサーチ入門(14)
「箱ひげ図」を使い視覚的に分布を確認する
データの中に潜む極端な数値を効率よく見つけるには、四分位範囲という考え方を用いた箱ひげ図がよく用いられます。データを小さい順から大きい順に並べ、全体を四等分した際のデータの広がりを計算し、その範囲から大きく逸脱しているものを特定する手法です。一般的には、中心部分のデータが収まる範囲から一定の距離以上離れたものを外れ値として扱います。身近な表計算ソフトでも専用のグラフ機能を使って簡単に作成できる手法です。視覚的にデータの散らばり具合を直感で把握できるため、統計の専門知識が少ない初心者の方にも取り組みやすいアプローチと言えるでしょう。
「スミルノフ・グラブス検定」などを用いて客観的に判定する
グラフを用いた視覚的な確認だけでなく、統計学の計算式を用いて客観的に外れ値かどうかを判断する方法もあります。
代表的な手法の一つが、「スミルノフ・グラブス検定」です。
これは、データの平均値から極端に離れた値に注目し、その値が統計的に見てどの程度珍しいのかを判定する手法です。数式を用いて判定を行うため、視覚的な確認よりも客観的な基準を示しやすい特徴があります。
そのため、チーム内やクライアントに対して分析結果の妥当性を説明したい場面でも活用されています。
ただし、正規分布を前提とした検定であるため、データの種類や分布によっては適用が難しいケースもあります。
【関連記事】基礎的な統計学の考え方② 平均値・中央値・最頻値の使い分けは?選び方、計算例を紹介
代表的な手法の一つが、「スミルノフ・グラブス検定」です。
これは、データの平均値から極端に離れた値に注目し、その値が統計的に見てどの程度珍しいのかを判定する手法です。数式を用いて判定を行うため、視覚的な確認よりも客観的な基準を示しやすい特徴があります。
そのため、チーム内やクライアントに対して分析結果の妥当性を説明したい場面でも活用されています。
ただし、正規分布を前提とした検定であるため、データの種類や分布によっては適用が難しいケースもあります。
【関連記事】基礎的な統計学の考え方② 平均値・中央値・最頻値の使い分けは?選び方、計算例を紹介
「散布図」から変数同士の関係性を把握する
一つの項目のデータだけを見るのではなく、二つの項目間の関係性から極端な数値を見つけ出したい場合には、散布図が活躍するでしょう。
縦軸と横軸にそれぞれ別の項目を設定し、データを点として打っていくことで、全体の相関関係からポツンと離れた場所にあるデータがわかるようになります。
二つの異なる項目の関係性など、複数の観点からデータの妥当性を検証したいときにおすすめのアプローチです。
単一のデータだけを見ていては気づけなかった、関係性の観点からの外れ値を発見できる可能性が高まります。
縦軸と横軸にそれぞれ別の項目を設定し、データを点として打っていくことで、全体の相関関係からポツンと離れた場所にあるデータがわかるようになります。
二つの異なる項目の関係性など、複数の観点からデータの妥当性を検証したいときにおすすめのアプローチです。
単一のデータだけを見ていては気づけなかった、関係性の観点からの外れ値を発見できる可能性が高まります。
外れ値が見つかった際の具体的な処理方法
極端な数値を特定した後は、それをデータとしてどのように扱うかを決定しましょう。
目的や原因に合わせて、適切なアプローチを選択していく必要があります。
目的や原因に合わせて、適切なアプローチを選択していく必要があります。
| 処理方法の名称 | 処理の概要 | 主なメリット | 注意すべきデメリットや懸念点 |
|---|---|---|---|
| 除外(削除) | 該当するデータを分析対象から完全に消去する | ノイズがなくなり、全体の傾向を正確に把握しやすくなる | データ件数が減少し、貴重な情報を見落とすリスクがある |
| 修正(置換) | 平均値や中央値、正しい推測値に置き換える | データ件数を維持したまま分析を進めることができる | 置き換えた値が実態と異なり、人為的なバイアスがかかる恐れがある |
| そのまま残す | 手を加えず、元のデータのまま分析を実行する | 極端なデータが持つ本来の意味や新しい兆しを発見できる | 平均値などの統計指標が大きく歪む原因となる |
外れ値をデータから除外する(削除)
データの中に極端な数値を見つけた場合、明らかな入力ミスや測定機器のエラーであると確認できれば、分析対象から除外することが一般的な対応となります。
誤ったデータを含めたまま計算を進めてしまうと、平均値が大きく引っ張られ、間違った結論を導く原因になってしまいます。
ただし、自分にとって都合の悪いデータを無条件に消していくこととは異なります。除外を決断する際には、なぜその数値がエラーだと判断したのかという明確な理由を記録に残しておくことが、後々のトラブルを防ぐための重要なポイントとなるでしょう。
誤ったデータを含めたまま計算を進めてしまうと、平均値が大きく引っ張られ、間違った結論を導く原因になってしまいます。
ただし、自分にとって都合の悪いデータを無条件に消していくこととは異なります。除外を決断する際には、なぜその数値がエラーだと判断したのかという明確な理由を記録に残しておくことが、後々のトラブルを防ぐための重要なポイントとなるでしょう。
外れ値を適切な数値に修正する(置換)
極端な数値を除外してデータを減らすのではなく、意味のある適切な数値に置き換えるという選択肢もあります。
他の記録などから元の正しいデータが推測できる場合はその値に修正し、どうしても推測できない場合は、データ全体の中央値など、極端な値の影響を受けにくい統計値で補完するというアプローチです。
収集したデータ全体の件数が少なく、一つでも除外してしまうと分析の信憑性が下がってしまうような場面で採用されることがある手法です。欠損を生まずにデータを活用できる一方で、置き換えた数値が必ずしも真実とは限らないため、分析結果の解釈には慎重な姿勢が求められます。
他の記録などから元の正しいデータが推測できる場合はその値に修正し、どうしても推測できない場合は、データ全体の中央値など、極端な値の影響を受けにくい統計値で補完するというアプローチです。
収集したデータ全体の件数が少なく、一つでも除外してしまうと分析の信憑性が下がってしまうような場面で採用されることがある手法です。欠損を生まずにデータを活用できる一方で、置き換えた数値が必ずしも真実とは限らないため、分析結果の解釈には慎重な姿勢が求められます。
外れ値をそのまま残して分析対象とする
原因がミスによるものではなく、実際に起きた正しい数値であると判断できた場合は、あえてそのまま残して分析を行うのも正しい対応の一つでしょう。
極端な数値の裏には、新しいトレンドの兆しや、優良顧客特有の行動パターンなど、ビジネスにおいて重要なヒントが隠されているケースもあるのです。極端な数値がなぜ発生したのか、どのような背景があるのかを深掘りすることで、通常の平均的なデータからは決して得られない、画期的なアイデアの種を獲得できる可能性があります。
一方で、外れ値を含めたまま分析すると、平均値や予測モデルに大きな影響を与える場合もあります。
目的に応じて、分析対象に含めるか慎重に判断することが重要です。
極端な数値の裏には、新しいトレンドの兆しや、優良顧客特有の行動パターンなど、ビジネスにおいて重要なヒントが隠されているケースもあるのです。極端な数値がなぜ発生したのか、どのような背景があるのかを深掘りすることで、通常の平均的なデータからは決して得られない、画期的なアイデアの種を獲得できる可能性があります。
一方で、外れ値を含めたまま分析すると、平均値や予測モデルに大きな影響を与える場合もあります。
目的に応じて、分析対象に含めるか慎重に判断することが重要です。

【データ分析担当者必見!】外れ値の活用事例
外れ値は、単に「削除すべき異常データ」として扱われるとは限りません。
ほかのデータから大きく離れた値の中には、顧客行動の特徴やサービス改善のヒントが隠れている場合があります。
ここでは、ビジネスの現場で外れ値がどのように活用されているのか、具体的な例を紹介します。
ほかのデータから大きく離れた値の中には、顧客行動の特徴やサービス改善のヒントが隠れている場合があります。
ここでは、ビジネスの現場で外れ値がどのように活用されているのか、具体的な例を紹介します。
ECサイト:一部ユーザーの異常に高い購入額から優良顧客を発見
あるECサイトでは、ユーザーごとの購入金額を分析した際に、平均購入額を大きく上回る一部のユーザーが確認されました。当初は入力ミスや不正利用の可能性も疑われましたが、詳細に分析したところ、特定ジャンルの商品を定期的にまとめ買いしている優良顧客層であることが判明しました。
企業はこの外れ値に着目したことで、対象ユーザー向けの限定クーポンや会員施策を展開し、リピート購入率やLTV(顧客生涯価値)の向上につなげています。
このように、平均から大きく外れたデータであっても、単純に除外するのではなく背景を分析することで、新たなマーケティング施策や顧客理解に役立つケースがあります。
企業はこの外れ値に着目したことで、対象ユーザー向けの限定クーポンや会員施策を展開し、リピート購入率やLTV(顧客生涯価値)の向上につなげています。
このように、平均から大きく外れたデータであっても、単純に除外するのではなく背景を分析することで、新たなマーケティング施策や顧客理解に役立つケースがあります。
アンケート分析:極端に低い満足度回答から重大課題を発見
顧客満足度調査では、多くの回答者が「満足」「やや満足」と回答していた一方で、一部の回答者から極端に低い評価が寄せられていました。
平均値だけを見ると全体として高評価に見えていましたが、企業はこの外れ値に注目し、自由回答の内容を詳しく確認しました。その結果、特定の利用シーンにおいて操作しづらさやサポート対応への不満が集中していることが判明しました。
その後、対象機能の改善やサポート体制の見直しを行ったことで、顧客満足度の改善につながっています。
アンケート分析では、平均値や多数派の意見だけで判断すると、重要な課題を見落とす可能性があります。極端な回答の背景を分析することで、サービス改善のヒントを得られる場合もあるため、外れ値を適切に扱うことが重要です。
平均値だけを見ると全体として高評価に見えていましたが、企業はこの外れ値に注目し、自由回答の内容を詳しく確認しました。その結果、特定の利用シーンにおいて操作しづらさやサポート対応への不満が集中していることが判明しました。
その後、対象機能の改善やサポート体制の見直しを行ったことで、顧客満足度の改善につながっています。
アンケート分析では、平均値や多数派の意見だけで判断すると、重要な課題を見落とす可能性があります。極端な回答の背景を分析することで、サービス改善のヒントを得られる場合もあるため、外れ値を適切に扱うことが重要です。
まとめ
この記事の要点をまとめます。
・外れ値とはデータ全体の傾向から著しく離れた極端な数値である
・原因がはっきりと特定できる誤ったデータは異常値と呼ばれる
・箱ひげ図や統計的な検定を用いることで客観的に外れ値を見つけられる
・見つけた外れ値は原因に応じて除外や修正などの処理を行う
・ビジネス現場では外れ値を故障検知や新たな兆しの発見に活用している
データに潜む極端な数値を正しく扱い、ビジネスの意思決定や説得力のある分析に活かしていきましょう。
・外れ値とはデータ全体の傾向から著しく離れた極端な数値である
・原因がはっきりと特定できる誤ったデータは異常値と呼ばれる
・箱ひげ図や統計的な検定を用いることで客観的に外れ値を見つけられる
・見つけた外れ値は原因に応じて除外や修正などの処理を行う
・ビジネス現場では外れ値を故障検知や新たな兆しの発見に活用している
データに潜む極端な数値を正しく扱い、ビジネスの意思決定や説得力のある分析に活かしていきましょう。
セルフ型ネットリサーチツール「Suveroid」のご紹介
「Surveroid(サーベロイド)」は、アンケート調査からインタビュー調査まで1つのツールで完結ができるセルフ型のリサーチサービスです。
『アンケートの作成~配信~集計』をご自身で実施することができ、意思決定のためのデータをスピーディーに取得することができます。市場調査や、新商品のニーズの掘り出しを目的とした調査など、定量と定性の両面から調査をご実施いただけますので、ご興味のある方はぜひお問い合わせください。
◆こんな方におすすめ◆
・自社でスピーディーに市場調査を行いたい
・初めて調査を実施するので、設計から結果確認まで一括で完結したい
・定量・定性の両方を低コストで試したい
『アンケートの作成~配信~集計』をご自身で実施することができ、意思決定のためのデータをスピーディーに取得することができます。市場調査や、新商品のニーズの掘り出しを目的とした調査など、定量と定性の両面から調査をご実施いただけますので、ご興味のある方はぜひお問い合わせください。
◆こんな方におすすめ◆
・自社でスピーディーに市場調査を行いたい
・初めて調査を実施するので、設計から結果確認まで一括で完結したい
・定量・定性の両方を低コストで試したい
49 件
サーベロイドでリサーチをはじめませんか?