データを統計的に分析する際、様々な数式や分析手法が用いられます。ビジネスにおいては正しく分析したデータを元に、経営方針を決めたり、KPIを設定したりすることが重要です。分析手法の一つであるt検定は統計の中でも最重要分野の1つと言われており、統計的な視点によって物事を意思決定する際に役に立ちます。この記事ではt検定の特徴から、どのような場面で活用できるのかを徹底紹介します。
t検定とは何か?
t検定とは、2つのサンプルの平均値を比較する際に、統計的に意味のある差があるのかを判断する際に用いられる分析手法です。t分布を用いて母集団に関してデータの平均を取ることができ、大量の要素で構成された標準データも分析可能です。つまり、仮説が正しいと立証するために用いられる分布と言えます。
t検定で分かること
t検定を実施すると、2つの母平均についての差が統計学的に有意なのを判断しやすくなります。例えば、ある商品の売上を上げるために様々な施策を実施した際に、どの施策の効果があったのかをt検定を用いて確認することが出来ます。売上アップ施策の一つとして「店長オススメ!」などのPOP広告を付ける前と後での平均売上個数に変化があるのかを確認し、「広告を付けることで売上があがる」ことが言えるのかをt検定を用いて確認することが出来ます。
t検定はどのような時に使用する?
t検定は、上述の通り2つのサンプル平均値差を検討する際に用いられる手法となり、3つ以上のサンプルの平均値差を検討する場合には使用できません。
また、用いるデータが平均値を計算できる「間隔尺度」もしくは「比例尺度」である必要があります。(名義尺度や順序尺度は用いることが出来ません。)
また、用いるデータが平均値を計算できる「間隔尺度」もしくは「比例尺度」である必要があります。(名義尺度や順序尺度は用いることが出来ません。)
t検定を使用する条件
t検定を使用するときは主に3つの条件があるので以下の内容を確認してください。
・間隔や比率尺度である量的データである
・正規分布に従うこと
・等分散性であり比率を行う母集団間の分散が等しい
3つの条件のうち1つでも異なるのであれば、t検定で統計を求めるのは難しくなります。信頼性を確保するためにも条件を満たしているのかデータの確認が必要です。
・間隔や比率尺度である量的データである
・正規分布に従うこと
・等分散性であり比率を行う母集団間の分散が等しい
3つの条件のうち1つでも異なるのであれば、t検定で統計を求めるのは難しくなります。信頼性を確保するためにも条件を満たしているのかデータの確認が必要です。
対応のないデータの場合
例えば、ある商品を定番位置に加えレジ前に展開した店舗と、定番位置のみに展開した店舗で、売上個数に差があるのかを比較するとします。
このように、2つのサンプルの構成が異なる場合を、「対応のないデータ」などと呼びます。
このように、2つのサンプルの構成が異なる場合を、「対応のないデータ」などと呼びます。
レジ前に展開している店舗とそうでない店舗で売上個数に差があるのかを確認したいとします。
売上個数の平均値差を求めると、10.2個となり差があるようだとわかります。対応のないt検定では、母集団分散が等しいかをF検定などを用いて事前に確かめる必要がありますが、今回は母集団分散が等しいと仮定して説明を進めます。
2つのサンプルの母集団分散が等しい場合、tは以下の計算式によって求められます。
売上個数の平均値差を求めると、10.2個となり差があるようだとわかります。対応のないt検定では、母集団分散が等しいかをF検定などを用いて事前に確かめる必要がありますが、今回は母集団分散が等しいと仮定して説明を進めます。
2つのサンプルの母集団分散が等しい場合、tは以下の計算式によって求められます。
2つのサンプルをまとめた分散は、以下の計算式となります。
今回の例におけるtは以下のようになります。
t値が2.53ということがわかりましたので、有意差の有無を判断していきます。
対応のないt検定における自由度は2つのサンプルの合計値からマイナス2することによって求められます。今回の例における自由度は「8」になるため、t分布表を見ると、仮説検定の一般的な基準である5%(両側確率)におけるtは±2.306となるため、上記で計算したt値は5%での棄却域に含まれていることから、帰無仮説は棄却され、レジ前に展開している店舗としていない店舗では売上個数に差があるという仮説が5%水準で支持される(有意差あり)と判断することが出来ます。
対応のないt検定における自由度は2つのサンプルの合計値からマイナス2することによって求められます。今回の例における自由度は「8」になるため、t分布表を見ると、仮説検定の一般的な基準である5%(両側確率)におけるtは±2.306となるため、上記で計算したt値は5%での棄却域に含まれていることから、帰無仮説は棄却され、レジ前に展開している店舗としていない店舗では売上個数に差があるという仮説が5%水準で支持される(有意差あり)と判断することが出来ます。
対応があるデータの場合
ある商品において、「店長のオススメ」と書いたPOPを貼る前と後で売上個数に差があるのかを確認する場合、同じ商品におけるPOP掲載前後を比較するため、2つのサンプルの構成は同一である。このような場合においてt検定を行う場合、「対応があるデータ」などと呼ばれています。
対応のあるt検定の計算式は以下によって求められます。
対応のあるt検定における自由度はサンプル数マイナス1することで求められます。
サンプル差の分散は7.36、サンプルの平均差は3.8のため、tを計算すると2.80となり、自由度「4」のt分布表を確認すると、±2.776となるため、上記で計算したt値は5%での範囲に入っているため、有意差があることがわかりました。
サンプル差の分散は7.36、サンプルの平均差は3.8のため、tを計算すると2.80となり、自由度「4」のt分布表を確認すると、±2.776となるため、上記で計算したt値は5%での範囲に入っているため、有意差があることがわかりました。
まとめ
t検定をすることで、2つのサンプルの差が統計的に有意差があるのかを判断することが出来ます。また、「対応があるデータ」と「対応がないデータ」についての検定できますが、t検定を実施する前にどちらであるかを確認しておく必要があります。一方でt検定を行う場合、複雑な数式やグラフを用いる必要もあるため、t検定による統計は自分で計算するよりもツールを用いるのがおすすめです。得られたデータから正しい意思決定をするために、t検定をぜひ活用してみてください。
アンケートで市場調査を始めよう
セルフ型アンケート作成ツールの「Surveroid(サーベロイド)」は、500万人の保有モニタに対してターゲットを絞り込み、1万円(税別)からアンケートを取ることが出来ます。クイックかつローコストで消費者データの取得ができ、有意差検定が出来る「集計ツール」もついているため、データ取得後の意思決定までご自身で出来ます。初期費用・月額費はかからないため、リサーチを検討中の方は下記より資料請求・ご登録いただけます。
36 件