1、 推定の考え方を学んでみよう。
ここでは、推定の考え方をお伝えしようと思います。この考え方はアンケート調査においても関係してくるため、ぜひ覚えて頂ければと思います。
まず、私たちが日ごろ目にするデータというのは、多くの場合、あるデータセットの中における一部のみです。
どういうことでしょうか。
例えば、今までと同じように30人のクラスでテストを行ったとしましょう。
クラスによっては全員の点数を掲示することもあるかもしれませんが、基本的に個人が知ることのある点数としては、自分の点数や友人の点数など合計5人分くらいの点数ではないでしょうか。
この時、得られた5人分の点数から30人分の点数について何かの性質、特徴が推測できないか、と考えることが出来ますよね。
もしくは50メートル走のタイムでもよいでしょう。個人が得た幾つかのデータからクラス全員のタイム、または日本全国のタイムについて何かが推測できないか、これが推定の考え方の出発点になります。
つまり、推定とは観測された一部のデータから全体のデータを推測することなのです。
この考え方はアンケート調査でも重要になってきます。
例えば、あるお菓子メーカーが自社商品の認知率(知っているかどうか)を調べようとしている状況を考えてみましょう。
日本の人口である約1.2億人にひとりひとり認知を尋ねていけば完璧な認知率を知ることが出来ますね。
しかし、現実的にそんなことは出来るはずがありません。
なので、まず日本人全体から一部の人々だけを抽出し認知を尋ねます。
そして得られた回答から日本における認知率を推測するのです。
この時、日本人全体のことを母集団、抽出された一部の方々を標本と呼びます。
なお、この時、母集団の結果と標本の結果にはどうしても差が生じます。これを標本誤差と呼ぶのですが、紹介はまたの機会にさせて頂きますね。
まず、私たちが日ごろ目にするデータというのは、多くの場合、あるデータセットの中における一部のみです。
どういうことでしょうか。
例えば、今までと同じように30人のクラスでテストを行ったとしましょう。
クラスによっては全員の点数を掲示することもあるかもしれませんが、基本的に個人が知ることのある点数としては、自分の点数や友人の点数など合計5人分くらいの点数ではないでしょうか。
この時、得られた5人分の点数から30人分の点数について何かの性質、特徴が推測できないか、と考えることが出来ますよね。
もしくは50メートル走のタイムでもよいでしょう。個人が得た幾つかのデータからクラス全員のタイム、または日本全国のタイムについて何かが推測できないか、これが推定の考え方の出発点になります。
つまり、推定とは観測された一部のデータから全体のデータを推測することなのです。
この考え方はアンケート調査でも重要になってきます。
例えば、あるお菓子メーカーが自社商品の認知率(知っているかどうか)を調べようとしている状況を考えてみましょう。
日本の人口である約1.2億人にひとりひとり認知を尋ねていけば完璧な認知率を知ることが出来ますね。
しかし、現実的にそんなことは出来るはずがありません。
なので、まず日本人全体から一部の人々だけを抽出し認知を尋ねます。
そして得られた回答から日本における認知率を推測するのです。
この時、日本人全体のことを母集団、抽出された一部の方々を標本と呼びます。
なお、この時、母集団の結果と標本の結果にはどうしても差が生じます。これを標本誤差と呼ぶのですが、紹介はまたの機会にさせて頂きますね。
2、 検定とは
さて、前説では推定の考え方に触れました。続いては検定に触れてみましょう。
その中でも仮説検定について見ていきたいと思います。
仮説検定とは母集団において仮定された仮説を、標本を基に検証することです。
全く分からないですね。
ここでは、この定義は一度置いておきましょう。
コインを20回投げたとします。
コインの表、裏が出る確率はそれぞれ等しく50%です。
では、20回のうち18回が表だったとするとどうでしょう。
そんなことありえるのでしょうか。
その中でも仮説検定について見ていきたいと思います。
仮説検定とは母集団において仮定された仮説を、標本を基に検証することです。
全く分からないですね。
ここでは、この定義は一度置いておきましょう。
コインを20回投げたとします。
コインの表、裏が出る確率はそれぞれ等しく50%です。
では、20回のうち18回が表だったとするとどうでしょう。
そんなことありえるのでしょうか。
20回のうち、10回が表というのは普通ですよね。
11回、12回と増やしていっても十分に起こりえる話だと思います。
それが18回となるどうでしょう。。まあなかなか起こりえないだろうな、という気がしますね。
この時、コインが歪んでいるんじゃないかと皆さん疑われると思います。
そして、仮説検定とはとある仮説(この場合はコインが歪んでいるのではという仮説)が正しいのかどうか統計的に検証することなのです。
コインが歪んでいないとすると、表裏が出る確率はそれぞれ1/2なのでp=1/2と表すことが出来ます。
(Pはprobabilityの頭文字)
反対にコインが歪んでいるとすると、表裏が出る確率は1/2ではありません。しかしそれがいくつなのかは分からないため、p≠1/2としか表すことが出来ません。
これをまとめると以下のようになります。
コインは歪んでいない 帰無仮説H0:p=1/2
コインは歪んでいる 対立仮説H1:p≠1/2
帰無仮説、対立仮説という言葉は一旦無視してください。
この場合、証明したいのは対立仮説H1:p≠1/2です。
しかしp≠1/2ってどのように証明するのでしょうか。≠がついていることにより、とても難しく感じてしまいます。
そこで、逆に考えるんです。
ここが慣れるまでは難しいのですが、p=1/2を否定することが出来れば、p≠1/2であると言えるということです。
コインは歪んでいないものとして(つまりp=1/2として)、20回中18回、表が出る確率を考えてみましょう。
これは高校数学になりますが、計算してみると、0.000362、つまり0.0362%となり、数学的には非常にまれではあるものの起こり得ることが分かります。
この起こり得る、というのは数学的な話です。しかし統計学的には違います。
統計学では、まれなことは起こらないと考えます。つまり、帰無仮説H0:p=1/2は成立せず、対立仮説H1:p≠1/2が正しいことが分かるのです。
これが仮説検定の基本的な考え方となります。
11回、12回と増やしていっても十分に起こりえる話だと思います。
それが18回となるどうでしょう。。まあなかなか起こりえないだろうな、という気がしますね。
この時、コインが歪んでいるんじゃないかと皆さん疑われると思います。
そして、仮説検定とはとある仮説(この場合はコインが歪んでいるのではという仮説)が正しいのかどうか統計的に検証することなのです。
コインが歪んでいないとすると、表裏が出る確率はそれぞれ1/2なのでp=1/2と表すことが出来ます。
(Pはprobabilityの頭文字)
反対にコインが歪んでいるとすると、表裏が出る確率は1/2ではありません。しかしそれがいくつなのかは分からないため、p≠1/2としか表すことが出来ません。
これをまとめると以下のようになります。
コインは歪んでいない 帰無仮説H0:p=1/2
コインは歪んでいる 対立仮説H1:p≠1/2
帰無仮説、対立仮説という言葉は一旦無視してください。
この場合、証明したいのは対立仮説H1:p≠1/2です。
しかしp≠1/2ってどのように証明するのでしょうか。≠がついていることにより、とても難しく感じてしまいます。
そこで、逆に考えるんです。
ここが慣れるまでは難しいのですが、p=1/2を否定することが出来れば、p≠1/2であると言えるということです。
コインは歪んでいないものとして(つまりp=1/2として)、20回中18回、表が出る確率を考えてみましょう。
これは高校数学になりますが、計算してみると、0.000362、つまり0.0362%となり、数学的には非常にまれではあるものの起こり得ることが分かります。
この起こり得る、というのは数学的な話です。しかし統計学的には違います。
統計学では、まれなことは起こらないと考えます。つまり、帰無仮説H0:p=1/2は成立せず、対立仮説H1:p≠1/2が正しいことが分かるのです。
これが仮説検定の基本的な考え方となります。
3、 有意水準について
上記でまれなことは起こらないとする、という表現を使いました。まれなこと、とは具体的にはどの程度の確率でしょう。一般的には1%や5%で基準を設けることが多いです。そして、この基準を統計学では有意水準といいます。
帰無仮説の起こる確率(p値)が設定した有意水準より小さい場合、帰無仮説は棄却されて対立仮説が成立すると分かるんですね。
有意水準も統計学ではよく見る言葉なので、この機会にぜひセットで覚えてしまいましょう!
帰無仮説の起こる確率(p値)が設定した有意水準より小さい場合、帰無仮説は棄却されて対立仮説が成立すると分かるんですね。
有意水準も統計学ではよく見る言葉なので、この機会にぜひセットで覚えてしまいましょう!
4、 まとめ
さて、今回は推定や統計の考え方について学んできましたがいかがでしたか。
正直、かなり難しかったのではないでしょうか。
特に検定は、統計学を学ぶ上での鬼門とも呼ばれるくらいつまずく人が多いそうです。
僕の経験上、統計学も数学も、いきなり数式や単語が大量に出てきて置いてきぼりになるということが多いのですが、まずは細かい数式よりもイメージをつかんで頂くのが大事だと思います。
ここまで読んでいただきありがとうございました!
正直、かなり難しかったのではないでしょうか。
特に検定は、統計学を学ぶ上での鬼門とも呼ばれるくらいつまずく人が多いそうです。
僕の経験上、統計学も数学も、いきなり数式や単語が大量に出てきて置いてきぼりになるということが多いのですが、まずは細かい数式よりもイメージをつかんで頂くのが大事だと思います。
ここまで読んでいただきありがとうございました!
12 件