D.I.Y.リサーチ入門(13)

19 2024.01

DIYリサーチ

D.I.Y.リサーチ入門(13)

3 アンケート結果の集計・分析ツール

回答データの検査が済み、有効データを確定すると、有効回収数(n)が確定します。nとは、単にnumber またはnumber of caseの略で、分析に利用するデータのサイズ、簡単に言ってしまえばアンケートに答えてくれた人のうち有効データとなった人の人数です。

集計の観点で言えば、nは比率(%)や平均を算出する時の分母(基数という)になります。調査結果が○○%といっても、その分母すなわちnがどのくらいのサイズかによって、その結果をどのくらいの幅で信用していいのかが変わってきますから、nがいくつかという情報が重要なのは当然のことです。リサーチのレポートには(n=100)とか(n=50)という表記がたくさん出てきます。

ちなみにマーケティング・リサーチでは、n<30、つまり30人未満のデータについて比率や平均を云々しない、ということが一般的なルールになっています。なぜ30が基準になったかという歴史的経緯について私は知らないのですが、標本誤差を考える時に、標本分散を母分散の代用とします(母分散=母集団の分散はたいてい不明なので)。この「標本分散が母分散の代用になるかどうか」ということの目安として採用されていると思います。

このため、集計用のデータ加工の1つとして、人々を分類してグループ別の集計・比較をするとき、グループのサイズが30未満にならないように分割や併合を考えることが極めてよく行われます。

例えば、年齢グループ別に分けたいとき、5歳刻みで分けてしまうとn<30のグループばかりになってしまう場合は10歳刻みのグループとするとか、職業別のグループを作成するとき「農業」とか「漁業」の回答者数はとても少ないから、「農林漁業」というグループにまとめる、というような集計用データ加工を行います。

さて、集計用のデータ加工が済んだら、いよいよ集計・製表のステップに移ります。回答者全体での比率、平均等を算出したものを、単純集計(G.T.=Grand Total)といい、グループ別(男女別とか、地域別とか)に算出したものをクロス集計といいます。これを表の形に整えることが「製表」です。
集計・製表は、使用しているリサーチ用ツールに付属の集計機能にあると思いますので、問題なくできると思います。たくさんの複雑な表をきれいに作成し、目次のリンクなどをつけるというところまで考えると、業務用の集計ツールがあった方がよいということになってきますが、D.I.Y.リサーチャーの場合はそこまで求めなくてもよいと思います。

ちなみに、Excelでも「ピボットテーブル」機能を使えば簡単なクロス集計は問題なく行えます。複数回答の設問の集計は少しめんどうですが、回答あり=1、回答なし=0というデータ形式にしておけば、ピボットテーブルで平均を算出すればそれが比率になっています(100倍したものが%)。

製表するとき、日本においてはほぼ横の向きに集計する、比率であれば横%表が一般的であるということも覚えておいた方がよいです(一般的でない表現をすると、見る人が混乱するので)。下の表が横%表の例です。なお、「日本においては」と書きましたが、欧米では表頭と表側を転置して、縦%表の形で製表することもしばしばあります。

横%表

横%表

上記は比率(集計する項目がカテゴリーの場合)の表ですが、集計する項目が数量の場合は次のような表になります。
数量の集計(平均と標準偏差)

数量の集計(平均と標準偏差)

数量を集計する場合、平均に加えて標準偏差も算出することがよくあります。集計とは、たくさんのデータを少ない数字で要約することですので、代表する値(平均)と散らばり具合(標準偏差)を示すことでデータの様子がおおよそわかる、ということです。このほかに、「最大値/最小値」「中央値」などを集計することもありますが、この話はまたの機会に改めて説明したいと思います。

ちなみに、「比率」は代表する値と散らばり具合の両方の情報が1つの数字で表されているので、標準偏差にあたる数値を集計する必要はありません。「50%」という結果は、該当する=1、該当しない=0と値を与えた場合の平均が0.5だということと同じですし、該当と非該当が最大に散らばっているということがわかります。「90%」の場合は、ほとんどが該当であまり散らばっていない結果だということが読み取れます(ちなみに標準偏差にあたる数値を出すとすれば、p×(1-p)の平方根になります。※p=比率)。

次回は、「集計結果のビジュアル化」について説明します。
7 件

Related Contents