2022年7月12日 更新

アンケートで不正回答を防ぐことは難しい?不正回答者の傾向を徹底分析

gettyimages (2212)

回答時間が短い人は不正回答者の傾向が高い

Satisficing回答者の予測に関する実験調査結果の続きです。最後に、少し蛇足になりますが、予測の検証をしてみました。
今回の記事では、前回記事のロジスティック回帰分析による予測を、ステップワイズ法により変数整理した予測モデルにしてご紹介します。
予測モデル(ロジスティック回帰)

予測モデル(ロジスティック回帰)

標準化係数を見ると、一番Satisficing回答者の予測に影響しているのは「回答時間(対数)」(マイナスの方向に影響)、次いで「ストレートライナー」となっています。

不正回答者の予測の精度を確認する

では、この予測モデルで、残しておいた900人の検証用サンプルを予測してみます。

ROC曲線で確認

ROC曲線(AUC=0.789)

ROC曲線(AUC=0.789)

上図はROC曲線といわれるもので、予測の精度を確認するのに使われます。

横軸のFalse Positive rate(FP)は、実際はSatisficing回答者でないのに、Satisficing回答者だと予測してしまう比率です。コロナ禍でだいぶ人口に膾炙した、いわゆる「疑陽性」率になります。
縦軸のTrue Positive rate(TP)は、Satisficing回答者のうち、正しく予測できた比率です。

予測モデルからは予測値が0~1のスコアとして算出されますから、このスコアのどこを判別の閾値(カットオフ値)とするかで、上記の比率は変化します。この変化の様子をみるのが図中緑色のROC曲線になります。

図の左下隅は、カットオフ値が0、つまり誰もSatisficing回答者と判別しない場合です。この場合、FPもTPも0になるのはわかると思います。また、右上隅はカットオフ値=1、全ての人をSatisficing回答者と判別する場合で、この場合はFPもTPも1(100%)になります。
図の枠(四角形)の中に占めるROC曲線の下の面積をAUC(Area Under Curve)といい、これを予測精度の指標(0.5~1の値をとる)とします。つまり、右上から左下への対角線からみて上にふくらんだ曲線になっているほどよい予測というわけです。

今回の結果ではAUC=0.789で中程度の良さの予測といえ、予測モデルの改善余地はまだありそうです。

さて、0と1の間のどこかに適切なカットオフ値があるはずですが、まずカットオフ値=0.5として、予測結果と実際のクロス集計をとってみます。こうしたクロス集計を混同行列と呼びます。
混同行列(カットオフ値=0.5)

混同行列(カットオフ値=0.5)

検証用サンプル900人のうち、S(Satisficing)回答者は189人いたのですが、カットオフ値0.5ではそのうち正しく予測できたのは57人でした。また、非S回答者のうち53人をS回答者と誤って予測しています。

カットオフ値の決定方法にはいろいろあるのですが、一番わかりやすいのは上記混同行列の黄色の部分、つまり正しく判別できた人数(正判別率といいます)を最大にするものだとおもいます。

しかし、今回もそうですが(S回答者の比率は全体の2割強)、予測する対象の割合に偏りがある(たいてい少ない)場合、この方法が一番良い予測にはならないことがあります。

正判別率を最大にする方法だと、今回の予測ではカットオフ値は0.537,混同行列は以下のようになります。
混同行列(正判別率最大、カットオフ値=0.537)

混同行列(正判別率最大、カットオフ値=0.537)

カットオフ値決定にはこのほか、Youdenの指標、F値を最大にする方法などがあります。

Youdenの指標は、ROC曲線と対角線の距離が最大になる点をとるものです。

F値は、適合率と再現率の調和平均をいいます。適合率(precision)は、TP/(TP+FP)、つまりSatisficing回答者と予測したうち実際そうだった人の割合で、予測の精度ともいえます。再現率(recall)は、ROC曲線のTrue Positive rateと同じで、TP/(TP+FN)、つまり、実際のSatisficing回答者のうち、何人正しく予測できたかの割合で、予測の捕捉率ともいえます。

また、この適合率を縦軸、再現率を横軸にとったグラフを、PR曲線といいます。

PR曲線で確認

PR(Precision-Recall)曲線

PR(Precision-Recall)曲線

PR曲線をみると、再現率(recall)0.6=60%あたりを超えると適合率が大きく下がってしまうので、そのへんがよさそうなカットオフ値に思えます。

Youden指標、F値に基づいたカットオフ値で混同行列を集計してみると、以下のようになります。
混同行列(Youdenの指標による、カットオフ値=0....

混同行列(Youdenの指標による、カットオフ値=0.188)

混同行列(F値による、カットオフ値=0.336)

混同行列(F値による、カットオフ値=0.336)

正判別率基準では再現率(Recall)が低すぎ、Youden指標基準では高すぎる感じで、F値基準がまあまあいい感じかもしれません。

ただ、実際には予測の用途、誤判別~FP,FNそれぞれが生じるコストを考えてカットオフ値を決める必要があります。

まとめ

今回のケースでは、「Satisficing回答者と予測されたら分析データから除外する」という用途と考えると、できるだけサンプルは除外したくないので、「疑わしきは罰せず」という方針にして、適合度の高い正判別率基準を採用するのが良いという考え方もできますね。
ネットリサーチツールへのリンク

23 件

関連する記事 こんな記事も人気です♪

アンケートを適当に回答する人ってどんな人?ロジスティック回帰分析でわかったこと

アンケートを適当に回答する人ってどんな人?ロジスティック回帰分析でわかったこと

本記事では、ロジスティック回帰分析を用いてアンケートに不正回答する人の傾向を調べてみました。分析結果から、回答者に寄り添う調査内容、依頼のしかたが調査のクオリティの上では重要だということがわかりました。
KOJI.A | 477 view
【検証】アンケートを適当に回答する人の割合ってどのくらい?

【検証】アンケートを適当に回答する人の割合ってどのくらい?

アンケート回答の質に関して、不正な回答をする回答者をどう抑制するのかがサーチ業務で非常に重視される点となります。今回は、Web調査における不正回答者を予測する簡単な実験を実際に調査を行ってみたので、結果をもとに分析していきます。
KOJI.A | 1,003 view
セミナーアンケートの作り方を徹底解説!サンプルもご紹介

セミナーアンケートの作り方を徹底解説!サンプルもご紹介

セミナーなど顧客と直接つながる機会を得た際、アンケートを取ることで顧客のダイレクトな意見を聞け、今後の企業活動に役立つ情報を得られることに繋がります。ここではそうした際のアンケートについて、その作り方を解説していきます。
顧客満足度の調査方法はどうする?ツールや結果のまとめ方についてもご紹介

顧客満足度の調査方法はどうする?ツールや結果のまとめ方についてもご紹介

今回は顧客満足度調査に関しての方法や、調査後の成果物の出し方、調査の注意点等に関して解説していきます。
調査事例紹介|メディア運営担当者 生活者の声をアンケートで集めて情報発信

調査事例紹介|メディア運営担当者 生活者の声をアンケートで集めて情報発信

マーケティング活動の一環として、オウンドメディアを保有している企業や個人が増えています。今回は、お役立ちコンテンツの定期的な発信や、調査リリースを出す時などにアンケートから得た結果を使って情報を発信しているサーベロイドユーザー様の調査事例をご紹介いたします。
大石 | 34 view

この記事のキーワード

この記事のキュレーター

KOJI.A KOJI.A