2022年7月12日 更新

アンケートで不正回答を防ぐことは難しい?不正回答者の傾向を徹底分析

gettyimages (2212)

回答時間が短い人は不正回答者の傾向が高い

Satisficing回答者の予測に関する実験調査結果の続きです。最後に、少し蛇足になりますが、予測の検証をしてみました。
今回の記事では、前回記事のロジスティック回帰分析による予測を、ステップワイズ法により変数整理した予測モデルにしてご紹介します。
予測モデル(ロジスティック回帰)

予測モデル(ロジスティック回帰)

標準化係数を見ると、一番Satisficing回答者の予測に影響しているのは「回答時間(対数)」(マイナスの方向に影響)、次いで「ストレートライナー」となっています。

不正回答者の予測の精度を確認する

では、この予測モデルで、残しておいた900人の検証用サンプルを予測してみます。

ROC曲線で確認

ROC曲線(AUC=0.789)

ROC曲線(AUC=0.789)

上図はROC曲線といわれるもので、予測の精度を確認するのに使われます。

横軸のFalse Positive rate(FP)は、実際はSatisficing回答者でないのに、Satisficing回答者だと予測してしまう比率です。コロナ禍でだいぶ人口に膾炙した、いわゆる「疑陽性」率になります。
縦軸のTrue Positive rate(TP)は、Satisficing回答者のうち、正しく予測できた比率です。

予測モデルからは予測値が0~1のスコアとして算出されますから、このスコアのどこを判別の閾値(カットオフ値)とするかで、上記の比率は変化します。この変化の様子をみるのが図中緑色のROC曲線になります。

図の左下隅は、カットオフ値が0、つまり誰もSatisficing回答者と判別しない場合です。この場合、FPもTPも0になるのはわかると思います。また、右上隅はカットオフ値=1、全ての人をSatisficing回答者と判別する場合で、この場合はFPもTPも1(100%)になります。
図の枠(四角形)の中に占めるROC曲線の下の面積をAUC(Area Under Curve)といい、これを予測精度の指標(0.5~1の値をとる)とします。つまり、右上から左下への対角線からみて上にふくらんだ曲線になっているほどよい予測というわけです。

今回の結果ではAUC=0.789で中程度の良さの予測といえ、予測モデルの改善余地はまだありそうです。

さて、0と1の間のどこかに適切なカットオフ値があるはずですが、まずカットオフ値=0.5として、予測結果と実際のクロス集計をとってみます。こうしたクロス集計を混同行列と呼びます。
混同行列(カットオフ値=0.5)

混同行列(カットオフ値=0.5)

検証用サンプル900人のうち、S(Satisficing)回答者は189人いたのですが、カットオフ値0.5ではそのうち正しく予測できたのは57人でした。また、非S回答者のうち53人をS回答者と誤って予測しています。

カットオフ値の決定方法にはいろいろあるのですが、一番わかりやすいのは上記混同行列の黄色の部分、つまり正しく判別できた人数(正判別率といいます)を最大にするものだとおもいます。

しかし、今回もそうですが(S回答者の比率は全体の2割強)、予測する対象の割合に偏りがある(たいてい少ない)場合、この方法が一番良い予測にはならないことがあります。

正判別率を最大にする方法だと、今回の予測ではカットオフ値は0.537,混同行列は以下のようになります。
混同行列(正判別率最大、カットオフ値=0.537)

混同行列(正判別率最大、カットオフ値=0.537)

カットオフ値決定にはこのほか、Youdenの指標、F値を最大にする方法などがあります。

Youdenの指標は、ROC曲線と対角線の距離が最大になる点をとるものです。

F値は、適合率と再現率の調和平均をいいます。適合率(precision)は、TP/(TP+FP)、つまりSatisficing回答者と予測したうち実際そうだった人の割合で、予測の精度ともいえます。再現率(recall)は、ROC曲線のTrue Positive rateと同じで、TP/(TP+FN)、つまり、実際のSatisficing回答者のうち、何人正しく予測できたかの割合で、予測の捕捉率ともいえます。

また、この適合率を縦軸、再現率を横軸にとったグラフを、PR曲線といいます。

PR曲線で確認

PR(Precision-Recall)曲線

PR(Precision-Recall)曲線

PR曲線をみると、再現率(recall)0.6=60%あたりを超えると適合率が大きく下がってしまうので、そのへんがよさそうなカットオフ値に思えます。

Youden指標、F値に基づいたカットオフ値で混同行列を集計してみると、以下のようになります。
混同行列(Youdenの指標による、カットオフ値=0....

混同行列(Youdenの指標による、カットオフ値=0.188)

混同行列(F値による、カットオフ値=0.336)

混同行列(F値による、カットオフ値=0.336)

正判別率基準では再現率(Recall)が低すぎ、Youden指標基準では高すぎる感じで、F値基準がまあまあいい感じかもしれません。

ただ、実際には予測の用途、誤判別~FP,FNそれぞれが生じるコストを考えてカットオフ値を決める必要があります。

まとめ

今回のケースでは、「Satisficing回答者と予測されたら分析データから除外する」という用途と考えると、できるだけサンプルは除外したくないので、「疑わしきは罰せず」という方針にして、適合度の高い正判別率基準を採用するのが良いという考え方もできますね。
ネットリサーチツールへのリンク

23 件

関連する記事 こんな記事も人気です♪

アンケートを適当に回答する人ってどんな人?ロジスティック回帰分析でわかったこと

アンケートを適当に回答する人ってどんな人?ロジスティック回帰分析でわかったこと

本記事では、ロジスティック回帰分析を用いてアンケートに不正回答する人の傾向を調べてみました。分析結果から、回答者に寄り添う調査内容、依頼のしかたが調査のクオリティの上では重要だということがわかりました。
KOJI.A | 332 view
【検証】アンケートを適当に回答する人の割合ってどのくらい?

【検証】アンケートを適当に回答する人の割合ってどのくらい?

アンケート回答の質に関して、不正な回答をする回答者をどう抑制するのかがサーチ業務で非常に重視される点となります。今回は、Web調査における不正回答者を予測する簡単な実験を実際に調査を行ってみたので、結果をもとに分析していきます。
KOJI.A | 632 view
【7月28日はナニワの日!!】開催まで1000日切った大阪万博 国民の万博への意識とは?

【7月28日はナニワの日!!】開催まで1000日切った大阪万博 国民の万博への意識とは?

2025年の開催まで1000日を切った大阪万博。先日の開幕1000日前イベントでは、公式キャラクターの名称が「ミャクミャク」に決定し、有名アーティストが制作した公式ソングも発表されました。最近ではテレビ番組などで少しずつ万博関連の情報が紹介されはじめ、徐々に注目を集めるようになってきています。そんな大阪万博ですが、国民はどのように受け止めているのでしょうか?現在の声を集めてみました!
【独自調査】生活者の購買行動を引き起こさせるために必要なこととは?

【独自調査】生活者の購買行動を引き起こさせるために必要なこととは?

コロナ禍も収束の気配を見せ始め、人々の行きかいも活発になってきているように思われます。沈んでいた経済活動も復調の兆しを見せ始める中、生活者はどのように購買行動を起こしているのでしょうか?今回はその実態について、15歳から60代以上の600名にアンケートを実施し、深掘りしてみました。
負の2項分布、ゼロ過剰モデル

負の2項分布、ゼロ過剰モデル

ネットリサーチCron : リサーチ関連の話題・手法について、業界内外の人が息抜きに読めるような軽いコラムです。
KOJI.A | 173 view

この記事のキーワード

この記事のキュレーター

KOJI.A KOJI.A