プロペンシティスコア、あるいはセルマッチング

16 2024.02

編集室メンバーコラム

プロペンシティスコア、あるいはセルマッチング

プロペンシティスコア

アメリカの調査会社ハリス・インタラクティブが、ブッシュとゴアの大接戦だった大統領選について、インターネット調査とプロペンシティスコアによるウェイティングで正確な予測をし話題になったのは2000年なので、もう20年も昔になってしまいました。

その頃はインターネット調査の有効性について盛んに議論がありとても関心がありましたし、プロペンシティスコアという疫学研究にある手法も知らなかったうえ、ルイス・ハリスという老舗世論調査会社がハリス・インタラクティブというオンライン調査会社に変貌していることにも驚き、翌年くらいにハリス・インタラクティブ・ジャパンができて、アメリカからジョージ・テハニアンが来日したときは、記者発表(だったかセミナーだったか忘れましたが)を見に行った記憶があります。ちなみに、そのときの日本の受け皿になったのが先日不祥事で話題になったアダムス・コミュニケーションだったと覚えています。経営主体は当時と現在は変わっていると思いますが。ついでにジョージ・テハニアンはその後Toluna(オンラインパネル会社)→NPD(購買パネル調査会社、元はNational Purchase Diary Panel)と移って、今はElectric Insightsというよく知らない会社のファウンダーということなので、何だかリサーチ業界っぽいなあと感じます。

さて、その後コンピュータの能力の向上や統計ソフトウェアの普及もあって、プロペンシティスコアを使うこと自体は、ウェイティングにせよ様々なマッチング手法を使うにせよハードルが低いものになりました。しかし、オンライン・パネルの偏りを補正する手法としては、現在実務上それほど使われてはいないと思います。

それは、当時から難題と思われていた「スコア算出に利用する共変量選択の難しさ」、オンラインパネルと「一般の消費者」の何が違うかという変数群をどうやって探し決めたらいいのかという問題がそもそもあり、またその変数群は、使える変数の数を考えると、ドメイン特有のもの、つまり調査テーマによって変える必要があるのではないか、ということによるものだと思います。となると、調査テーマは無限にあるといえるので、なかなか実務上使いづらい。

一方、製品テストやコンセプト・テスト、そのほか何らかの因果的研究においては、プロペンシティスコアの使用はよくあることになったと思います。例えば、広告接触者と非接触者の反応比較で、反応に影響する両者の属性を揃えたいとき、製品Pのテスト対象者とQのテスト対象者の主要属性を揃えたいときなど。

セルマッチング

ところで、上記のようなケースで使われる手法に、「セルマッチング」といわれる手法があります。これは「インターロックしない割付」ともいわれるものです。ふつう割付(インターロックした割付)は、例えば地域・性・年代で割り付けるとすれば地域×性×年代の全てのセルの割付数を決めるのですが(関東の20代男性が何人とか)、インターロックしない割付では、地域、性、年代のそれぞれのマージン(全体)での割付数は決めるものの(関東は何人、男性は何人とか)属性の組み合わせによる数は問わないというものです。

しかし、セルマッチング=インターロックしない割付は、意図しない属性間の歪んだ相関を生んでしまう危険があるという原理的な問題があり(参考:https://newmr.org/blog/unintentional-interlocking-quotas/)、かつオンライン調査で打ち切りを機械化・自動化するとこの問題は気づきにくく、一層危険になります。

「セルマッチング」はオフライン調査の時代から使われていた割付手法だと思いますが、私見では「その頃から問題含み(怪しい)だったのではないか」と見ています(ただ、人力で回収していると途中で問題があった場合に気付きやすくはあります)。オンラインで回収がすぐ終わってしまう時代には、セルマッチングなどという危険な手法はやめて、プロペンシティスコアや、レーキングなどの事後層化法を活用した割付、サンプル収集を考えるべきだと思います。

ところが、この辺りの手法を研究・開発しているリサーチャーは少ないようです。定量調査の方法論では一番面白いところ、と私は思うのですが・・・。

5 件

Related Contents