読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

大学の時にもっと勉強しておけばよかったマーケティング・リサーチ〜その3〜

大学の時にもっと勉強しておけばよかったマーケティング・リサーチも3話目に突入しました。前回はデータへの向き合い方について、大学院の時の講義資料などにもとまとめましたが、今回はデータを新しく取る必要が出てきた時に、意識するべきことをまとめていきます。つまりは、マーケティング・リサーチにおいて、どのようにサンプリングするべきか、ということです。前回の記事にもあったように、仮説を検証するためにサンプリングするわけなので、目的は明確化されていると思います。

あとは、それを検証するための「信ぴょう性」に足るサンプリングをして検証すればいいだけなのですが、これがかなり難しいのです・・・サンプリング方法、サンプルサイズ、調査費用、調査票の質問順序、ワーディングなどなど気にかけることが多く、アンケートって超厄介なのです。そこで、サンプリング調査の設計の部分と、調査票の中身の2回にわけて書いていきます。

前回の記事で、よい問を立てることができれば、調査の50%は終わりという話をしましたが、残りの50%はアンケートの設計と言っても過言ではありません。仮説を検証するために、適切な質問を組み立てることができているか、のちの運命を左右する分岐点です。なぜなら、サンプリングが終わってしまったら、もうなるようにしかならないですし、想定どおりならないなら、数字をこねくり回して、あたかも事実を作り出してしまうことは、もはや論外です。適当に変数を組み合わせて、新しい変数を作り出すなど、あまりよろしい行為ではありません。

サンプリング調査

サンプリングとは、対象の母集団から標本を抽出する作業のことを言います。母集団より必要なサンプルサイズを抜き出し、これをその母集団の代表としてみなし、分析をしていくことになります。全数調査(国勢調査、センサス)というのもありますが、これは莫大な費用と時間がかかるので、国レベルでないと実施できません。なので、原則的に企業がサンプリング調査をするのであれば、標本を抽出することになります。

基本的には、このサンプルの大きさ(=n)のことを「サンプルサイズ」、サンプルの本数のことを「サンプル数」と呼びますが、統計学の教科書でもサンプルサイズをサンプル数と呼んでいるので、どっちでもいいのかもしれませんが、このwebサイトでは、サンプルの大きさ(=n)のことを「サンプルサイズ」、サンプルの本数のことを「サンプル数」と呼びます。

サンプリングの目的は、母集団のパラメタμを標本統計量sから推測するために行います。当たり前のことですが、母集団から無作為に抽出するため、パラメタμと標本統計量sの間には「差」が発生します。この「差」のことを、「標本誤差(Sampling Error)」と言います。ややこしいですが、標本誤差を伴う標本抽出を何度も繰り返して形成される標本分布の分散は、「標準誤差(Standard Error)」と言います。標本誤差はサンプルサイズを大きくすることで、コントロールできますが、サンプルサイズを大きくするということは、調査費用も大きくなります・・・また、人的ミスによる誤差は「非標本誤差(Non-sampling error)」といいます。 daum_equation_1484359946388

サンプリング方法

サンプルをどのように抽出していくか、それがサンプリング方法の問題点です。確率的にサンプリングしていくことは基本ですが、乱数表に従い単純無作為サンプリングか、それとも層別サンプリングにするのか悩ましいところです。

ターゲットにしている母集団がいくつかの層になっているのであれば、層別サンプリングの「比例層別サンプリング法」は有効です。500のグループから50サンプルサイズ、300のグループから30サンプルサイズを抽出するという形です。これを逆にした、500のグループから30サンプルサイズ、300のグループから50サンプルサイズを抽出するという「逆比例層別サンプリング法」もあります。

層別サンプリング法の中でも、社会調査やマーケティングの調査でよく使われるのは「多段抽出法」かと思われます。これは、段をいくつか設けて抽出していく方法です。つまり、1000サンプルサイズ欲しいなら、全国の単位で10都道府県を無作為抽出、そこから5つの市町村を無作為抽出、そして、その市町村から町単位で5つの町を無作為抽出、さいごにそこから4人を無作為抽出。これで最終的に、1055*4=1000サンプルサイズとなります。

サンプルサイズ

マーケティング・リサーチを行うにあたり、サンプルサイズは絶対に決めなければいけません。先ほども説明しましたが、サンプルサイズを大きくすることで標本誤差を小さくすることができます。朝のニュース番組やウェブニュースサイトでよくありますが、アンケート調査しました、結果はこんなんで、男性の〜〜は◯◯でした、n=50です・・・さすがに、そんな小さなサンプルサイズで全体を代表するのはさすがに無理があるかと。サンプルサイズを決定するための目安は3つあります。母集団の異質性、費用、分析精度です。

母集団の異質性

ターゲットにしている母集団が、似たり寄ったりの集団であることがわかっている場合、多くのサンプルは必要ありません。なぜなら、おそらく意見や解答の傾向なども同質になると考えられるからです。

費用

サンプルサイズを大きくすることは、標本誤差を小さくすることができますが、その調査から得られるメリットを秤にかけましょう。数億というプロモーション費用のコンペなら、コンペ段階でもそれなりにお金を投入して調査してもいいでしょう。しかし、案件自体が数十万の場合は調査するのは勿体無いですね。

分析精度

これは、リサーチから得られる情報がどの程度重要かどうかによって、決まります。例えば、行政が行う調査であれば、それなりに精度が高い情報が必要になりますね。

上記を勘定したうえで、以下のサンプルサイズを求める計算式でサンプルサイズを抽出します。(信頼係数=z2_α/2、μは既知) daum_equation_1484359979025 これを変形して、nについてとけば、 daum_equation_1484360008843 そして、 (1)信頼係数95%で許容誤差は±5、分散=200とすると、 daum_equation_1484360033471 (2)信頼係数90%で許容誤差は±5、分散=200とすると、 daum_equation_1484360062962 (3)信頼係数90%で許容誤差は±10、分散=200とすると、 daum_equation_1484360094387 (3)の場合、もはや調査する必要はなさそうですね。こんな曖昧な調査するんじゃない!と数式に叱られている気分になりますね。

以上で今回はおしまい。後編に続きます。