Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第55回 検定力分析

第55回は検定力分析について書いていきます。検定では、サンプルサイズ、有意水準、効果量、検定力を適切に検討しなければいけません。なぜなら、サンプルサイズが大きいと、有意な差が生まれやすくなってしまいますし、サンプルサイズが小さい、本当は差があるのに検出できなかったりすることがしばしあります。言い換えると、p 値はサンプルサイズが大きいと本来は差がない時もp 値は小さくなって、有意であると結論づけてしまうのです。p値万歳主義者には痛い話です。

 

■検定力分析のススメ

検定力分析は、統計検定の様々な場面で効果を発揮する素晴らしい検定ですが、効果的な状況として、下記の場合を考えることができるでしょう。個人的にですが。「サンプルサイズが多くなることで、有意な結果を得やすくなった結果、有意な差が検出された。しかし、検定力が小さいので、検定の結果が検定仮説を支持するような結果といえない。」というような場合です。その反対に、「サンプルサイズは少ないが、検定力は0.8程度あるため、有意という検定結果をもって、仮説の根拠として主張できる。」というような場面においても検定力分析は非常にパワフルなツールであるといえます。

 

■検定力分析で使われる用語

・Sample size(n)

言葉通りサンプルサイズのことです。

・Type I error(α)

「帰無仮説が真のときに棄却する=実際には差がないのに差があるとする確率」。例えば、α=0.05ということは100 回中 5 回は間違う可能性があるということです。

・Type II error(β)

「帰無仮説が偽のときに採択する=実際には差があるのに差がないとする確率」。Type II error = 0.20が望ましいと言われています。

・検定力(1-β)

「本当は差があるときに、差があるとできる確率」。目安は0.8程度。検定力は「0.0~1.0」の間で算出され、大きいほど検定力があることを意味します。検定力(1-β)=0.3、β= 0.7の場合は以下のように解釈できます。同じ実験を行って、検定を100回繰返すと30回は有意になるが、残りの70回は有意ではなくなってしまう、と解釈できます。

・効果量 (Effect size)

帰無仮説と対立仮説とのズレの量。大きいほど効果量が大きい。

・効果量の指標 (ES index)

t検定、χ2検定などで異なる効果量を示す指標があります。

 

上記の「n、α、1-β、ES」は、3つの指標の数値が決まれば、残りの値が計算されるような関係にあります。

 

■効果量

では具体的な説明に移ります。サンプルサイズに依存しない新たな指標こそが、「効果量」です。上記でも書きましたが、効果量にもいろいろあります。おおまかな理解として、効果量の指標 (ES index) があるということをまず理解くだされ。つまり、t検定、χ2検定などで異なる効果量を示す指標があります。おのおの計算式が異なります。例えば、2グループの平均値の差の検定、つまりt検定で使用するとき、効果量は以下のように定義されます。

f:id:teruaki-sugiura:20150912184038p:plain

この式が意味するところは、「平均値の差が標準偏差いくつ分離れているか」ということです。d=1なら、標準偏差1つ分離れているということがわかります。効果量はサンプルから計算するため、ばらつく推定値となる点には注意が必要です。

※おおまかな説明ですが、r族=「変数間の関係の強さ」を示す効果量もあります。上記は、「平均値の差の標準化効果量」=d族です。

 

■効果量の参考表

f:id:teruaki-sugiura:20150912184104p:plain

出典:Cohen(1992) "A Power Primer" Quantitative Methods in Psychology

 

f:id:teruaki-sugiura:20150912184138p:plain出典:水本篤・竹内理 (2011)効果量と検定力分析入門統計的検定を正しく使うために

 

■Rでの実践

 

今回分析の対象とするのは、以下の調査です。回答が確認できる範囲でカイ二乗検定を行いました。

gakumado.mynavi.jp

 

demo <- c(45,40,29,28,26)

demo

[1] 45 40 29 28 26

chisq.test(demo,correct=FALSE)

Chi-squared test for given probabilities

data:  demo

X-squared = 8.369, df = 4, p-value = 0.07896

G*powerを使って効果量も計算してみると、以下のようになりました。

f:id:teruaki-sugiura:20150912185137p:plain

Effect sizeは0.26。検定で有意でもなければ、効果量も高いとは言えない。よって、 今回の結果から「ビームスがお洒落」とは言い切れない。

以下、Rでの効果量を求めました。pwr関数を使います。  

pwr.chisq.test(N=168,sig.level=0.05,power=0.8,df=4)

     Chi squared power calculation 

      w = 0.2665

      N = 168

      df = 4

      sig.level = 0.05

      power = 0.8

NOTE: N is the number of observations

 

pwr.p.test:1標本の比率検定

pwr.2p.test: 2群の比率の差の検定(nが同じ)

pwr.2p2n.test:2群の比率の差の検定(nが異なる)

pwr.t.test:t検定(1群、2群、ペア)

pwr.t2n.test:独立な2群のt検定(nが異なる

pwr.r.test:相関係数の検定

pwr.f2.test:一般化線形モデル

pwr.chisq.test:カイ二乗検定

pwr.anova.test:分散分析

 

 

以上でおしまい。