Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第23回 カイ二乗検定

第23回はカイ二乗検定について書きます。

 

カイ二乗検定は、質的変数間の関係を調べるもので、互いの変数が「独立」であるかどうかを調べます。独立とは、関係がないことを意味します。ノンパラメトリックな手法です。ノンパラメトリックとは、「母集団の分布」を仮定しない検定のことです。そのため、各データの大小の順位を表す順序尺度を利用することで検定する。

 

chisq.test関数を使って検定します。オプションでcorrct=以下を指定します。

FALSE=連続性の補正を行わない

TRUE=連続性の補正を行う

 

カイ二乗分布はこんな感じ。

curve(dchisq(x,2),0,20) curve(dchisq(x,1),0,20,add=TRUE) curve(dchisq(x,4),0,20,add=TRUE) curve(dchisq(x,8),0,20,add=TRUE)

f:id:teruaki-sugiura:20150712134855p:plain

 検定のために、まずクロス集計表を作成し、それを引数とする。

crosstable <- table(demo$math,demo$stat) crosstable     dislike like dislike  3  5 like    8 4 chisq.test(crosstable,correct=FALSE) Pearson's Chi-squared test data: crosstable X-squared = 1.6498, df = 1, p-value = 0.199 警告メッセージ: In chisq.test(crosstable, correct = FALSE) : カイ自乗近似は不正確かもしれません

ピアソンの適合度統計量カイ二乗の確率分布は、カイ二乗分布に近似することが知られています。2×2、df=1のときはカイ二乗値はカイ二乗分布よりも大きな平均と分散を持つため、カイ二乗分布から大きく乖離する。そのため、 2×2表の場合、ピアソンの適合度統計量ではなく、イェーツの連続性の修正を施します。 そこで、補正を行ってみましょう。

chisq.test(crosstable,correct=TRUE) Pearson's Chi-squared test with Yates' continuity correction data: crosstable X-squared = 0.6818, df = 1, p-value = 0.409 警告メッセージ: In chisq.test(crosstable, correct = TRUE) : カイ自乗近似は不正確かもしれません

以上で、第23回はお終い。

広告を非表示にする