Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

二項検定と大阪ダービー(ガンバ大阪 vs. セレッソ大阪)

 今回は二項検定を使って、サッカーJ1リーグ、ガンバ大阪セレッソ大阪のどちらが強いのかを検定してみたいと思います。

二項検定とは、試合に勝つ・負けるというような2値しかとらない変数を対象とする検定法です。これまで、ガンバ大阪セレッソ大阪の通算成績は、以下のようになっています(セレッソの場合は数値が逆転し、22敗で12勝です)。通算成績はwikipediaより。2015年8月時点

ガンバ大阪

22勝 6分 12敗 (今回は引き分けは「負け」としてカウント)

この結果から、ガンバ大阪セレッソ大阪よりも「強い」と言えるのでしょうか。

帰無仮説:ガンバ大阪セレッソ大阪の強さは等しい

対立仮説:ガンバ大阪セレッソ大阪よりも強い

帰無仮説のもとで、検定量の分布、帰無分布を求めてみましょう。dbinom関数を用います。二項分布は、成功確率pの時に、n回中x回成功する確率を求めることができる関数です。引数は以下のように指定します。

dbinom(x,n,p) #xはベクトルも指定できます
dbinom(22,40,0.5) 
[1] 0.1031187 

勝つ確率が等しい同士のチームが40回試合をして、22回勝つ確率はおよそ10%程度ということがわかります。次に、勝ち数の取りうる値は、0~40回なので、この整数を入れる場所を作っておきます。そして、dbinom関数のxの引数とすることで、0~40回中0~40勝する確率を求めることができます。

number.of.win <- 0:40
number.of.win
[1]  0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
[41] 40
dbinom(number.of.win,40,0.5)
[1] 9.094947e-13 3.637979e-11 7.094059e-10 8.985808e-09 8.311872e-08 5.984548e-07 3.490986e-06 1.695622e-05 6.994440e-05
[10] 2.486912e-04 7.709428e-04 2.102571e-03 5.081214e-03 1.094415e-02 2.110658e-02 3.658474e-02 5.716365e-02 8.070163e-02
[19] 1.031187e-01 1.194007e-01 1.253707e-01 1.194007e-01 1.031187e-01 8.070163e-02 5.716365e-02 3.658474e-02 2.110658e-02
[28] 1.094415e-02 5.081214e-03 2.102571e-03 7.709428e-04 2.486912e-04 6.994440e-05 1.695622e-05 3.490986e-06 5.984548e-07
[37] 8.311872e-08 8.985808e-09 7.094059e-10 3.637979e-11 9.094947e-13

縦軸は、各勝利数に対応する確率、横軸は勝ち数に対応する分布を書いてみましょう。この図は、強さ(勝つ確率)が均等、つまりp=0.5の状態おける帰無分布です。

plot(number.of.win,dbinom(number.of.win,40,0.5)) 
img title="f:id:teruaki-sugiura:20150812231521p:plain" src="http://cdn-ak.f.st-hatena.com/images/fotolife/t/teruaki-sugiura/20150812/20150812231521.png" alt="f:id:teruaki-sugiura:20150812231521p:plain" />

そして、pbinom関数を使って、勝ち数がx以下になる確率を計算してみましょう。下側確率を計算するということです。

round(pbinom(number.of.win,40,0.5),5) #見やすいように並べ替えました。
0.00000
0.00000
0.00000
0.00000
0.00000
0.00000
0.00000
0.00002
0.00009
0.00034
0.00111
0.00321
0.00829
0.01924
0.04035
0.07693
0.13409
0.21480
0.31791
0.43731
0.56269
0.68209
0.78520
0.86591
25wins:0.92307
26wins:0.95965
0.98076
0.99171
0.99679
0.99889
0.99966
0.99991
0.99998
1.00000
1.00000
1.00000
1.00000
1.00000
1.00000
1.00000
1.00000 

 有意水準αは5%に設定し、片側検定を行います。それ故に帰無分布の右側5%が棄却域になります。pbinom関数の結果より、25勝以下になる確率は92%、26勝以下になる確率はおよそ95%なので、棄却域は27勝以上となります。ガンバ大阪の勝ち数の観測値は22勝なので、棄却域には入らないですね。

つまり、5%水準では有意ではなく、ガンバ大阪セレッソ大阪よりも「強い」とはいえないですね。最後にp値を求めましょう。 pbinom(21,40,0.5)は勝つ確率0.5で40回中、21勝以下になる確率を返します。p値は31%となります。

pbinom(21,40,0.5) #これから1を引くとp値がでる
[1] 0.682086
1-pbinom(21,40,0.5)
[1] 0.317914
pbinom(21,40,0.5,lower.tail=FALSE) #上側の確率を返すのでp値がでる。22勝以上の確率。上と同じ。
[1] 0.317914
plot(number.of.win,pbinom(number.of.win,40,0.5))
f:id:teruaki-sugiura:20150812232319p:plain 

以上で今回はおしまい。

 

広告を非表示にする