読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第30回 信頼区間

はやいもので第30回に突入。とはいっても、忘れた時に見返すために学生の頃にメモに書いていた授業・自習の内容をはてなブログに載せているからですが・・・

そんな個人的なことはさておき、本日は信頼区間について書きます。

 

信頼区間は案外、解釈が難しいです。頻度論では、『パラメタ(母数)は1つで、変動しない』ということがわかれば、なんてことないのですが、最初は頭の中???だらけになりました。

 

さて、信頼区間(Confidence interval)とは、なんでしょう。

簡単にいうと、母数がどのような範囲にあるかを確率的に示す方法なのです。よく言われるのが、「母数がα%からβ%である確率は90%である」というような言い方は間違いです。正しくは、「μがαからβの間にあることが、10回中9回くらいある。母数は一定なので、信頼区間が母数を含む確率が××%である」みたいな解釈が頻度論的には正しいはずです。これだけを聞いてもよくわからないですね。

言い換えると、「サンプリングした後に、何度も同じ条件下でサンプリングし直し、得られたサンプルから平均、分散を算出して信頼区間の推定を繰り返せば、母平均が、それらの信頼区間の間におさまる確率が○%である」ということ。

 

ではRで実践していきましょう。

 

> σ <- 5 #母分散

> n <- 100 #標本サイズ

> d <- qnorm(0.975)*sqrt(σ/n) #95%信頼区間

> x <- c(-3,-3,3,3) #x軸の範囲

> y <- c(0,100,100,0) #y軸の範囲

> plot(x,y,type="n",xlab="confidence.interval",ylab=“count”) # Quartz図表ウインドウの設定

> segments(0,0,0,100,col="springgreen4”) #母平均の線を引く 

> for(i in 0:100){ #100回繰り返す

+ r <- rnorm(n,mean=0,sd=sqrt(σ)) #平均0、標準偏差σの正規分布から乱数をn(=100)発生

+ m <- mean(r) #rの平均

+ segments(m-d,i,m+d,i) #信頼区間の表示

+ points(m,i,pch="",col="springgreen4",cex=0.8) 信頼区間の表示

+ if(m-d>0||m+d<0)text(3,i,"*”) #信頼区間に母平均が含まれない場合に*を表示

+ }f:id:teruaki-sugiura:20150718023325p:plain

言葉だけではわかりにくいですが、図で見るとわかりやすいですね。信頼区間に母数が含まれない場合に印をつけました。信頼区間を100回求めたうち、6回は外れています。信頼区間の中に母数が×%で含まれるのではなく、信頼区間が母数を○%含むのです。母数は一定ですから、信頼区間の中で母数がコロコロ変わってしまうと頻度論的にはマズイ解釈と言えそうです。一方、ベイズ統計学では、母数を確率変数として捉えるので、母数はコロコロ変動し、確率分布を持つと解釈します。???となった方は「一方〜」の記述は忘れてください。笑 頭の中が混乱するはず。大学生の頃の私はそうでした。笑

 

以上で、第30回はお終い。

なんか思い出を色々と書いた記事になってしまいました。笑

 

 

 

 

広告を非表示にする