読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

ベイズ統計学その2〜ベイズの定理〜

f:id:teruaki-sugiura:20151017180055p:plain

 確率の基本はもろもろ省いて、さっそくベイズの定理から始めます。確率の基本がすごく大事ですが・・・勉強したいという方は、コルモゴロフの「確率論の基礎概念」や赤先生の「確率論入門」を読んでください。すごく勉強になります。余力あれば「測度論」とかも・・・・すごく難解ですが。どれも昔読んだときは、半分くらいよくわからなかった・・・だけれど半分は勉強になりました。それはさておき、ベイズの定理。

ベイズの定理は以下の(2)式のことです。とりあえず詳しい説明は後でします。

f:id:teruaki-sugiura:20151017180407p:plain

P(B)が0ではないと仮定すると以上より

f:id:teruaki-sugiura:20151017180440p:plain

標本空間の中にある事象Aと事象Bを考えます。また、事象Aと事象Bは独立ではなく、同時確率P(A∩B)を持ちます。このときに事象Bが起きたときに、事象Aが起こる条件付き確率P(A|B)、このときに事象Aが起きたときに、事象Bが起こる条件付き確率P(B|A)とする。このとき同時確率は(1)で表される。そしてこの式を変形することで、(2)が導出されます。数学的にはなんてことないですが、「因果関係」を想定すると大変面白くなります。つまり、「事象Aが原因で、事象Bがその結果」という仮説を与えてみるわけです。

f:id:teruaki-sugiura:20151017180440p:plain

(2)を細かく見ていきましょう。

P(A|B)=結果Bが起こったときの原因Aとなる確率=仮説の妥当性(原因の確率)

P(B|A)=原因Aが起こった時に結果Bが起こる確率(尤度)

P(B|A)P(A)= P(A)が、原因Aが起こった時に結果Bが起こる確率(尤度)を観測することでどのように変化するか。

P(A)=原因Aが起こる確率(事前確率)

P(B)=結果Bが起こる確率

以上より、「事象Aが原因で、事象Bがその結果」とする因果関係を想定すると、それを遡登って、結果Bが起こった時に事象Aが起こる確率を計算できるわけですね。

 

f:id:teruaki-sugiura:20151017180115p:plain

f:id:teruaki-sugiura:20151017180440p:plain

この式を変形させていきましょう。つまり、「結果Bが起こった時に事象Aが起こる確率」だけでなく、「結果Bが起こった時に事象A_i~A_n」が起こる確率を計算できる式に変形します。では、最初の段階として事象Aを3つにわけましょう。図で表すとこんな感じです。

f:id:teruaki-sugiura:20151017180646p:plain

f:id:teruaki-sugiura:20151017180753p:plain

図を見るとわかるようにP(B)は、以下の3つの和に分解されていることがわかります。

f:id:teruaki-sugiura:20151017180842p:plain

乗法定理を利用すると以下のように展開できます。

f:id:teruaki-sugiura:20151017180925p:plain

f:id:teruaki-sugiura:20151017181005p:plainf:id:teruaki-sugiura:20151017181003p:plain

以上の(7)を一般化すると以下のようになります。

f:id:teruaki-sugiura:20151017181030p:plain

f:id:teruaki-sugiura:20151017181031p:plain

 

f:id:teruaki-sugiura:20151017180121p:plain

ベイズの定理を統計学に応用していきましょう。Aを仮説(原因)に関する事象、Bを結果(データ)の事象と読み替えるだけです。式の意味を見ていきましょう。

P(H|D)=データを得た時に仮説(原因)が起こる確率(事後確率)

P(D|H)=仮説(原因)が起こる時にデータを得る確率(尤度)

※感覚として、仮説にデータにどれだけ寄ってくるか、という感じ

P(H)=仮説(原因)が起こる確率(事前確率)

f:id:teruaki-sugiura:20151017181136p:plainf:id:teruaki-sugiura:20151017181135p:plainf:id:teruaki-sugiura:20151017181134p:plain

(11)の式が意味するところを図で表すとこんな感じです。

f:id:teruaki-sugiura:20151017181207p:plain

仮説(原因)Hがたくさんある中で、データDが観測された時に、その仮説(原因)Hが、特定のH_iである確率を表しています。

広告を非表示にする