Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第39回 一般化線形モデル

第39回は一般化線形モデルの概要について書いていきます。

 

□一般化線形モデルとは!?

一般化線形モデル(Generalized linear model:GLM、以下GLM)は、1972年にネルダーとウェダーバーンによって提唱されました。線形回帰分析では正規分布を使うことを仮定していますが、GLM は、それ以外の確率分布を使った回帰分析(ロジスティック回帰、ポアソン回帰など)の統一的な枠組みのことです。

 

なぜ、GLMを提唱する必要があったのか。それは、目的変数および説明変数が質的変数なのか、量的変数なのかによって、様々な方法を使いわける必要がありました。それに対し、GLMでは、目的変数、説明変数が質的変数なのか、量的変数なのかを考慮する必要がありません。なぜなら、線形予測子、リンク関数、誤差構造の3つの観点からモデルを構成することによって、それを可能にします。そのため、説明変数は質的、量的、自乗、3乗、対数とどのようなものでも構いません。

 

GLMの基本的な考え方は、普通の回帰分析と同じです。説明変数の値から目的変数の予測値が求まり、説明変数の実測値は、目的変数の予測値周辺に分布する(ばらつく)と考えます。しかし、ばらつき(誤差、残差とも呼ばれる)の振る舞いが正規分布になることを仮定しているが、振る舞いが正規分布ではない場合、誤った結論を導くことになります。そのため、GLMでは目的に合うようにモデルを構成します。GLMでは観測値が予測値の周りにどのようにばらつくか(誤差構造)を確率分布で指定します。具体例を見ていきましょう。

 

線形モデルの最も単純なモデルは、以下の1次式ですね。

・y=α+βx…

しかし、このモデルの目的変数が、カウントデータ(0 or 1)や割合(0~1)であると問題が発生します。目的変数の予測値がマイナスを示す可能性があるからです。そこでGLMでは、以下のようにモデルを考えます。

・yの関数=α+βx

この左辺を「リンク関数」と呼び、書き直すと以下のようになります。ついでに、GLMでは、α+βxのことを線形予測子といいます。

 ・リンク関数(予測値)=α+βx

リンク関数には、対数やロジットがよく使われます。リンク関数に対数をとる意味としては、目的変数の予測値を「非負(正)」にコントロールするためです。ロジットだと、0〜1にコントロールできます。 予測値の値を求めるためには、さらに以下のように変形します。

・予測値=リンク関数の逆関数(α+βx)

実際の目的変数の値は、この目的変数の予測値の周りにばらつくと考えます。

 

たとえば、対数リンク関数の場合、以下のようになります。

log(予測値)=α+βx  #logの逆関数はeなので以下のように変形する必要があります。

   ↓

予測値=e^α+βx

 

以上で、今回はお終い。

 

(補足)

これまでの線形モデルは以下のようにまとめることができます。

これまでの分析は、GLMの立場から解釈すると、特定の誤差構造とリンク関数の組み合わせと言えます。

f:id:teruaki-sugiura:20150802162811p:plain