読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第39回 一般化線形モデル

一般化線形モデルとは!?

一般化線形モデル(Generalized linear model:GLM、以下GLM)は、1972年にネルダーとウェダーバーンによって提唱されました理論のことです。一般的によく耳にする線形回帰分析とは、裏側で正規分布を仮定しているものに限られるのですが、GLMとは、正規分布以外の確率分布を使った回帰分析など(ロジスティック回帰、ポアソン回帰など)も行うことができ、線形回帰分析を含む統一的な枠組みのことを言います

GLMでは、線形予測子、リンク関数、誤差構造の3つの観点からモデルを構成することによって、幅広い分析を可能にします。これまでは目的変数や説明変数が、質的変数なのか、量的変数なのかによって、手法を使いわける必要がありました。それに対し、GLMでは、説明変数が質的、量的、自乗、3乗、対数と、どのようなものでも構いません。なぜなら、線形予測子、リンク関数、誤差構造の3つの観点からモデルを構成するためです。

GLMの基本的な考え方は、普通の線形回帰分析と同じです。説明変数の値から目的変数の予測値が求まり、説明変数の実測値は、目的変数の予測値周辺に分布する(ばらつく)と考えます。線形回帰分析では、ばらつき(誤差、残差)の振る舞いが正規分布になることを仮定していますが、振る舞いが正規分布ではない場合、誤った結論を導くことになります。そのため、GLMでは目的に合うように「線形予測子、リンク関数、誤差構造」の3つの観点からモデルを構成します。GLMでは、観測値が予測値の周りに「どのようにばらつくか、という誤差構造」を確率分布で指定することになります。具体例を見ていきましょう。

線形モデルの最も単純なモデルは、以下の1次式です。 [latex] \displaystyle y=α+βx [/latex] しかし、このモデルの目的変数が、カウントデータ(0 or 1)や割合(0~1)である場合に問題が発生します。本来は存在することのない目的変数のマイナス予測値を示す可能性があるからです。そこでGLMではこのような問題が発生しないように、以下のようにモデルを考えます。 [latex] \displaystyle yの関数=α+βx [/latex] この左辺を「リンク関数」と呼び、書き直すと以下のようになります。また、GLMでは、右側のα+βxのことを「線形予測子」といいます。 [latex] \displaystyle リンク関数(予測値)=α+βx [/latex] リンク関数には、対数やロジットがよく使われます。リンク関数に対数をとる理由としては、目的変数の予測値を「非負(正)」にコントロールするためです。ロジットだと、0〜1にコントロールできます。そして、予測値の値を求めるためには、さらに以下のように変形します。 [latex] \displaystyle 予測値=リンク関数の逆関数(α+βx) [/latex] 実際の目的変数の値は、この目的変数の予測値の周りにばらつくと考えます。たとえば、「対数リンク関数」の場合、以下のようになります。logの逆関数はeなので以下のように変形する必要があります。 [latex] \displaystyle log(予測値)=α+βx → 予測値=e^{α+βx} [/latex]

(補足)

これまでの線形モデルは以下のようにまとめることができます。これまでの分析は、GLMの立場から解釈すると、特定の誤差構造とリンク関数の組み合わせと言えます。 f:id:teruaki-sugiura:20150802162811p:plain

広告を非表示にする