Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第58回 マルチレベル分析

第58回はマルチレベル分析について書いていきます。マルチレベル分析は、その名が表すように、複数の水準を分けて分析していく手法です。マルチレベル分析は、「マルチレベルモデル」「階層線形モデル」「線形混合モデル」など様々な呼び方をされている手法です。関西学院大学清水先生のページにマルチレベル分析について詳しく書かれています。動画での解説もあります。今回のマルチレベル分析に関しては、「SPSSによる応用多変量解析」のマルチレベル分析の仮説をお借りして説明していきます。サンプルデータに関しては、その仮説をもとに独自に作成したものとなります。

 

□ネストしているデータ

マルチレベル分析を使うタイミングは、分析対象が「ネスト」している状態の時です。ネストしている分析対象とは、「各学校の中の各生徒」、「各国の各個人」、「各企業の各従業員」などはネストしている代表例です。言い換えると、各学校(A,B,C,…)があって、その各学校に生徒(1,2,3,…)が所属している状態のことで、まず「学校」という単位でサンプリングし、次にその学校の「個人」をサンプリングするという階層に分けることができます(多段抽出法)。以下の図のようになります。

f:id:teruaki-sugiura:20150921152557p:plain

日本語では、「入れ子構造のデータ」とか「階層性データ」呼ばれています。このような対象をマルチレベル分析することで、おのおのの水準にまたがる変数間の関係を明らかにできます。 

例えば、親のSESが子供の学力に与える影響は、どのような特徴を持つ学校で強いのか。 三輪・林(2014)SPSSによる応用多変量解析 

つまり、学校特性と親のSESが子供の学力に異なる影響を与えているのかどうかを検討することを目的としています。

 

□マルチレベル分析のすすめ

親のSESや学校特性が子供の学力に与える影響を分析するのであれば、重回帰分析でいいのでは?と疑問に思うこともあると思いますが、それはオススメできません。なぜなら、回帰分析のいくつかの決め事を破っているからです。

 

〆非ランダムサンプリング

通常の回帰分析は「説明変数と誤差項の独立性」を仮定しています。つまり、ランダムサンプリングが行われていること大前提です。先ほど見たようにネストされているデータは、独立性を仮定しているといえるでしょうか。学校をサンプリングしている段階では「独立」と言えますが、その学校内の生徒をサンプリングしている段階で、「独立」ではなくなっている。その学校の中から選ばれた生徒たちはなんらかの同じ傾向を持っていると予想できます。つまり、同じ傾向や特徴を持っていることで、誤差項が互いに独立ではなくなってしまうのです。その結果、サンプルが持つ情報量が減り、回帰係数の標準誤差が過少推定され、検定結果が誤ります(タイプⅠエラーが起こりやすくなってしまう)。

 

〆級内相関係数(Intra-class Correlation Coefficient = ICC)

さきほど、問題の一つとして、同じ傾向や特徴を持つことで、誤差項が互いに独立ではなくなってしまうと書きましたが、同じ傾向を持っている、持っていない、という評価をどのように行えばよいでしょうか。分析者が「同じ傾向などありません!!だからマルチレベル分析なんて必要ない!!」と主張し続けられても、こちらとして納得のいくものとはいえませんね。なので、客観的かつ数学的な指標として、「級内相関係数」というものを使います。級内相関を理解するために、分散分析を理解していれば理解が促されると思います。よかったら、前回の記事を参照してくださると幸いです。級内相関の定義は以下のようになります。

f:id:teruaki-sugiura:20150921152740p:plain

級内相関係数は、集団間分散が大きくなると係数は高くなり、集団内分散が大きくなると、係数は小さくなります。−1から1までの範囲を取ります。級内相関が高い場合、一つの集団から発生したサンプルではなく、異なる集団から発生したサンプルと考える必要があります。

f:id:teruaki-sugiura:20150921152845p:plain

f:id:teruaki-sugiura:20150922153716p:plain

1つのまとまりと考え、分析をしてしまうと、生物学的誤謬を犯す可能性があります。これらを判断する基準としては「級内相関係数が0.1以上」や「係数が有意な場合」のとき、ネストしていると判断します。係数が有意な場合で判断する時は、検定力分析のときにもかくましたが、p値はサンプルサイズに依存しますのでご注意ください。かといって、0.1以上という基準が絶対的というわけでもありません。

 

〆生物学的誤謬

マルチレベル分析を行わず、通常の回帰分析を行なった場合、誤った結論を導きかねません。つまり、集団で言えている特徴が、個人では言えなくなってしまう生物学的誤謬を引き起こす結果となりかねません。よく聞く話ですが、単回帰分析で全体としては負の傾きになっているのですが、グループごとに見たときに、傾きが全て正になってしまう・・・というやつです。図で描くとこんな感じです。

f:id:teruaki-sugiura:20150921152924p:plain

 

□マルチレベル分析のモデル

この分析の目的は、「親のSESが子供の学力に与える影響は、どのような特徴を持つ学校で強いのか」ということを検討することです。そのゴールに向かって、少しずつマルチレベルモデルの構築を進めていきましょう。その前に、「変量効果」「固定効果」の説明を簡単にします。「変量効果」は、確率変数として表される効果のことで、「固定効果」は定数として表される効果のことです。今回の分析モデルのゴールは以下のような数式になります。

f:id:teruaki-sugiura:20150921153022p:plain

まず初めに、一番単純な回帰モデルを構築してパーツを追加していきましょう。以下の(1)のようになりますね。ここでのxは「親のSES」だと思ってください。集団間のことも考慮せず、とりあえず直線を引っ張ってみたという感じです。よく見慣れたモデルです。また、ここでの添字iは個体を表します。

f:id:teruaki-sugiura:20150921153047p:plain

(1)に集団での違いを表現するため、つまりネストされている状態を表現するため、添字jを追加します。しかし、無闇矢鱈に全部の変数にiとjを追加すればよいというわけではなく、集団で推定される回帰係数や切片に追加します。(2)は「レベル1」の式と呼ばれます。(3)(4)は「レベル2」の式と呼ばれます。

f:id:teruaki-sugiura:20150921153233p:plain

(2)に(3)(4)を代入すれば、(5)になります。展開すれば(6)になります。ここでのγは固定効果を表し、uは確率的に変動する変量効果を表しています。つまり、サンプルデータ全体の切片、回帰係数をγが表し、添字jが付いているuが確率的にばらつく集団間の変動を表します。しかし、このままでは今回の仮説を検討出来ません。なぜなら学校特性を表せていないからです。そこで(3)と(4)を(3)’と(4)’に変えてみます。ここで、「学校特性」はzで表します。もちろんzは集団間の変数なので添字はjのみです。(3)’と(4)’を(2)に入れてやれば(7)の式になり、展開すればゴールの(8)になります。

f:id:teruaki-sugiura:20150921153543p:plain

f:id:teruaki-sugiura:20150921153551p:plain

(3)' は集団間における切片の変動を表しています。言い換えると、集団によってyの平均が異なることを表しています。(4)' は集団間における係数の変動を表しています。言い換えると、集団によってxの係数が異なることを表しています。つまり、この(8)は切片と傾きが集団間で異なることを意味しています。また、「γzx」は「クロス水準交互作用」と呼ばれます。(9)はランダムパートと固定パートをまとめたものです。

f:id:teruaki-sugiura:20150921153724p:plain

これが基本的なマルチレベル分析のモデル式です。(9)のような表記を混合表記と言います。さて、基本形までは到達したのですが、uはどのようにばらつくのでしょうか。uは平均0、分散τの多変量正規分布に従うことが知られています。

f:id:teruaki-sugiura:20150923000646p:plain

uのばらつきがわかれば、切片や係数がどの程度、集団でばらつくかを明らかにできるので、そこから変数の解釈を行なっていくことになります。

 

以上で今回はおしまい。次回は、結果を解釈するためのセンタリングの方法について書いていきます。

 

□おまけ〜マルチレベル分析のパターン〜

f:id:teruaki-sugiura:20150921154002p:plain

 ※清水(2014)「個人と集団のマルチレベル分析」p24-p25をもとに作成