読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第62回 Time Seriesデータへの成型

R 多変量解析

Time Seriesデータへの成型

参考にするのは以下の書籍です。

www.shoeisha.co.jp

さて、今回扱うデータ、コードは「楽しいR」のものを利用させてもらいます。目標は、曜日変数とtime lag変数の追加です。

f:id:teruaki-sugiura:20151011103231p:plain

□Time lagとは

データをシフトして比較するときや、前々日や前日が影響を分析するときに、データを意図的にずらすことでタイムラグ変数を作成します。時間tを基準としたとき、Yt-1Ytの1次ラグ、Yt-2を2次ラグ、Yt-kk次ラグと呼びます。タイムラグ変数を作成するときには、関数lag(x,k=数字)を使います。期間や日時を5つずらすのであれば、k=5を入力します。

□Rでの実践

> install.packages(“caret",independent=TRUE)

> library(caret)

> sample <- read.table("sample.txt",header=TRUE)

> days <- weekdays(as.Date(sample$DATE))

#曜日を追加する

> sample1 <- transform(sample,days=days)

#sample1にdaysを追加する

> tmp <- dummyVars(~days,data=sample1)

#曜日をdummy変数化

> day1 <- as.data.frame(predict(tmp,sample1))

#データフレーム化する

> day2 <- day1[c(3,1,4,7,2,5,6)]

#day1の並び順を変更しday2に格納

> ts0 <- ts(sample[,2:5])

#2:5列目を「時系列データ」として認識させる

> ts1 <- cbind(ts0,lagJyunkou=lag(ts0[,1],k=-1),lagListing=lag(ts0[,2],k=-1))

#ts0に、『ts0の”lagJunkou”を1日(k=-1)ずらしたもの追加する。』”lagListing”も同様。

> day3 <- ts(rbind(day2,c(0,0,0,0,0,1,0)))

#行数を合わせるために1行追加

> ts2 <- cbind(ts1,day3)

> ts3 <- ts2[,c(3,4,1,2,5,6,7,8,9,10,11,12,13)]

#並び替え

> colnames(ts3) <- c("cv_Jun","cv_listing","Jun","Listing","lag_Jun","lag_listing","Mon","Tue","Wed","Thu","Fri","Sat”,"Sun")

#名前をつける

> ts4 <-ts3[-55,]

> ts5 <-ts4[-1,]

#55行目と1行目を削除。ts5の完成です。

f:id:teruaki-sugiura:20151011103231p:plain

 

□系列相関

時系列データを分析するときに厄介なのは「系列(自己)相関」の問題ですね。一番よく起こるのは「1階の系列相関」と呼ばれるものです。回帰分析とかでは、誤差項が独立していることが条件ですので、相関を持っているとダメなわけで、t値、F値、R^2もろもろを大きく見積もってしまいます。前年が不調だから今年も不調、前の日の広告が次の日の広告に影響しているとか・・・系列相関が生まれやすい例です。

 

1階の系列相関

 

誤差項uに1階の系列相関がある場合以下のように表せます。f:id:teruaki-sugiura:20151011121311p:plain

この1階の系列相関が起こっているかどうかを調べる方法がダービーワトソン比です。ダービーワトソン比は0~4の範囲を持ちます。つまり、正の相関は0、負の相関は4に近づきますダービーワトソン比は以下のように定義されます。

f:id:teruaki-sugiura:20151011121418p:plain

サンプルサイズが大きいときは、以下のように近似できます。f:id:teruaki-sugiura:20151011121447p:plain

ダービーワトソン検定は判定できない場合がありますのでご注意くだされ。おおよその目安は以下を参考にお願いします。dは判定できない上限、下限を表します。

f:id:teruaki-sugiura:20151011121539p:plain

出典:白砂堤津耶(2004)『初歩からの計量経済学』, p168(色を修正)

f:id:teruaki-sugiura:20151011121536p:plain

 

以上でおしまい。 

 

 

 

にほんブログ村 IT技術ブログへ
にほんブログ村

広告を非表示にする