Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第8回 Rのデータオブジェクトと操作

第8回はRのデータオブジェクトについて書きます。

データオブジェクトとは何か。簡単いうと、処理対象のデータセットのことです。Rでは実数、文字、論理値などのデータを、ベクトル、行列、データフレーム、リストなどの形式で扱います。

例えば、xに100を入れ、class関数で型式を確認してみましょう。

> x<-100
> class(x)  #形式を確認
[1] "numeric"

 xは「実数」と確認できます。

> vec <- c(1:5)
> vec
[1] 1 2 3 4 5
> class(vec)
[1] "integer"

vecは整数クラスとして扱われます。

> x <- c(TRUE, FALSE)
> x
[1] TRUE FALSE
> class(x)
[1] "logical"
> as.numeric(x)
[1] 1 0

 xは論理値と確認されます。ここからは、Rにあらかじめ用意されているデータを使ってみていきます。例えば、women、iris、esophなどがあります。詳しくR: The R Datasets Packageで確認ください。

 

では「iris」を表示してみましょう。3種のあやめ(Iris setosa, versicolor, virginica)を各50本集め、花弁長、花弁幅、がく長、がく幅で構成されているデータセットです。

>iris

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species

1           5.1           3.5            1.4            0.2     setosa

2           4.9           3.0            1.4            0.2     setosa

3           4.7           3.2            1.3            0.2     setosa

・・・省略

148        6.5           3.0            5.2              2.0     virginica

149        6.2           3.4            5.4              2.3     virginica

150        5.9           3.0            5.1              1.8     virginica

 データセットの頭3行を表示させましょう。尻3行を表示する場合はtail関数を利用します。

>head(iris,3) #データセットの頭の3行を表示させる

   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species

1           5.1           3.5            1.4            0.2     setosa

2           4.9           3.0            1.4            0.2     setosa

3           4.7           3.2            1.3            0.2     setosa

 irisの形式を確認してみましょう。

> class(iris)
[1] "data.frame"

データフレームとして、扱われています。

あとはデータセットの特徴を調べましょう。

> nrow(iris) #行数を返す
[1] 150
> ncol(iris) #列数を返す
[1] 5
> dim(iris) #行数、列数を返す
[1] 150 5

データセットの尺度を調べましょう。統計解析では尺度を意識することは重要です。

ordered=順序尺度

factor=名義尺度

numeric=量的尺度

> class(iris[,1]) #1列目の尺度を調べる

[1] "numeric"

> class(iris[,2]) #2列目の尺度を調べる
[1] "numeric"
> class(iris[,3]) #3列目の尺度を調べる
[1] "numeric"
> class(iris[,4])  #4列目の尺度を調べる
[1] "numeric"
> class(iris[,5])  #5列目の尺度を調べる
[1] "factor"

 最後に、データセットを修正するときはfix関数を利用します。

関数おさらい

class():形式を調べる

head():データセットの先頭から指定行数を返す

tail():データセットの最後から指定行数を返す

nrow():行数を返す

ncol():列数を返す

dim():行数、列数を返す

fix():データセットを修正する

SPSSでは変数ビューでデータセットを操作してましたが、Rではいろいろと大変です。笑 

 

以上で第8回はお終い。

広告を非表示にする