読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

第8回 Rのデータオブジェクトと操作

第8回はRのデータオブジェクトについて書きます。 データオブジェクトとは何か。簡単いうと、処理対象のデータセットのことです。Rでは実数、文字、論理値などのデータを、ベクトル、行列、データフレーム、リストなどの形式で扱います。 例えば、xに100を入れ、class関数で型式を確認してみましょう。

> x<-100 
> class(x)  #形式を確認
[1] "numeric"

 xは「実数」と確認できます。

> vec <- c(1:5)
> vec
[1] 1 2 3 4 5
> class(vec)
[1] "integer"

vecは整数クラスとして扱われます。

> x <- c(TRUE, FALSE)
> x
[1] TRUE FALSE
> class(x)
[1] "logical"
> as.numeric(x)
[1] 1 0

 xは論理値と確認されます。ここからは、Rにあらかじめ用意されているデータを使ってみていきます。例えば、women、iris、esophなどがあります。詳しくR: The R Datasets Packageで確認ください。   では「iris」を表示してみましょう。3種のあやめ(Iris setosa, versicolor, virginica)を各50本集め、花弁長、花弁幅、がく長、がく幅で構成されているデータセットです。

>iris
   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species
1           5.1           3.5            1.4            0.2     setosa
2           4.9           3.0            1.4            0.2     setosa
3           4.7           3.2            1.3            0.2     setosa
・・・省略
148        6.5           3.0            5.2              2.0     virginica
149        6.2           3.4            5.4              2.3     virginica
150        5.9           3.0            5.1              1.8     virginica

 データセットの頭3行を表示させましょう。尻3行を表示する場合はtail関数を利用します。

>head(iris,3) #データセットの頭の3行を表示させる
   Sepal.Length  Sepal.Width  Petal.Length  Petal.Width  Species
1           5.1           3.5            1.4            0.2     setosa
2           4.9           3.0            1.4            0.2     setosa
3           4.7           3.2            1.3            0.2     setosa

 irisの形式を確認してみましょう。

class(iris)
[1] "data.frame"

データフレームとして、扱われています。 あとはデータセットの特徴を調べましょう。

> nrow(iris) #行数を返す
[1] 150
> ncol(iris) #列数を返す
[1] 5
> dim(iris) #行数、列数を返す
[1] 150 5

データセットの尺度を調べましょう。統計解析では尺度を意識することは重要です。 ordered=順序尺度 factor=名義尺度 numeric=量的尺度

> class(iris[,1]) #1列目の尺度を調べる
[1] "numeric"
> class(iris[,2]) #2列目の尺度を調べる
[1] "numeric"
> class(iris[,3]) #3列目の尺度を調べる
[1] "numeric"
> class(iris[,4])  #4列目の尺度を調べる
[1] "numeric"
> class(iris[,5])  #5列目の尺度を調べる
[1] "factor"

 最後に、データセットを修正するときはfix関数を利用します。

関数おさらい
class():形式を調べる
head():データセットの先頭から指定行数を返す
tail():データセットの最後から指定行数を返す
nrow():行数を返す
ncol():列数を返す
dim():行数、列数を返す
fix():データセットを修正する

SPSSでは変数ビューでデータセットを操作してましたが、Rではいろいろと大変です。笑    以上で第8回はお終い。

広告を非表示にする