Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

R

第48回 ロジスティック回帰分析

第48回はロジスティック回帰分析について書きます。ロジスティック回帰分析を簡単に説明すると、目的変数が「2値」の時に利用する分析手法です。例えば、売れる/売れない、勝つ/負ける、投票する/投票しない、発生する/発生しない、0/1、などなどです。普…

第46回の補足の補足 重回帰分析×交互作用項(質的×質的)

第46回で交互作用と重回帰分析について書きましたが、それの補足記事です。 説明変数が、質的×質的の交互作用項を含めた場合、どのように係数を解釈すればよいのでしょうか。 例を示して説明します。性別によって生活する国が幸福度に与える影響を明らかに…

二項検定と大阪ダービー(ガンバ大阪 vs. セレッソ大阪)

今回は二項検定を使って、サッカーJ1リーグ、ガンバ大阪とセレッソ大阪のどちらが強いのかを検定してみたいと思います。 二項検定とは、試合に勝つ・負けるというような2値しかとらない変数を対象とする検定法です。これまで、ガンバ大阪とセレッソ大阪の通…

第45回 重回帰分析と交互作用

第45回の補足では、重回帰分析と交互作用について書きます。 20150810時点で訂正しました。 数式解説の部分、mとzが混同しておりました。ただしくはmです。 申し訳ありません。 20150927時点:以下の記事を追加しました。 ・交互作用とは 重回帰分析では交…

第43回 変数間の関連パターン

第43回は変数間の関連について書きます。次回、重回帰分析の「階層的」重回帰分析の記事を書くために、変数間の「媒介関係」をおさえましょう。次いでに「疑似相関」「交互作用」についてもおさえておきましょう。 □媒介関係 xが原因変数、yが結果変数とし…

第42回 仮説検定

第42回は検定について書きます。仮説検定では、「差がある」「差がない」、「薬の影響がある」「薬の影響がない」というように、仮説を設定します。その際に、帰無仮説は基本的に、「主張したいこと」の反対のものを設定します。???って初めはなります…

第41回 AIC

第41回はAICについて書きます。 以前の記事でもモデル選択の記事でAICはちらっと紹介しましたが、今回はAICに焦点をあてて書いていきます。数式はほとんど使いません。 □AICの考え方 モデル選択では、問題意識として、どのような統計モデルを選択するべき…

第40回 パラメタ推定法(最尤法) 

第40回はパラメタ推定法(最尤法)について書きます。 パラメタの推定法はいくつかありますが、回帰分析では特に指定がない限り、「最小二乗法」を使ってパラメタを推定します。しかし、回帰分析の種類によっては、最小二乗法でパラメタを求めることが好ま…

第38回 因子分析

第38回は因子分析について書きます。 そもそも因子分析は、「探索的因子分析」と「検証的因子分析」の2つに分けられます。ここでは、「探索的因子分析」のことについて書いていきます。 因子分析は端的に言うと、「データの背後に存在するであろう説明変…

第37回 主成分分析

第37回は主成分分析について書きます。 主成分分析と因子分析はセットで語られることが多く、似たような分析法というイメージが強いのですが、目的が違います。主成分分析は「情報をまとめること」を目的としており、因子分析のように変数の背後にある潜在…

第35回 モデル選択

第35回はモデル選択について書きます。前回の記事で、重回帰分析では変数の選択が重要とかきました。そこで今回は、変数の有効な選択法について書いていきます。 変数選択法には大きく3つあります。 ①変数増加法:説明変数1つから順次増やしていく ②変数…

第34回 重回帰分析

第34回は重回帰分析について書きます。 重回帰分析は単回帰分析の説明変数が1つではなく、複数になったものです。単回帰分析のときには問題にならなかった「多重共線性(マルチコリニアリティ)」ということを考慮しなければいけません。 多重共線性:回…

第32回 区間推定

第32回は区間推定について書きます。 前回は回帰分析の信頼区間や予測区間について書きましたが、統計的推定について書いていなかったので、順番逆ですが「そもそも」区間推定とは何か、これが今回のお話です。 標本→母集団のパラメタを推定する方法は2つ…

第31回 回帰分析の信頼区間・予測区間

第31回は回帰分析の信頼区間・予測区間について書きます。 前回は、母平均の信頼区間についてかきましたが、回帰分析では、母回帰の推定を行うことになります。信頼区間の解釈は前回記事と同じです。予測区間とは、xの値は信頼率○%でいくつ以上、いくつ以…

第30回 信頼区間

はやいもので第30回に突入。とはいっても、忘れた時に見返すために学生の頃にメモに書いていた授業・自習の内容をはてなブログに載せているからですが・・・ そんな個人的なことはさておき、本日は信頼区間について書きます。 信頼区間は案外、解釈が難し…

第31回 回帰分析と重回帰分析

第31回は回帰分析と重回帰分析について書きます。 説明変数が 1つの場合=単回帰分析 説明変数が 2つ以上の場合=重回帰分析 線形回帰、非線形回帰に回帰分析は分類できるが、「線形」回帰の由来は「yとxの関係を直線で表せる」からである。まずは単回帰…

第13回の補足 2変量以上の相関係数 

第13回の補足では2変量の相関係数について書きます。 相関係数が2変数(データセットでは2列)の場合、cor(x,y)と簡単に相関係数を求めることができましたが、変数が10列、20列と多い場合はどうすればよいでしょうか。1つ1つ、組み合わせて係数を求めて…

第29回 検定の多重性

第29回は検定の多重性について書きます。 以下の書籍のコードを参考に見ていきましょう

第28回 二元配置分散分析(対応なし)

第28回は二元配置分散分析(対応なし)について書きます。 2つの条件の組み合わせによって母平均が異なるかどうかを検定します。例えば、教室A、Bがあり、教室Aの中でも生徒数を10人クラス、20人クラス、30人クラスと分け、教室Bでも同様に振り分ける。教…

第27回 分散分析(対応あり)

第27回は分散分析(対応あり)について書きます。 対応のある分散分析としていきましょう。 対応のある分散分析は例えば、食品a、b、cの美味しさを測定するときに、食品aを1〜5の人に食べてもらい、食品b、食品cも同様に1〜5の人に食べてもらいます。つま…

第26回 分散分析(対応なし)

第26回は分散分析(対応なし)について書きます。 分散分析は3郡以上の母集団の平均値の検定のことです。 例えば、A,B,Cという3郡の母平均は等しいという帰無仮説を設定し、検定します。 ここでAとB,BとC,CとAに分けてt検定を行えば良いのでは??と考える…

第25回 t検定

第25回はt検定について書きます。 t検定は、2群の母集団の平均値が同じかどうかの検定です。t.test()関数を使用して、 デフォルトで引数 var.equal=FALSE が指定され、ウェルチのt検定(非等分散のt検定)が設定されています。var.equal=TRUE とすると等分…

第24回 カイ二乗検定とサンプルサイズのいけない関係

第24回 カイ二乗検定とサンプルサイズの関係について書きます。 > small<-matrix(c(3,8,5,4),2,2)> small > colnames(small) <- c("like","dislike") > rownames(small) <- c("math","stat") > small like dislikemath 3 5stat 8 4 > chisq.test(small,cor…

第23回 カイ二乗検定

第23回はカイ二乗検定について書きます。 カイ二乗検定は、質的変数間の関係を調べるもので、互いの変数が「独立」であるかどうかを調べます。独立とは、関係がないことを意味します。ノンパラメトリックな手法です。ノンパラメトリックとは、「母集団の分…

第22回 無相関検定

第22回は無相関検定についてか書きます。 この検定は、帰無仮説を「母集団において相関係数が=0」と設定し、仮説検定を行います。使用するデータは、第12回と同じ。cor.test関数を利用しする。カッコ内でmethod=以下を指定することで変更できる。 "pear…

第21回 確率分布(F分布)

第21回は確率分布(F分布)について書きます。 F分布とは、カイ二乗分布に従う2つの変数の比 U1 と U2 はカイ二乗分布(自由度がそれぞれd1 、d2 )に従い、U1 と U2 は統計学的に独立で、F分布に従う。(Fom Wikipedia) 分布 確率密度関数 乱数発生関数 …

第20回 確率分布(t分布)

第20回は確率分布(t分布)について書きます。 t分布は連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。また、 2つの平均値の差の統計的有意性を検討するt検定で利用される。t…

第19回 確率分布(カイ二乗分布)

第19回 確率分布(カイ二乗分布)について書きます。 独立に標準正規分布に従う k 個の確率変数 X1, ..., Xk をとる。 このとき、統計量 の従う分布のことを自由度 k のカイ二乗分布と呼ぶ。(From Wikipedia) 分布 確率密度関数 乱数発生関数 カイ自乗分…

第18回 確率分布(正規分布)

第18回は確率分布(正規分布)について書きます。 正規分布またはガウス分布は、平均値の付近に集積するようなデータの分布を表した連続的な変数に関する確率分布である。(From Wikipedia) 分布 確率密度関数 乱数発生関数 正規分布 dnorm(x,0,1) rnorm(…

第17回 確率分布(ポアソン分布)

第17回は確率分布(ポアソン分布)について書きます。 ポアソン分布 とは、所与の時間間隔で発生する離散的な事象を数える特定の確率変数 X を持つ離散確率分布のこと。(From wikipedia)。 確率密度関数 乱数発生関数 ポアソン分布 dpois(x,λ) rpois(n,λ…