読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

このブログはこちらに移動になりました。

このブログはこちらに移動になりました。 http://rtokei.tech/ 長い間ありがとうございました。 今後はこちらのサイトで記事の更新を行っていきます。 Twitterはじめました。 最新のポストはこちらのツイッターアカウントよりおしらせしますので、 ぜひフォ…

第80回 因子ベクトルのあれこれ

今回は「因子ベクトル」のあれこれを見ていきます。個人的には、なんかエラーが出ていると、原因は因子ベクトルにまつわるものでした…ということが多いので、因子ベクトルを再学習したものをまとめました。では行きましょう。 因子ベクトルとは!? CRANに載…

第79回 ggplot備忘録その9

今回は、ggplotのファセット(faset)を見ていきます。データを視覚化するときに、これでもいいんだけど、もう少し上手くグループでまとめられないか・・・という時に役立つオプションです。つまり、ファセットを使うことで、サブグループ毎に視覚化することが…

大学の時の備忘録〜社会心理学〜

以下は備忘録です。大学院の時に社会心理学を学んでおり、そのときの講義、参考書、文献のメモです。そのため、申し訳ありませんが、引用元の明記および引用範囲が明確ではありません。間違っている場合も多いにありえます。参考にされた方はご了承ください…

大学の時の備忘録〜社会学〜

以下は備忘録です。大学院の時に社会心理学を学んでおり、そのときの講義、参考書、文献のメモです。そのため、申し訳ありませんが、引用元の明記および引用範囲が明確ではありません。間違っている場合も多いにありえます。参考にされた方はご了承ください…

番外編〜行列の「行」って、「横」なの?「縦」なの?どっちなの?〜

今回は番外編です。番外編を書くきっかけは、Twitterを見てたらRowとColumnの方向を覚えたけど、すぐ忘れてどっちがどっちかわからない、というつぶやきを発見したので、まさに過去の自分のようで、、、、、そのような人たちのお力になれたらと思い急遽、番…

テキストマイニングはじめました〜その11〜

今回はTwitterとRを連携させて、テキストマイニングを実行していきます。Twitterはリアルタイムで「言葉」が集まってくるメディアなので、テキストマイニングを行えば、「今がわかる!!!!!」かもしれないですね。例えば、NHKの夜のニュース番組でも「つ…

テキストマイニングはじめました~その10~

今回はwordcloud関数の使い方をみていきます。wordcloud関数の説明は以下のページでもされているのですが、テキストマイニング初心者の私では、想像力が足りないため、出力された結果がどのような過程で出力されているのかわかりませんでした・・・ なので、…

テキストマイニングはじめました〜その9〜

今回はテキストマイニングとコレスポンデンス分析(対応分析)について見ていきます。目標は以下の通りです。 自由記述の回答を成形し、対応分析を行うこと 今回利用する自由記述のデータは、STAP細胞でおなじみの小保方先生著「あの日」のアマゾンのレビュ…

テキストマイニングはじめました〜その8〜

今回の目的は、以下の通りです。 テキストの長さを比較し、Brunner-Munzel Testで差を調べる 今回使用するデータは、石田先生著「テキストマイニング入門」からお借りしています。このデータもとは徳島大学の岸江先生の「日本語の配慮表現」に関する研究の際…

テキストマイニングはじめました〜その7〜

今回の目的は、最近?公開されたMeCabで使用する辞書「mecab-ipadic-neologd」をRMeCabで使うまでの道のりを書き記しました。なので、今回の目標は以下のとおりです。 Macで「mecab-ipadic-neologd」をRMeCabで使う 以下の公式ページを見ればなんとなくわか…

テキストマイニングはじめました〜その6〜

今回は共起関係を中心に学習していきます。この記事の目標は以下の通りです。 目標 collocate()関数、collScore()関数、T値、MI値の理解 また、今回使用するフォントは「国鉄方向幕書体」です。特徴は、懐かしさを思い出させる字体です。教科書とか、博物館…

テキストマイニングはじめました〜その5〜

今回はNgramを中心に学習していきます。そのため、この記事の目標は以下の通りです。 目標 Ngram()関数、NgramDF()関数、NgramDF2()関数、docNgram()関数、Ngram2()関数を理解する また、今回使用するフォントは「はんなり明朝」です。特徴は、やさしくて、…

テキストマイニングはじめました〜その4〜

テキストマイニングのことを書き始めてはや4つ目です。今回の記事の目的は以下の通りです。 目標 docMatrix()関数、docMatrix2()関数、docMatrixDF()関数、文書行列の重み付けの理解 気にしてないと思いますが、今回使用するフォントは「青柳衡山フォントT…

テキストマイニングはじめました〜その3〜

前回に引き続きテキストマイニングについて勉強していきます。今回の目標は以下のとおりです。 RMeCabC()関数、RMeCabText()関数、RMeCabFreq()関数、RMeCabDF()関数を理解する また、今回使用するフォントは「あおぞら明朝」です。 Rヘルプによれば、RMeCab…

テキストマイニングはじめました〜その2〜

今回から、さっそくRMeCab(R和布蕪)を使いながらテキストマイニングを学習していきます。MeCabというのは形態素解析をするためのツールです。名前の由来は、開発者の工藤さんがMeCab(和布蕪)が好物らしく、それに由来したと聞いております。また、RMeCab…

テキストマイニングはじめました〜その1〜

「冷やし中華はじめました」みたいな触れ込みたいですね。久々の更新です。今回からテキストマイニングに挑戦していきます。テキストマイニングは大学院の時もノータッチだったので、初歩の初歩から復習がてら書いていきます。正確には「初心者がテキストマ…

ベイズ統計学その20〜ベイズ推定を用いたt検定〜

□Bayesian Estimation Supersedes the t Test(BEST) 本日はベイズで平均値の差の検定を行っていきます。使用パッケージはBESTですが、JAGSもインストールしておく必要がありますので、ご注意ください。また、以下2本の論文と説明書を参考にしております。 ・…

第78回 ブートストラップ法

今回はブートストラップ法について見ていきましょう。ブートストラップ法はモンテカルロ法の一種で、標本から標本を再抽出することで、母集団の性質を推測する方法のことです。観測されたサンプルデータから母集団の性質を推測するとき、必ず誤差が生じてい…

ベイズ統計学その19〜個体差と場所差を含む階層ベイズモデル〜

今回はrjagsを使って、個体差と場所差を含めた階層ベイズモデルを動かしていきます。 今回の内容とデータは久保先生の「データ解析のための統計モデリング」を参考に一部修正・変更したものです。 とにかく、一般化線形モデルから階層ベイズまでを学習したい…

ベイズ統計学その18〜ポアソン回帰、負の二項回帰とJAGS〜

今回はポアソン回帰モデル、負の二項回帰モデルをJAGSで動かしてみましょう。ポアソン回帰モデルの説明はもはや不必要だと思いますが、簡単におさらいします。数学的な話はしません。目的変数yがポアソン分布に従うような場合に、扱うモデルで、いわゆる一般…

ベイズ統計学その17〜二項ロジットとJAGS〜

今回は二項ロジットモデルをJAGSで動かしてみましょう。二項ロジットモデルの説明はもはや不必要だと思いますが、簡単におさらいします。数学的な話はしません。目的変数yが0,1のような2値データの時に、扱うモデルで、いわゆる一般化線形回帰モデルの一つで…

第77回 当たりが出やすい宝くじ売り場!?

第77回は、たまにはブログも息抜きも必要ということで「当たりが出やすい宝くじ売り場!?」は存在するのか否かについて考えてみます。おそらく皆様の近所にも存在する「当たりが出やすい」と謳っている宝くじ売り場のことです。さてはて、本当なのでしょ…

第76回 重回帰分析と交互作用〜説明変数が2つ以上の時の作図〜

久しぶりの更新です。このブログのアクセス解析ページを見てみると、重回帰分析と交互作用のページへのアクセスが多いようなので、それに関連するトピックで記事を書いていきます。過去の関連記事は以下から参照ください。 第31回 回帰分析と重回帰分析 - …

第75回 ポリコリック相関係数・ポリシリアル相関係数

R

ポリコリック相関係数のp_11~p_00のp_00の式に誤りがありましたので、修正しました。(2016年2月21日) ポリコリック相関係数・ポリシリアル相関係数 カテゴリ変数の関係をみようとすると、これまではスピアマンの順位相関係数とかケンドールの順位相関係数…

ベイズ統計学その16〜 Just Another Gibbs Sampler(JAGS)〜

前回は、MCMCpackを用いて、回帰分析のパラメタをMCMCで推定しましたが、MCMCpackを用いない方法でも分析することができます。それが「JAGS」です。JAGS は Just Another Gibbs Sampler の略です。「rjags」パッケージをインストールすれば、Rから JAGSを利…

ベイズ統計学その15〜線形回帰モデルとMCMC〜

今回はMCMCを使った線形回帰モデルをRで実践しながら見ていきます。その過程ででくわす基本的な用語も攫っていきます。 ベイズの線形回帰モデルを考える際には、未知パラメタβと誤差項のσ^2を求めることが目標になります。その際に、尤度関数をどう考えるか…

第74回 ポアソン分布とサッカーのゴール数

今回は、ポアソン分布とサッカーのゴール数の関係をもとに、基本的なポアソン分布の説明から、オフセットと過分散も検討したポアソン回帰までみていきます。 ポアソン分布 サッカーのゴール数がポアソン分布に従うことは有名な話ですね。そもそもポアソン分…

ベイズ統計学その14〜線形回帰モデルの補足〜

線形回帰モデル ここでは、照井伸彦先生の「Rによるベイズ統計分析」を参考にさせてもらいます。 誤差項の尤度関数の部分は他の参考書には詳細に載っていなかったのですが、この本には詳しく書かれており、大変参考になりました。より詳しくはこの本をみてく…

ベイズ統計学その13〜Bayesian Computation with R〜

今回から、ベイズ統計学の続きを進めてまいります。その続きで参考にさせていただくのは、「Bayesian Computation with R(Rで学ぶベイズ統計学入門)」の英語版(ネットに落ちてた)です。 例題〜アメリカ人大学生の睡眠時間調査〜 アメリカの大学生の睡眠…

第73回 データの整形に関する備忘録

個人的には重要なのにすぐ忘れるので、データの整形に関する備忘録。 □データフレームの操作 □因子の順序を変更 > sizes <- factor(c("small", "large", "large", "small", "medium”)) > sizes.sml <- factor(sizes, levels = c("small", "medium", "large”)…

第72回 ggplot備忘録その8

今回はヒストグラムに関するggplotのコードを見ていきます。 基本的な設定ではビンの数が30になっているので、binwidthで調整することも忘れずに。また、同じデータでも、調整次第では全く違うように見させることも可能ですが、そうならないように注意する必…

第71回 apply familyとdplyrパッケージの備忘録

今回はapply familyについて見ていきます。apply familyとは大量のデータを効率よく処理してくれる関数群のことです。for文を書かなくてもapply familyで解決できることもあります。apply familyには、apply(),tapply(),lapply(), sapply(),mapply()がありま…

第70回 ggplotの備忘録その7

今回は散布図に回帰直線と信頼区間を書き込み場合のggplotのコードを見ていきます。 単回帰分析であってもRのベースグラフィックから散布図に信頼区間を書き込むのは苦労しますが、ggplotでは非常に簡単です。ggplotが自動的に計算してくれます。 > ggplot(d…

第68回 ggplotの備忘録その5

今回は折れ線グラフを中心に見ていきます。注意することは、x軸には連続変数をもってくることが多いですが、離散変数を使う場合はファクタ化する必要があることかなー。 ggplot(demo, aes(x = no, y = y, col = class)) + geom_line(linetype = "dashed") + …

第67回 ggplotの備忘録その4

今回はggplot2の棒グラフを中心にみていきます。棒グラフを作成する際に注意すべき点は、y軸に「個数」を配置するのか、「値」を配置するのかを区別することくらいかなー。 > ggplot(demo, aes(x = order, y = y))+geom_bar(stat = "identity") #stat="iden…

第69回 ggplotの備忘録その6

今回は散布図を中心にみていきます。注意することは、、、、点が重ならないように少しだけずらすことぐらいかなー。 > ggplot(demo, aes(x = x1, y = y, shape = class, col = rank)) + geom_point(size = 5) + scale_shape_manual(values = c(4, 7)) + scal…

第66回 ggplotの備忘録その3

今回はggplot2で基本的なグラフを作成していくことが目的となります。基本的なグラフは、散布図、折れ線グラフ、棒グラフ、ヒストグラム、ボックスプロットなどです。ggplotの基本的な考え方については、この記事を参照ください。 sugisugirrr.hatenablog.co…

第65回 ggplotの備忘録その2

年末はグラフィックに集中してまとめていきます。個人的にRを使う時にグラフィック関係のコードをよく忘れてしまうので、備忘録として書いていきます。基礎の基礎から始めて、ggplotまで書く予定です。では、まずは基本的なものから見ていきましょう。それは…

第64回 畳み込み(合成積) ~Convolution~

久しぶりの更新です。ベイズもやっていく予定ですが、年末はRのグラフィック関係についてまとめていくことにします。そうといいながらも今回は例外的に「畳み込み」についてみていきます。畳み込みは確率分布の導出過程を勉強しているとでてきます。カイ二乗…

ベイズ統計学〜記事まとめ〜

ベイズ統計学に関する記事をまとめました。 年末で仕事がバタバタしていて、最近更新できない。。。。 年始にはベイズをRで実践していきます!(2016.2.6) 記事を更新しました。(2016.4.2)

ベイズ統計学その12〜階層ベイズモデル〜

今回は階層ベイズモデルについて見ていきます。階層ベイズモデルとはなんでしょう。Wikipediaによると、(日本語版にはありませんでした。。。) Bayesian hierarchical modeling is a statistical model written in multiple levels (hierarchical form) th…

ベイズ統計学その11〜回帰モデルの応用〜

さて、今回は前回の回帰分析の応用編となります。被説明変数が連続的でなく、離散的な値(個数や計測データなど)を取る場合には、GLMの説明の時にしたように、ポアソン回帰分析(非線形回帰モデル)を用いることになります。また、2値変数ならプロビット回…

ベイズ統計学その10〜線形回帰モデル〜

さて今回はベイズの考え方を線形回帰モデルに応用することを考えてみます。頻度論の回帰分析では、あるyに対して、変数xがどのように関係しているかを分析することを目的としています。つまり以下のよう感じです。 そしてこの式のパラメタを最小二乗法なり最…

ベイズ統計学その9〜Markov Chain Monte Carlo法〜

X_tがX_t =1またはX_t=2のいずれかを取る時、t→t+1に移動する確率を考えます。t時点でX_t =iであり、t+1時点X_t+1 =jとすると、以下のように条件付き確率を考えられます。これは時間tに依存しておらず、このような状態をマルコフ連鎖(離散型)と言いま…

ベイズ統計学その8〜Monte Carlo法〜

これまでは、事後分布の評価方法として、解析的に求めることができる自然共役事前分布の説明をしてきましたが、今回は解析的な方法ではない数値的に事後分布を評価する方法を見ていきます。いわゆるMonte Carlo法のことで、おそらくベイズ統計学の難所?(個…

ベイズ統計学その7〜ベイズファクター、DIC、BIC〜

一部、間違いがありましたので、20151031に修正しました。申し訳ありません。 これまでは暗黙的に正規分布、二項分布、逆ガンマ分布などなど特定の分布をあてて分析を行ってきましたが、実際の分析ではどのように分布を特定すれば良いのでしょうか。そのモデ…

ベイズ統計学その6〜平均と分散の推定〜

尤度が正規分布に従い、σ2が既知の場合のμの推測を行なっていきます。xに関するn個のランダムサンプリングの観測値の尤度関数p(x|μ,σ2)はサンプルの積で表されます。 次にμが正規分布に従うとすると、事前分布は以下のようになります。 以上より、尤度と事前…

ベイズ統計学その5〜自然共役事前分布〜

前回は事前分布として、「無情報事前分布」と「階層事前分布」を紹介しましたが、「自然な共役事前分布」というものがあります。前回も言葉くらいは紹介したかもしれませんが、今回は実例交えて見ていきます。 そもそも自然な共役事前分布とは、事前分布と事…

ベイズ統計学その4〜事前分布〜

事前分布について書いていきます。パラメタθについて、分析する人が何らかの事前情報を持っているとき、確率分布として以下の形で表現できる。また、これをパラメタの事前分布という。 事前分布に尤度関数を混ぜ合わせた際に、事後分布が事前分布と同じクラ…