Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

テキストマイニング

テキストマイニングはじめました〜その11〜

今回はTwitterとRを連携させて、テキストマイニングを実行していきます。Twitterはリアルタイムで「言葉」が集まってくるメディアなので、テキストマイニングを行えば、「今がわかる!!!!!」かもしれないですね。例えば、NHKの夜のニュース番組でも「つ…

テキストマイニングはじめました〜その11〜

こちらのブログは移転しました。 ベイズ統計が中心のブログです。もしご興味がおありでしたら、アクセスいただけますと幸いです。 Rで学ぶベイズ統計学 今回はとRを連携させて、テキストマイニングを実行していきます。Twitterはリアルタイムで「言葉」が集…

テキストマイニングはじめました~その10~

今回はwordcloud関数の使い方をみていきます。wordcloud関数の説明は以下のページでもされているのですが、テキストマイニング初心者の私では、想像力が足りないため、出力された結果がどのような過程で出力されているのかわかりませんでした・・・ なので、…

テキストマイニングはじめました〜その9〜

今回はテキストマイニングとコレスポンデンス分析(対応分析)について見ていきます。目標は以下の通りです。 自由記述の回答を成形し、対応分析を行うこと 今回利用する自由記述のデータは、STAP細胞でおなじみの小保方先生著「あの日」のアマゾンのレビュ…

テキストマイニングはじめました〜その8〜

今回の目的は、以下の通りです。 テキストの長さを比較し、Brunner-Munzel Testで差を調べる 今回使用するデータは、石田先生著「テキストマイニング入門」からお借りしています。このデータもとは徳島大学の岸江先生の「日本語の配慮表現」に関する研究の際…

テキストマイニングはじめました〜その7〜

今回の目的は、最近?公開されたMeCabで使用する辞書「mecab-ipadic-neologd」をRMeCabで使うまでの道のりを書き記しました。なので、今回の目標は以下のとおりです。 Macで「mecab-ipadic-neologd」をRMeCabで使う 以下の公式ページを見ればなんとなくわか…

テキストマイニングはじめました〜その6〜

今回は共起関係を中心に学習していきます。この記事の目標は以下の通りです。 目標 collocate()関数、collScore()関数、T値、MI値の理解 また、今回使用するフォントは「国鉄方向幕書体」です。特徴は、懐かしさを思い出させる字体です。教科書とか、博物館…

テキストマイニングはじめました〜その5〜

今回はNgramを中心に学習していきます。そのため、この記事の目標は以下の通りです。 目標 Ngram()関数、NgramDF()関数、NgramDF2()関数、docNgram()関数、 Ngram2()関数を理解する また、今回使用するフォントは「はんなり明朝」です。特徴は、やさしくて、…

テキストマイニングはじめました〜その4〜

テキストマイニングのことを書き始めてはや4つ目です。今回の記事の目的は以下の通りです。 docMatrix()関数、docMatrix2()関数、docMatrixDF()関数、文書行列の重み付けの理解 気にしてないと思いますが、今回使用するフォントは「青柳衡山フォントT」です…

テキストマイニングはじめました〜その3〜

前回に引き続きテキストマイニングについて勉強していきます。今回の目標は以下のとおりです。 RMeCabC()関数、RMeCabText()関数、RMeCabFreq()関数、RMeCabDF()関数を理解する また、今回使用するフォントは「あおぞら明朝」です。 Rヘルプによれば、RMeCab…

テキストマイニングはじめました〜その2〜

今回から、さっそくRMeCab(R和布蕪)を使いながらテキストマイニングを学習していきます。MeCabというのは形態素解析をするためのツールです。名前の由来は、開発者の工藤さんがMeCab(和布蕪)が好物らしく、それに由来したと聞いております。また、RMeCab…

テキストマイニングはじめました〜その1〜

「冷やし中華はじめました」みたいな触れ込みたいですね。久々の更新です。今回からテキストマイニングに挑戦していきます。テキストマイニングは大学院の時もノータッチだったので、初歩の初歩から復習がてら書いていきます。正確には「初心者がテキストマ…