読者です 読者をやめる 読者になる 読者になる

Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

テキストマイニングはじめました〜その1〜

f:id:teruaki-sugiura:20160430164348p:plain

冷やし中華はじめました」みたいな触れ込みたいですね。久々の更新です。今回からテキストマイニングに挑戦していきます。テキストマイニングは大学院の時もノータッチだったので、初歩の初歩から復習がてら書いていきます。正確には「初心者がテキストマイニングの勉強をはじめました」ですね、、、、さておき、シリーズの目標はテキストマイニングのまとめを作ることとします。もちろんRを使っていきます。

f:id:teruaki-sugiura:20160501221809p:plain

まずは、テキストマイニングとは何なのか?というところから出発します。IT用語辞典によれば、テキストマイニングは以下のように記述されています

テキストマイニングとは、定型化されていない文章の集まりを自然言語解析の手法を使って
単語やフレーズに分割し、それらの出現頻度や相関関係を分析して有用な情報を抽出する
手法やシステム

つまり、文章を区切ることでなんらかの傾向や関係を見つけ出すための技術のようですね。また、この文章を区切った時の品詞の1つ1つを「形態素」と呼び、形態素を基準に解析を行う技術と言えそうです。

テキストマイニングができれば何が嬉しいのでしょうか?色々あると思いますが、以下のような嬉しいことがあります。

・研究の一環でアンケート調査を行い、自由記述を分析し、特定の質問に対する回答の特徴を知ることができる。 ・ビジネスでは、サポートセンターに寄せられるクレームや問い合わせたを分析し、マニュアルの改善や新商品開発やサービスの展開に使える。 ・犯罪捜査では、「書き手」の一定の法則を発見し、本物の犯行声明かどうかを判別できる。犯行声明が出され、マスコミが報道しだすと愉快犯や模倣犯がいたずらに犯行声明を出して捜査の邪魔をしようとする時などに、本物かどうかを調べるためにテキストマイニングが利用される。 ・計量文献学では、犯罪捜査と似ていますが、シェイクスピアは1人だったのか?という研究も行われているようです。

f:id:teruaki-sugiura:20160501221823p:plain

テキストマイニング形態素をもとに数値化し、傾向や分類を調べますが、形態素ってそもそもなんでしょうか。テキストマイニングを勉強するまで、恥ずかしながら一度も聞いたことがありませんでした。国語の授業も嫌いでしたし、、、そんなことはさておき、少し詳しく見ていきましょう。形態論の分野までは深く踏み込みません。形態素とは「意味を持つ最小の単位」のことで、それ以上分解したら意味がわからなくなるところまで分割して得られる言葉だそうです。百聞は一見にしかず!なので、以下の例を形態素に分解して考えてみます。

f:id:teruaki-sugiura:20160501221837p:plain

名詞 :"すもも" 助詞 :"も" 名詞 :"もも" 助詞 :"も" 名詞 :"もも" 助詞 :"の" 名詞 :"うち"

このように品詞ごとに最小単位に分けていくと形態素が現れ、その1つ1つのことが形態素というわけです。この形態素の数を数えたりすることで、文章間の類似性や単語間の関係を調べ、何かしらの情報を得ることができるというわけです。また、日本語の文章を単語単位に分けていくことを「分かち書き」といいいます。 しかし、日本語を含めて言語というのは、曖昧な部分があり、テキストマイニングを行う際にはその点は注意が必要です。例えば以下のようなテキストをMeCab分かち書きしてみましょう。

f:id:teruaki-sugiura:20160501221846p:plain

名詞 :"テキスト" 名詞 :"マイニング" 助詞 :"と" 名詞 :"形態素" 名詞 :"解析"

この例だと、MeCabが分解したように「テキストマイニング」を2語に分解することが正しいのでしょうか、それとも1語としてとらえる方がよいのでしょうか。「形態素解析」も同様の問題を孕んでいます。解析の目的によって異なりますが、このような問題が発生してしまうため、注意かつ適時修正が必要になります。

以上で今回はおしまい。

広告を非表示にする