Rを通じて統計学を学ぶ備忘録ブログ

SPSSからRに移行したい私のような人向けのR解説ブログ兼学習用備忘録。

テキストマイニングはじめました〜その7〜

今回の目的は、最近?公開されたMeCabで使用する辞書「mecab-ipadic-neologd」をRMeCabで使うまでの道のりを書き記しました。なので、今回の目標は以下のとおりです。

Macで「mecab-ipadic-neologd」をRMeCabで使う 

以下の公式ページを見ればなんとなくわかると思うのですが、、、なんとなくです、、、、プログラミングとかターミナルのことをよく知らないと、書いている内容がちんぷんかんぷんだと思われ、もう使うのや〜めた、となりかねません。なので、この公式のページではよくわからんな〜という方でも、利用できるように噛み砕き噛み砕き手順を記しました。

なので対象はターミナル?C++コンパイル????っていう方のための記事ですので、はてなマークが付かない方は読む必要ないと思います。

https://github.com/neologd/mecab-ipadic-neologd/blob/master/README.ja.md

私も、プログラミングとかターミナルとか深く知らないので、間違えていることを書いているかもしれません。そのため、自己責任でお願いします。

今回使用するフォントはプログラミングで視認性がよいらしい「源ノ角ゴシック」です。

f:id:teruaki-sugiura:20160511010201p:plain

以下、公式より引用します。

mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。Web上の文書の解析をする際には、この辞書と標準のシステム辞書(ipadic)を併用することをオススメします。

f:id:teruaki-sugiura:20160511010234p:plain

上から順番に準備、実行してください。

箇条書きのマークについての説明です。

■:MeCabを入れた時にすでに使用しているはず。

△:プログラミング言語はRしか使ったことがない人は、入れる必要があると思われるもの。

C++コンパイラ

C++というプログラミング言語を動かすためのソフトのことです。

macの「xcode」があれば大丈夫と思われる。

MeCabを入れるときにすでに使っているはず。

利用方法の基本は以下を参照くだされ。

http://type.jp/et/log/article/ra-ios-tips03

mecab

MeCab本体です。当たり前だが、MeCabを入れたときに既に入っているはず。

bin/mecab と bin/mecab-config を使います。

MeCabのインストール方法は以下より。

5分でMacにMecabをインストールする方法 | Brainvalley 人工知能と脳科学のアーカイブサイト。

mecab-ipadic

MeCab用の辞書のひとつです。インストール時のテストに使います

MeCabを入れたときに既に入っているはず。

△iconv (libiconv)

アイコンブといい、文字コードの変換をしてくれます。

通訳みたいなものです。辞書のコード変換に使います。

https://www.gnu.org/software/libiconv/

上記より「get the software」からダウンロードしてくだされ。

△homebrew

MacUNIXツールをインストールするためのパッケージ管理システムです。

http://brew.sh/

上記に記載されている以下のコードをターミナルで実行くだされ。

xz(unxz)を動かすために必要と思われる。($は不必要)

$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

△xz

データ圧縮のプログラムであり、圧縮フォーマットのこと。

mecab-ipadic-NEologdのシードの解凍にunxzを使います。

homebrewをインストールしたら、以下のコマンドをターミナルで実行。($は不必要)

$ brew install xz

f:id:teruaki-sugiura:20160511010256p:plain

手順1:

辞書の元になるデータの配布と更新はGitHub経由で行います。

初回はターミナルで以下のどちらかのコマンドを実行してください。

どっちでもいいです。($は不必要)

この「git clone」という暗号文は、GitHubというソフト開発のプロジェクトコードが公開されている場所から、リポジトリという場所を自分のコンピュータへ落とすときに使います。

$ git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
or
$ git clone --depth 1 git@github.com:neologd/mecab-ipadic-neologd.git

手順2:

以下のコマンドを実行して結果を確認する画面で「yes」と入力。

sudo権限で最新版がインストール(初回実行時以降は更新)されます。

「cd」という暗号文は、ディレクトリに移動するためのコマンドです。

$ cd mecab-ipadic-neologd    
$ ./bin/install-mecab-ipadic-neologd -n

手順3:

mecab-ipadic-neologdが正しくインストールできているか確認しましょう。

中居正広のミになる図書館」が一塊で名詞,固有名詞となっていれば問題なし。

「echo」という暗号文は、文字列を表示させるためのものです。

$ echo "「中居正広のミになる図書館」で過去の勘違いを明かす一幕があった。" | mecab -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd

手順4:

とりあえず、Rでもやってみる。これは、もはや解説不要ですね。

library(RMeCab)
text <- "「中居正広のミになる図書館」で過去の勘違いを明かす一幕があった。"
x <- RMeCabC(text, dic = "/usr/local/lib/mecab/dic/mecab-ipadic-neologd/")
x

f:id:teruaki-sugiura:20160511010313p:plain

手順1:

以下のコードをターミナルで実行する。($は不必要)

$ sudo vi /usr/local/etc/mecabrc

手順2:

「dicdir =  /usr/local/lib/mecab/dic/ipadic」の部分を

「dicdir =  /usr/local/lib/mecab/dic/mecab-ipadic-NEologd」に書き換える。

書き換えるためにはinsert modeにする必要があるので、[a]を押してinsert modeにする。

E325: ATTENTIONとかいうエラーがでたら、returnキーを押して、(E)dit anywayを選択。

(E)dit anywayは[Shift + e]で選択。以下は、書き換え後の中身です。

;
; Configuration file of MeCab
;
; $Id: mecabrc.in,v 1.3 2006/05/29 15:36:08 taku-ku Exp $
;
;
; dicdir =  /usr/local/lib/mecab/dic/mecab-ipadic-NEologd
; userdic = /home/foo/bar/user.dic
; output-format-type = wakati
; input-buffer-size = 8192
; node-format = %m
; bos-format = %S
; eos-format = EOS

手順3:

書き換えが完了したら、「esc」を押してcommand modeに戻し、「:wp」を実行すれば完了。これで上書き保存されているので、RMeCabのデフォルトの辞書がmecab-ipadic-NEologdになっているはず。

 

これで、以上です。公式ページを見てもイマイチよくわからなかった人の手助けになれば幸いです。

広告を非表示にする