『Rによるやさしいテキストマイニング』

単語分析、n-gram分析、共起分析。

最近興味がある「R」という統計解析ソフト。
Windows3.1時代、「Excel4.0」から「Excel」を使っている私としては、なんともとっつきにくいソフトです。
でも、心理学を勉強すると、何度かめにすため、思い切って、大学の講義で「絶対にRを使わなければいけない科目」を受講してみました。
結果、単位はC。
ギリギリ、セーフでした・・・。

――――――――――――
書名:『Rによるやさしいテキストマイニング』
著者:小林雄一郎
出版:オーム社(2017.02)
――――――――――――

著者はコーパス言語学テキストマイニングを専門とする大学助教。
本作では、統計ソフト「R」を使ったテキストマイニングをわかり易く解説します。


本作は、最初の1/4では、“テキストマイニング”の概論を説明します。
次の2/4では、統計ソフト「R」や形態素解析器「MeCab」「RMeCab」について、インンストールの方法から、簡単な「R」を使ったコードの書き方から、「R」を使ったグラフの作り方を説明します。
そして、3/4以降では、いよいよ、著者が用意してくれたテキストデータを使って“テキストマイニング”を実践していきます。


冒頭、著者は、「言葉」を使った分析“テキストマイニング”の可能性を語ります。

<本文引用>------------
ただ、一口に「言葉」といっても、多種多様です。まず、日本語や英語といった言語の違いがあります。次に、書き言葉と話し言葉の違いがあります。また、書き言葉の中には、小説の言葉、新聞の言葉、プログの言葉といったジャンルの違いも存在します(同様に、話し言葉の中にも、様々なジャンルがあります)。さらに、男性と女性という性別の違い、大人と子供という年齢の違い、北海道と沖縄のような地域の違い、ホワイトカラーとブルーカラーのような社会階層の違い、職場と家庭といった使用場面の違いなど、枚挙に暇がありません。(本文より)
------------------------

確かに無限に広がりそうです。

一方で、ちゃんとした計画を立てることの重要性も説明してくれています。

<本文引用>------------
しかし、これだけバラエティに富んだ言葉が身近に存在するのですから、アイデア次第で様々な言語分析が可能になります。何のために(分析目的)、どのような言語データ(分析データ)を、どのように分析するか(分析手法)、というしっかりした計画さえあれば、テキストマイニングの可能性は無限に広がっています。ただ、そうはいっても、「しっかりした計画」を立てるのは、簡単なことではないかもしれません。そこで、まずは、テキストマイニングの技術が実際の社会でどのように活用されているかを概観してみましょう。(本文より)
------------------------

このあたりの話は、前半の1/4でわかり易く解説してくれています。


いよいよ、3/4からは実際に「R」や「RMeCab」を使った“テキストマイニング”の実践です。

<本文引用>------------
また、日本語の場合は、split = ""とすると1文字ずつに分割されます。以下は、川端康成の『雪国』の冒頭部分を使った例です。
> # 日本語の文
> yukiguni <- "国境の長いトンネルを抜けると雪国であった。"
> unlist(strsplit(yukiguni, split = ""))
[1] "国" "境" "の" "長" "い" "ト" "ン" "ネ" "ル" "を"
[11]“抜" "け" "る" "と" "雪" "国" "で" "あ" "っ" "た"
[21]"。"
(本文より)
------------------------

こんな風にコードの前に「#」で始まる解説文を書いて、そのあとに、実際のRコードが書かれています。

初めて知ったのですが、「R」では、「#」で始まる文字はプログラムコードをとは見ないようなので、実際のコードの解説文に使えるのだそうです。

また、「R」ではプログラムコードの「スペース」は読まないようなので、「1+1」も「1 + 1」も同じとみてくれるようです。
ですから、筆者は読者にわかり易いように、関数と関数の間には、ワザと「スペース」を入れてくれています。
実際に、本作に従って、“テキストマイニング”の手法である「単語分析」、「n-gram分析」、「共起分析」を体験することが出来ました。
(ワードクラウドだけは、うまく書けませんでした・・・)


自分で自由に使えるパソコンがあり、「R」や「MeCab」がダウンロードでき、テキストマイニングに興味のある方にはお勧めです。


――――――――――――
■読んだきっかけ:『テキストマイニングを使う技術/作る技術 ――基礎技術と適用事例から導く本質と活用法』那須川哲哉
■読んで知ったこと:単語分析、n-gram分析、共起分析。
■今度読みたくなった作品:『Rによるテキストマイニング入門』石田基広
――――――――――――

618_Rによるやさしいテキストマイニング.jpg









この記事へのコメント