テキストマイニングを使う技術/作る技術 (たつをの ChangeLog)

テキストマイニングを使う技術/作る技術

2006-12-28-3 [BookReview]

テキストマイニングの分野で有名なIBMの那須川哲哉氏による入門書。
全編具体的で分かりやすい。

■那須川哲哉 / テキストマイニングを使う技術/作る技術 -基礎技術と適用事例から導く本質と活用法

テキストマイニングというと、ブログや掲示板での特定の何かの評判情報
検索など、近年その活躍の場が一般ユーザの目に付くところまで広がって
来ている。

この本はテキストマイニングを支える技術、事例紹介、技術以外の側面
（運用など）はもちろん、「テキストマイニングとは何か」ということ
についても初心者にも分かりやすいよう、かなり丁寧に解説されている。
一番重要なポイントが最初の方で述べられてる。これ、大切。

[...]テキストマイニングというものは、あくまで人間が膨大な文書データ
を有効活用するためのツールであり、データ内容を解釈して判断を下すの
は人間である。例えば100万件の文書データに対し、一人の人間がその
すべてに目を通すことは不可能である。しかし、テキストマイニングを
使いこなすことにより、100万件の文書データの中から有用な情報に焦点を
当て、その内容を活用することが可能になる。 (p.4)

一般的なデータマイニングと異なり、「自然言語」がからむテキストマイ
ニングは、現状の技術では実用上あくまでも人が主役とならねばならない
（だから使いやすいGUIが必要となる）。こんな記述も：

テキストマイニングを活用する上で最も重要なのが、『テキストマイニン
グは基本的に「気付き」を与えてくれるツールである』という考え方であ
る。(p.169)

また、テキストマイニングでは、「速読のコツ」のように、
分析目的をしっかり設定しないと役に立つものは得られないとも：

テキストマイニングに対して良く見られる誤解に、「貴重な文書データが
大量にあるので、テキストマイニングにかければ何か面白い知見が自動的
に得られるのでないか」というものがある。[...] 有用な結果を得るため
には分析目的の設定やそれを実現するための意味的属性の設定が必要であ
り、この設定を行わずに処理しても、役に立つ結果が得られることはまず
あり得ない。 (p.45)

この本で取り上げられている事例は主にコールセンター。
「人力」の重要性が高い分野と言える。
一方、ブログのテキストマイニングは、切実度が低いので、
もっとゆるい感じになるかと。

§メモ：

大量文書を活用する技術の比較(p.16)：
- レベル１「検索」：目を通す対象を絞り込む。情報検索。単語抽出。
- レベル２「分類・整理」：文書の振り分け＆内容把握。クラスタリング、
  クラシフィケーション。
- レベル３「分析(知識発見)」：価値のある知見を抽出。
  データ・マイニング、視覚化。

評判分析の難しさについての例(p.193-)：
- 「店員の態度が最悪で商品Ａを手に取ったら睨まれた。」
  →「最悪」なのは「商品Ａ」ではない。
- 「良くない」「良くなくはない」「良いのでしょうか」「良いなら
  （買いたい）」→やっかい。
- 表現の分野依存性：「とても悲しい」→「映画」ならポジティブ。

この記事に言及しているこのブログ内の記事