この記事はRcppMeCabとtidytextではじめるテキストマイニングシリーズの一部です。
はじめに、この記事のテーマであるテキストマイニングについてまとめます。テキストマイニングは、テキスト (文書) を分析する手法の総称です。テキストには、WebページやSNSの投稿、電子メール、社内文書、会議の議事録など様々なものが含まれます。これらの様々なテキストを分析し、要点の抽出、トレンドの把握、文書の分類などが行うのがテキストマイニングの目的と言えます。
テキストマイニングの基本的な流れは以下のようになります。
図で取り上げた作業内容について、簡単に紹介します (詳細は後述します)。
- 形態素解析: テキストを形態素 (≒単語) に分解する処理
- nグラム (ユニグラム、バイグラム、トライグラム): 形態素解析の結果得られたn組のセット。テキストマイニングでは、単語1つ (ユニグラム) で分析することもあるが、隣り合う2つ (バイグラム)、3つ (トライグラム) の形態素を組み合わせて分析することが多い。
- 集計: 形態素解析の結果を、どの形態素が多く出現するか、ある形態素とよく一緒に出現する形態素は何か、などテーマを決めて集計する
- 頻度表: 形態素の出現頻度を単純集計したもの。頻出単語を見ていくことで、トレンドなどはある程度判断できる
- TF-IDF: 出現頻度から計算した、文書におけるある形態素の重要度。頻度をそのまま使うよりも形態素の特徴を強調して分析できる
- モデリング
- 分類: 形態素解析の結果を説明変数として、テキストのカテゴリなどを目的変数として組み合わせ、統計モデリングする。問い合わせ内容のカテゴリ判定や、ニュース記事のジャンル判定などに使われる
- クラスタリング: 形態素解析の結果から、形態素の出現パターンが似ているテキストをグループ化する。レコメンドなどに使われる
このような、テキストデータの加工から分析までをひとくくりに、テキストマイニングと呼びます。
関連ページ: R言語を学ぶための参考書籍リスト
カテゴリ: [R,データ分析,テキストマイニング,RcppMeCabとtidytextではじめるテキストマイニング]