トップ 履歴 一覧 Farm ソース 検索 ヘルプ RSS ログイン

テキストマイニングの基本的な考え方


キーワード

最終更新時間:2019年09月02日 17時53分26秒
アフィリエイト・広告について
プライバシーポリシー

この記事はRcppMeCabとtidytextではじめるテキストマイニングシリーズの一部です。


はじめに、この記事のテーマであるテキストマイニングについてまとめます。テキストマイニングは、テキスト (文書) を分析する手法の総称です。テキストには、WebページやSNSの投稿、電子メール、社内文書、会議の議事録など様々なものが含まれます。これらの様々なテキストを分析し、要点の抽出、トレンドの把握、文書の分類などが行うのがテキストマイニングの目的と言えます。

テキストマイニングの基本的な流れは以下のようになります。

図で取り上げた作業内容について、簡単に紹介します (詳細は後述します)。

  • 形態素解析: テキストを形態素 (≒単語) に分解する処理
  • nグラム (ユニグラム、バイグラム、トライグラム): 形態素解析の結果得られたn組のセット。テキストマイニングでは、単語1つ (ユニグラム) で分析することもあるが、隣り合う2つ (バイグラム)、3つ (トライグラム) の形態素を組み合わせて分析することが多い。
  • 集計: 形態素解析の結果を、どの形態素が多く出現するか、ある形態素とよく一緒に出現する形態素は何か、などテーマを決めて集計する
    • 頻度表: 形態素の出現頻度を単純集計したもの。頻出単語を見ていくことで、トレンドなどはある程度判断できる
    • TF-IDF: 出現頻度から計算した、文書におけるある形態素の重要度。頻度をそのまま使うよりも形態素の特徴を強調して分析できる
  • モデリング
    • 分類: 形態素解析の結果を説明変数として、テキストのカテゴリなどを目的変数として組み合わせ、統計モデリングする。問い合わせ内容のカテゴリ判定や、ニュース記事のジャンル判定などに使われる
    • クラスタリング: 形態素解析の結果から、形態素の出現パターンが似ているテキストをグループ化する。レコメンドなどに使われる

このような、テキストデータの加工から分析までをひとくくりに、テキストマイニングと呼びます。


関連ページ: R言語を学ぶための参考書籍リスト
カテゴリ: [R,データ分析,テキストマイニング,RcppMeCabとtidytextではじめるテキストマイニング]