nokunoの日記 このページをアンテナに追加 RSSフィード Twitter

2011-06-04

第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining

というわけで参加してきました。会場は数理システムさんです。

第3回 さくさくテキストマイニング勉強会 : ATND

入門セッション(AntiBayesian)

単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch )

  • TF*IDFの話
    • えっ私のテキストマイニング力低すぎ!?
    • 例:大量のアンケートの自由回答文から重要な単語を抜き出す
    • 例:エビオス嬢についての文章
  • TF*IDFとは
    • TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数))
    • 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している
    • なんで対数取るんだっけ・・・
    • IDFの影響が大きすぎるので小さくしたい→対数をとる
  • IF*IDFの欠点
    • ゼロ頻度問題→スムージング
    • 短いテキストに向かない(twitterとか)
  • TF*IDF以外の指標
    • 相互情報量
    • TF*KLI
  • 詳しくはTokyoNLPまたはDSINLP

特徴抽出からクラスタリング( Taka_Kuni )

  • プロフィール
    • Android / datamining / ...
    • blog: -T_K-
  • 特徴抽出
    • 文字列から索引語へ
    • 頻度情報から重要度の計算
  • クラスタリング
    • k-means
      • クラスタ数を決める必要がある
    • leader-follower法
      • クラスタ数を決める必要がない
      • 逐次的にクラスタを生成
      • 1-pasでしきい値以上のデータが来たら新しいクラスタを生成する
    • SOM
      • データの地図を作る
      • データを低次元に写像する
  • まとめ
    • 対象のデータをじゅうbん理解してパラメータを設定する
    • 特徴抽出の時点が重要

テキストマイニングの前のコーパス収集( gepuro )

[python][テキストマイニング] はてなダイアリーからコーパスとなるテキストデータを収集する - gepuroの日記

とりあえずTwitterで日本語を集めてみよう( s_wool )

  • Streaming API
  • RESTAPI

KH Coderで3分間テキストクッキング♪( AntiBayesian )

  • 受注でテキストマイニングの案件をやる難しさ
  • コレスポンデンス分析
  • クラスタリング
  • 決定木

テキスト/データマイニングと業務( tks )

(資料非公開のため割愛)

テキストマイニングのマーケティングへの活用について( saynoway66 )

(資料非公開のため割愛)

はてなユーザーのみコメントできます。はてなへログインもしくは新規登録をおこなってください。