nokunoの日記

2011-06-04

第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining

というわけで参加してきました。会場は数理システムさんです。

第3回さくさくテキストマイニング勉強会 : ATND

入門セッション（AntiBayesian）

第三回さくさくテキストマイニング勉強会　入門セッション

View more presentations from AntiBayesian

単語重要度入門～テキストをダイエットさせよう～（ toilet_lunch ）

TF*IDFの話
- えっ私のテキストマイニング力低すぎ！？
- 例：大量のアンケートの自由回答文から重要な単語を抜き出す
- 例：エビオス嬢についての文章
TF*IDFとは
- TF（単語の頻度） * IDF（単語が含まれる文書割合の逆数（の対数））
- 直感的ば解釈：ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している
- なんで対数取るんだっけ・・・
- IDFの影響が大きすぎるので小さくしたい→対数をとる
IF*IDFの欠点
- ゼロ頻度問題→スムージング
- 短いテキストに向かない（twitterとか）
TF*IDF以外の指標
- 相互情報量
- TF*KLI
詳しくはTokyoNLPまたはDSINLP

特徴抽出からクラスタリング（ Taka_Kuni ）

プロフィール
- Android / datamining / ...
- blog: -T_K-
特徴抽出
- 文字列から索引語へ
- 頻度情報から重要度の計算
クラスタリング
- k-means
  - クラスタ数を決める必要がある
- leader-follower法
  - クラスタ数を決める必要がない
  - 逐次的にクラスタを生成
  - 1-pasでしきい値以上のデータが来たら新しいクラスタを生成する
- SOM
  - データの地図を作る
  - データを低次元に写像する
まとめ
- 対象のデータをじゅうｂん理解してパラメータを設定する
- 特徴抽出の時点が重要

テキストマイニングの前のコーパス収集（ gepuro ）

[python][テキストマイニング] はてなダイアリーからコーパスとなるテキストデータを収集する - gepuroの日記

Collecting corpus

View more presentations from gepuro

とりあえずTwitterで日本語を集めてみよう（ s_wool ）

Streaming API
RESTAPI

KH Coderで3分間テキストクッキング♪（ AntiBayesian ）

受注でテキストマイニングの案件をやる難しさ
コレスポンデンス分析
クラスタリング
決定木

テキスト/データマイニングと業務（ tks ）

（資料非公開のため割愛）

テキストマイニングのマーケティングへの活用について（ saynoway66 ）

（資料非公開のため割愛）

Permalink | コメント(0) | 18:13

リンク元