2011-06-04
第3回さくさくテキストマイニング勉強会に参加しました #sakuTextMining
というわけで参加してきました。会場は数理システムさんです。
入門セッション(AntiBayesian)
第三回さくさくテキストマイニング勉強会 入門セッション
View more presentations from AntiBayesian
単語重要度入門 〜テキストをダイエットさせよう〜( toilet_lunch )
- TF*IDFの話
- えっ私のテキストマイニング力低すぎ!?
- 例:大量のアンケートの自由回答文から重要な単語を抜き出す
- 例:エビオス嬢についての文章
- TF*IDFとは
- TF(単語の頻度) * IDF(単語が含まれる文書割合の逆数(の対数))
- 直感的ば解釈:ある文書でよく使われていて、他の文書ではあまり使われていない単語は、その文書をよく表している
- なんで対数取るんだっけ・・・
- IDFの影響が大きすぎるので小さくしたい→対数をとる
- IF*IDFの欠点
- ゼロ頻度問題→スムージング
- 短いテキストに向かない(twitterとか)
- TF*IDF以外の指標
- 相互情報量
- TF*KLI
- 詳しくはTokyoNLPまたはDSINLP
特徴抽出からクラスタリング( Taka_Kuni )
- プロフィール
- Android / datamining / ...
- blog: -T_K-
- 特徴抽出
- 文字列から索引語へ
- 頻度情報から重要度の計算
- クラスタリング
- k-means
- クラスタ数を決める必要がある
- leader-follower法
- クラスタ数を決める必要がない
- 逐次的にクラスタを生成
- 1-pasでしきい値以上のデータが来たら新しいクラスタを生成する
- SOM
- データの地図を作る
- データを低次元に写像する
- k-means
- まとめ
- 対象のデータをじゅうbん理解してパラメータを設定する
- 特徴抽出の時点が重要
テキストマイニングの前のコーパス収集( gepuro )
[python][テキストマイニング] はてなダイアリーからコーパスとなるテキストデータを収集する - gepuroの日記
Collecting corpus
View more presentations from gepuro
とりあえずTwitterで日本語を集めてみよう( s_wool )
- Streaming API
- RESTAPI
KH Coderで3分間テキストクッキング♪( AntiBayesian )
- 受注でテキストマイニングの案件をやる難しさ
- コレスポンデンス分析
- クラスタリング
- 決定木
テキスト/データマイニングと業務( tks )
(資料非公開のため割愛)
テキストマイニングのマーケティングへの活用について( saynoway66 )
(資料非公開のため割愛)
リンク元
- 26 http://twitter.com/
- 5 http://b.hatena.ne.jp/entrylist
- 4 http://longurl.org
- 4 http://reader.livedoor.com/reader/
- 2 http://d.hatena.ne.jp/hjym_u/20110604/1307166969
- 2 http://twtr.jp/home
- 2 http://www.instapaper.com/u
- 2 http://www.sleipnirstart.com/
- 1 http://a.hatena.ne.jp/paken/simple
- 1 http://b.hatena.ne.jp/entry/