2014-10-11
■[論文] Modeling Human Location Data with Mixtures of Kernel Densities (KDD 2014) 読んだ
概要
Modeling Human Location Data with Mixtures of Kernel Densities(pdf)
位置情報にもとづくデータから個人レベルの粒度にもとづく密度を推定する問題を解く.
混合モデルベースのカーネル密度推定(KDE)を応用して個人レベルの情報と全体の傾向を取り扱う.
問題設定
データはユーザiに関するチェックインデータ の tuple 集合 の集合.
密度を推定する問題を考える.
既存研究
- 混合数が自明でない
- データがスパース
- そもそも環境的な要因と移動経路などによって密度が制限される -> ガウシアンにならない
提案手法
通常のKDE
は対角要素にhを持つ2x2行列.
hはバンド幅と呼ばれるパラメータ.大きくしたり小さくしたりすることによってどれぐらいの幅でカーネルを当てはめるかが決まる.
Adaptive bandwidth method
バンド幅 h を入力データの近傍 k 番目の点とのユークリッド距離として,データ点ごとに h を変える.実験では k = 5 が一番良い.
Mixture of kernel density models
の二つを混ぜる.混ぜ方は
という感じで推定に使うデータを変えつつそれぞれの重みを推定する.はそのユーザの全データ,はユーザに限らない全データ,の場合は適当に決める(C=3の場合のc=2は例えば地域を9x9の81gridsに区切ってそのユーザのデータが最も含まれるgridにする).