(cache) Modeling Human Location Data with Mixtures of Kernel Densities (KDD 2014) 読んだ

2014-10-11

位置情報にもとづくデータから個人レベルの粒度にもとづく密度を推定する問題を解く．

混合モデルベースのカーネル密度推定(KDE)を応用して個人レベルの情報と全体の傾向を取り扱う．

データはユーザiに関するチェックインデータの tuple 集合の集合．

密度を推定する問題を考える．

混合ガウスによる推定の問題点

は対角要素にhを持つ2x2行列．

hはバンド幅と呼ばれるパラメータ．大きくしたり小さくしたりすることによってどれぐらいの幅でカーネルを当てはめるかが決まる．

バンド幅 h を入力データの近傍 k 番目の点とのユークリッド距離として，データ点ごとに h を変える．実験では k = 5 が一番良い．

の二つを混ぜる．混ぜ方は

という感じで推定に使うデータを変えつつそれぞれの重みを推定する．はそのユーザの全データ，はユーザに限らない全データ，の場合は適当に決める(C=3の場合のc=2は例えば地域を9x9の81gridsに区切ってそのユーザのデータが最も含まれるgridにする)．

学習は training data から validation data を分けてパラメータ推定に使う．

トラックバック - http://d.hatena.ne.jp/repose/20141011/1413004911