確率密度比推定まわりの書籍・解説記事・論文・ソフトウェアの各種情報まとめ

はじめに

確率密度比推定の文献については、すでに山田氏による素晴らしいまとめ記事がある。同記事「はじめに」より、確率密度比推定の有用性を引用すれば、

パターン認識ドメイン適応、外れ値検出、変化点検出、次元削減、因果推論等の様々な機械学習の問題が確率密度比(確率密度関数の比)の問題として定式化できることから、近年、確率密度比に基づいた機械学習の研究が機械学習およびデータマイニングの分野において大変注目されている。

というわけである。しかしながら、同記事は2012年に書かれたもので、本記事の執筆時点の2018年ではリンク切れなど、一部の情報が古くなっている。そのため、これら情報を更新したいということ。また、2012年以降、いくつか研究の進展が見られたので個人的に気になった論文を備忘録としてまとめておきたいということ。以上が本記事の動機である。

以下、山田氏のまとめ記事からも情報を引っ張りつつまとめる。編集方針として、各文献のリンクの情報はできるだけ「本家」のものを採用した(つまり公式ページ)。また会議論文よりは雑誌論文を優先した。
専門家から見れば、あの論文が足りない、などの不満はあろうが、ご容赦願いたい。

書籍

  • Sugiyama et al., Density Ratio Estimation in Machine Learning Amazon
    • 確率密度比の直接推定について。2011年ごろまでの研究がまとまっている。
  • 井手 et al., 異常検知と変化検知 Amazon
    • 密度比推定に基づく異常検知や変化点検出のトピックが扱われている。

解説論文など

  • Sugiyama et al, "A Density-ratio Framework for Statistical Data Processing," vol. 1, pp. 183-208, 2009. Link
  • 杉山, "密度比に基づく機械学習の新たなアプローチ," 統計数理, vo. 58, no. 2, pp. 141–155, 2010. PDF
  • 統計的機械学習の新展開:確率密度比に基づくアプローチ PDF
  • Sugiyama et al, "Density-ratio matching under the Bregman divergence: a unified framework of density-ratio estimation," Annals of the Institute of Statistical Mathematics, vol. 64, no. 5, pp. 1009–1044, 2012. Link
  • Sugiyama et al., "Direct Divergence Approximation between Probability Distributions and Its Applications in Machine Learning," Journal of Computing Science and Engineering, vol. 7, no. 2, pp. 99-111, 2013. PDF
  • 杉山, "密度比推定によるビッグデータ解析," 電子情報通信学会誌, vol. 97, no. 5, pp. 353–358, 2014. PDF

論文

密度比推定法

p(x)/q(x)の推定
  • Kernel Mean Matching (KMM): 確率密度比のモデルをb(x)とした時に、p(x)とb(x)q(x)のモーメントが一致するようにモデルを学習。
    • Huang et al., "Correcting Sample Selection Bias by Unlabeled Data," Advances in Neural Information Processing Systems 19 (NIPS 2006), pp. 601-608, 2006. Link
  • Kullback-Leibler Importance Estimation Procedure (KLIEP): 確率密度比を線形モデルで直接推定する手法。真の確率密度比と線形モデルとのカルバックライブラー距離が最小になるように、モデルパラメータを学習。
    • Sugiyama et al., "Direct Importance Estimation with Model Selection and Its Application to Covariate Shift Adaptation," Advances in Neural Information Processing Systems 20 (NIPS 2007), pp. 1433-1440, 2007. Link
    • Nguyen et al., "Estimating Divergence Functionals and the Likelihood Ratio by Convex Risk Minimization," IEEE Transactions on Information Theory, vol. 56, no. 11, 2010. Link
  • Unconstrained Least-Squares Importance Fitting (uLSIF): 確率密度比を線形モデルで直接推定する手法。真の確率密度比と線形モデルの二乗距離が最小になるように、モデルパラメータを学習。線型方程式を解くことによりモデルパラメータを推定できるため大変高速。
    • Kanamori et al., "A Least-squares Approach to Direct Importance Estimation," The Journal of Machine Learning Research, vol. 10, 2009. Link
  • Relative uLSIF (RuLSIF): 相対密度比 {p(x)/(a p(x) + (1-a)q(x)), 0 <= a < 1}を推定する手法。a = 0の時はuLSIFと同じになる。
    • Yamada et al., "Relative Density-Ratio Estimation for Robust Distribution Comparison," Neural Computation, vol. 25, no. 5, pp. 1324–1370, 2013. Link
p(x,y)/(p(x)p(y))の推定
  • Maximum Likelihood Mutual Information (MLMI): KLIEPの相互情報量版。相互情報量の推定に有用。
    • Suzuki et al., "Mutual information approximation via maximum likelihood estimation of density ratio," 2009 IEEE International Symposium on Information Theory, pp. 463-467, 2009.Link
  • Least-Squares Mutual Information (LSMI): uLSIFの相互情報量版。二乗損失相互情報量を高速に推定可能。
    • Suzuki et al., "Mutual information estimation reveals global associations between stimuli and biological processes," BMC Bioinformatics, vol. 10, no. 1, 2009. Link
p(x,y)/p(y)の推定
  • Least-Squares Conditional Density Estimation (LSCDE): yが連続値の場合の条件付き確率を直接推定する手法。
    • Sugiyama et al., "Conditional Density Estimation via Least-Squares Density Ratio Estimation," Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, vol. 9, 2010. Link
  • Least-Squares Probabilistic Classifier (LSPC): yが離散値の場合(識別問題)の条件付き確率を直接推定する手法。
    • Sugiyama et al., "Superfast-Trainable Multi-Class Probabilistic Classifier by Least-Squares Posterior Fitting," IEICE Transactions on Information and Systems, vol. E93.D, no. 10, pp. 2690-2701, 2010. Link

密度差推定

  • Sugiyama et al., "Density-Difference Estimation," Advances in Neural Information Processing Systems 25 (NIPS 2012), pp. 683-691, 2012. Link

密度導関数推定

  • Sasaki et al., "Direct Density Derivative Estimation," Neural Computation, vol. 28, no. 6, pp. 1101-1140, 2016. Link

応用

共変量シフト適応

  • Sugiyama et al., "Covariate Shift Adaptation by Importance Weighted Cross Validation," The Journal of Machine Learning Research, vol.8, pp. 985-1005, 2007. Link
  • Shimodaira, "Improving predictive inference under covariate shift by weighting the log-likelihood function," Journal of Statistical Planning and Inference, vol. 90, no. 2, pp. 227-244, 2010. Link

外れ値検出

  • Smola et al., "Relative Novelty Detection," Proceedings of the 12th International Conference on Artificial Intelligence and Statistics (AISTATS) 2009, pp. 536-543, 2009. Link
  • Hido et al., "Statistical outlier detection using direct density ratio estimation," Knowledge and Information Systems, vol. 26, no. 2, pp. 309-336, 2011. Link
  • Nam et al., "Direct Density Ratio Estimation with Convolutional Neural Networks with Application in Outlier Detection", IEICE Transactions on Information and Systems, vol. E98-D, no. 5, pp. 1073-1079, 2015. Link

変化点検出

  • Kawahara et al., "Sequential change-point detection based on direct density-ratio estimation," Statistical Analysis and Data Mining, vol. 5, no. 2, 2011. Link
  • Song et al., "Change-point detection in time-series data by relative density-ratio estimation," Neural Networks, vol. 43, pp. 72-83, 2013. Link
  • Yamada et al, "Change-point detection with feature selection in high-dimensional time-series data," Proceedings of International Joint Conference on Artificial Intelligence (IJCAI 2013), pp. 1827-1833, 2013.

十分次元削減

  • Suzuki et al., "Sufficient Dimension Reduction via Squared-Loss Mutual Information Estimation," Neural Computation, vol. 25, no. 3, pp. 725-758, 2013. Link
  • Yamada et al., "Computationally Efficient Sufficient Dimension Reduction via Squared-Loss Mutual Information," Proceedings of the Second Asian Conference on Machine Learning (ACML2011), pp. 247-262, 2011.Link

二標本検定

  • Sugiyama et al, "Least-squares two-sample test," vol. 24, no. 7, pp. 735-751, 2011.Link

Generative adversarial network

  • Uehara et al., "Generative Adversarial Nets from a Density Ratio Estimation Perspective", arXiv preprint arXiv:1610.02920, 2016. Link
  • Mohamed et al., "Learning in Implicit Generative Models," arXiv preprint arXiv:1610.03483, 2016. Link

音声区間検出

  • 太刀岡 et al., "音声と騒音の密度比推定を用いた音声区間検出法,'' 電気学会論文誌C, vol. 133, no. 8, pp. 1549-1555, 2013. Link

話者認識

  • Yamada, "Kernel Methods and Frequency Domain Independent Component Analysis for Robust Speaker Identification," Doctor Thesis, Department of Statistical Science, The Graduate University for Advanced Studies, Hayama, Japan, 2010. Link

ソフトウェア

おわりに

確率密度比推定は勉強していて楽しい。