word2vecとPMIが等価

2014/10/08 (Wed.)
NIP2014に出てくるLevyさんの論文 ``Neural Word Embedding as Implicit Matrix Factorization'' がTwitterなどで話題になっている. なぜかというと, word2vec の中の Skip-Gram をNegative Sampling (SGNS) で学習するとShifted PMI (SPMI) の行列を暗に分解しているのと同じなんだ, ということが示されたからだ. しかし, 安易に「word2vecとPMIが等価である」などというのは言い過ぎなのではないかと思う. そもそもSPMIの導出はword2vecのモデルのひとつに理想的な過程をおいた場合であるし, 結果の良さはタスク依存. SPPMIをそのまま使うのでは次元が大きすぎてDeep Learningの下に着けたりするのは難しいし, かといってSVDでやればいいってわけでもない. なので, PMIでできるのでニューラルネットでやる意味あるの？とまでは到底いかないと思われる (少なくとも今は). 論文では, SPPMIのSVDとSGNSの利点欠点のようなものにそれぞれ言及している. ちなみに, 全く同じ理由で, paragraph vector の論文のPV-DBOWも, negative samplingで学習すれば, term-document行列のSPMI版を分解していることになるのだろう.
個人的には, 個別の流派 (?) のようになっていた行列分解 (テンソル分解) 組とニューラルネット組の接点が見えたことが嬉しいことだと思う (単に自分の理解不足だっただけなのかもしれませんが). 今まで行列分解 (テンソル分解) でやっていたものも実はニューラルネット的なアプローチでやり直したりできるのでは, といった新たな視点で今までの研究を見直すことができそう. その際には, もちろんPMIなどの従来手法とニューラルネットの手法を比較する必要は生じるに違いない. しかしいずれにしても, どうせタスク依存になりそうな気がするので, まだまだ先は長そうである.