Blog
みなさん。こんにちは。
データサイエンスラボの西山です。
今月の頭、DeepAnalyticsにおいてコンペ「ネット広告のクリック予測」を開始いたしました。
本コンペは、インターネット広告のROIを最大化するために重要な、
「広告に反応しそうなユーザを予測する」ためのモデル構築を目標としています。
コンペに使用されているデータは、実際の広告運用において蓄積されたデータで、
得られる予測モデルは、デジタルマーケティングの領域での実践的な利用が期待されます。
同様のモデル構築に関する研究は、様々な企業や研究機関で行われており、
関連する論文も多数発表されています。
今日は、クリック予測に関する機械学習的なアプローチについて、
既存の研究とその方法論をいくつかご紹介したいと思います。
データサイエンスラボの西山です。
今月の頭、DeepAnalyticsにおいてコンペ「ネット広告のクリック予測」を開始いたしました。
本コンペは、インターネット広告のROIを最大化するために重要な、
「広告に反応しそうなユーザを予測する」ためのモデル構築を目標としています。
コンペに使用されているデータは、実際の広告運用において蓄積されたデータで、
得られる予測モデルは、デジタルマーケティングの領域での実践的な利用が期待されます。
同様のモデル構築に関する研究は、様々な企業や研究機関で行われており、
関連する論文も多数発表されています。
今日は、クリック予測に関する機械学習的なアプローチについて、
既存の研究とその方法論をいくつかご紹介したいと思います。
回帰の有用性
ディスプレイ広告のクリック予測やコンバージョン予測においては、
ロジスティック回帰が有用であることが知られています。
O.Chapelle, E.Manavoglu and R.Rosales,
Simple and scalable response prediction for display advertising.
ACM TIST 2014.
予測手法自体はロジスティック回帰と、比較的シンプルな手法を利用していますが、
L2正則化、ラプラススムーシングなどの工夫を施すことで、良い予測精度を得ることができます。
また、予測モデルの入力とする特徴量の生成や学習課程の効率化ついては、以下のテクニックが有効です。
・Feature Hashing
・Adaptive Learning Rate
これらの方法論を実装、実行するには、オンライン学習のツール、Vowpal Wabbit等が便利です。
これらの情報は、Kaggleで実施されたCriteoのコンペティションのフォーラムにおいて議論されています。
特徴量選択と予測モデル
この分野における最近の研究成果の代表的なものとして、以下の論文が挙げられます。
X. He et al,
Practical Lessons from Predicting Clicks on Ads at Facebook
ADKDD 2014.
一般的にクリック予測の問題では、入力にカテゴリカル変数が多数含まれます。
カテゴリカル変数をそのままダミー化して回帰すると、
ダミー変数の数が非常に多くなり、学習が困難になります。
また、連続量変数も非線形な寄与をするものが多いことが予想され、
なんらかの形で、特徴量を再構成したほうが、良いモデルが得られることは容易に想像できます。
そこで、上記の論文では、生の変数を一旦、決定木等で学習させ、
各サンプルがどの木でどの枝に分類されるかを特徴量として再生成します。
そして、これらの特徴量をロジスティック回帰などの回帰モデルに投入することで段階的なモデルを得ます。
「Display Advertising Challenge」By Criteo
前述したKaggleでCriteo が実施したコンペティションの結果も非常に示唆に富んでいます。
1位はチーム「3 Idiots」。
彼らは、先ほどのX.Heを中心としたFacebookの研究者のアプローチに従いつつ、
モデル予測には、Factorization Modelを採用しています。
その他の工夫として、特徴量にHashing Trickを使用したり、予測値のCalibrationを行っっています。
(詳細なモデル説明はこちら。ソースコードも公開されています。)
3位、4位のチームも解法を公開しています。
3位は、beileさん。
特徴量の抽出を行った後、前述のVowpal Wabbitを使ってモデリングしています。
4位は、Julian de Witさん。
こちらもやはり、特徴量の抽出を行っていますが、
モデリングにはNeuralNetworkを使用して複数のモデルをBaggingにより作成し、
最終的な予測モデルを構成しています。
(3位、belieさんのモデル内容はこちら。 4位de Witさんのモデル内容はこちら。)
Let's Challenge!
コンペ「ネット広告のクリック予測」は12月末まで開催しており、
まだまだ入賞のチャンスがあります。
上記でご紹介したCriteoコンペの入賞者の方々は、
いずれも、ソースコードまで公開されていますので、
皆さんもこれらの手法を参考にしつつ、コンペでの上位入賞を目指してください!