Information Retrieval and Web Search まとめ(20): ランク学習

前回は Word2vec, BERT などの単語埋め込み手法と、それらの情報検索への応用について説明した。今回は、ランク学習について紹介する。

この記事は Information Retrieval and Web Search Advent Calendar 2020 の20日目の記事です。

adventar.org

情報検索のための機械学習

これまでに検索における文書のランキング手法をいくつか見てきた
- コサイン類似度、BM25...
また、教師ありの機械学習を使った文書分類（クラス分類）の方法も見てきた
- ロッキオの方法、kNN、決定木...
文書のランク付けにも機械学習を使えないか？
- "machine-learned releance", "learning to rank" として知られている

歴史

検索ランキングのための機械学習はアクティブに研究されてきた
- また、この10年で主要な検索エンジンにデプロイされている
過去の研究
- Wong, S.K. et al. 1988. Linear structure in information retrieval. SIGIR 1988.
- Fuhr, N. 1992. Probabilistic methods in information retrieval. Computer Journal.
- Gey, F. C. 1994. Inferring probability of relevance using the method of logistic regression. SIGIR 1994.
- Herbrich, R. et al. 2000. Large Margin Rank Boundaries for Ordinal Regression. Advances in Large Margin Classifiers.
初期の研究はそれほどうまくいっていなかった
- 訓練データが少なかった
  - 特に実世界のデータ
  - クエリログ、適合性判定のデータを集めるのは大変
- 機械学習手法もまだ発展していなかった
- 情報検索の問題への適用が不十分だった
- 特徴量が十分ではなかった

機械学習の必要性

現代的な（Web の）システムは大量の特徴量を扱う
- ターム頻度などの古典的な特徴量だけではなく、ページ中の画像の数、リンクの数、PageRank、URL、更新日時、ページの表示速度...
Google は 2008 年には 200 以上の特徴量（シグナル）を使っており、今日では 500 以上になっているだろう

ランク学習

クラス分類はアドホック検索への適切なアプローチではない
- クラス分類 (classification)：順序がないクラスへのマッピングを行う
- 回帰 (regression)：実数へのマッピングを行う
- 順序付き回帰 (ordinal regression)、あるいはランキング (ranking)：順序付きのクラスへのマッピングを行う
ランキング問題では、文書が他の文書に対してよいかどうかを議論する
- よさの絶対的な尺度は必要ない
ランク学習 (learning to rank)
- 以下のような適合性のカテゴリの集合 C が存在すると仮定する
  - C のすべてのカテゴリには全順序がついている (totally ordered)
    - $c_{1} > c_{2} > . . . > c_{J}$
  - （これは順序付き回帰の問題設定と同じ）
- 以下のような文書とクエリのペア (d, q) からなる訓練データを仮定する
  - (d, q) は特徴量ベクトル $x_{i}$ で表され、それに適合ランキング $c_{i}$ がついている

検索ランキングのためのアルゴリズム

SVM (Vapnik 1995) のランキングへの適用：Ranking SVM (Joachims 2002)
ニューラルネット：RankNet (Burges et al. 2006)
Tree Ensemble
- ランダムフォレスト (Breiman and Schapire 2001)
- Boosted Decision Tree
  - Multiple Additive Regression Trees (Friedman, 1999)
  - Gradient-boosted decision trees: LambdaMART (Burges, 2010)
  - AltaVista, Yahoo!, Bing, Yandex などの検索エンジンで採用事例あり
- 2010 年の Yahoo! Learning to Rank Challenge ではすべてのトップチームが Tree Ensemle の手法の組み合わせを使った

Yahoo! Learning to Rank Challenge

[Chapelle and Chang, 2011]
以下のような Yahoo! Webscope のデータセットを使って行われた
- クエリ数：36,251
- 文書数：883k
- 特徴量:700種類
- ランキング：5段階
優勝したモデル (Burges et al. 2011) は 12 のモデルの線形結合だった：
- 8 つの Tree Ensemble (LambdaMART)
- 2 つの LambdaRank ニューラルネットワーク
- 2 つのロジステック回帰

回帰木

回帰木 (regression tree) は、実数を予測できる決定木
葉ノードには、その葉ノードに含まれるすべてのサンプルの平均値 (mean) を保持する
- $γ_{k} = f (x_{i}) = \bar{x_{i}}$
分割規準：標準偏差 (standard deviation; SD) の最小化
- 値の分散（標準偏差 SD）を最小化するように分割 $A$ を選択する
- 標準偏差、サンプル数、もしくは木の深さのいずれかが閾値を下回ったら分割を止める
学習時には、分割する変数と、その変数上での分割点を探索する
- それらは予測誤差 $\sum_{i} {(y_{i} - f (x_{i}))}^{2}$ を最小化するように選ぶ

f:id:takuya-a:20201222053301p:plain — 回帰木の分割の例(1)。予測誤差を最小化する分割を選択

f:id:takuya-a:20201222053337p:plain — 回帰木の分割の例(2)。予測誤差が0になるまで分割を進めた

勾配ブースティング

ブースティングのモチベーション

Q:「独立な弱い (weak) 分類器を組み合わせて、高い精度の分類器を構築できるか？」
古典的なアプローチ: AdaBoost
すべての木の重み付きの投票で分類する

ブースティングによる関数の推定

ほしいもの：損失関数 $L (y, F (x))$ の期待値を最小化する、以下のような関数 $F^{*} (x)$

 $F^{*} (x) = {argmin}_{F (x)} E_{y, x} L (y, F (x))$

ブースティングでは、を以下のような形で近似する
- $h (x; a)$ は $a = a_{1}, a_{2}, . . ., a_{n}$ でパラメータ化された関数
- $β$ は重み係数

 $F (x) = \sum_{m = 1}^{M} β_{m} h (x; a_{m})$

関数のパラメータはイテレーションにより訓練データにフィットさせる

勾配ブースティングの学習

勾配ブースティング (gradient boosting) は、任意の微分可能な損失関数に対して関数 $F (x)$ を推定できる
関数 $h (x; a)$ を最小二乗法でフィッティングする

 $a_{m} = {argmin}_{a} \sum_{i} [\tilde{y_{i m}} - h (x_{i}, a)]^{2}$

ただし $\tilde{y_{i m}}$ は「疑似残差 (pseudo-residual)」であり

 $\tilde{y_{i m}} = - {[\frac{\partial L (y_{i}, F (x_{i}))}{\partial F (x_{i})}]}_{F (x) = F_{m - 1} (x)}$

勾配ブースティングは、どんな損失関数であっても最小二乗法に単純化する
- ニュートン法などで逐次的にモデルを改善できる

Gradient Boosted Regression Tree (GBRT)

Gradient Boosted Regression Tree (GBRT) は、この勾配ブースティングのアプローチを回帰木 (regression tree) に適用する
- それぞれの回帰木は通常 1-8 の分割しか持たない
GBRT の学習
- 最初に、すべてのに対して定数をとる、最もシンプルな予測器を学習する（[tex: F_0(x)）
  - 訓練データの誤差を最小化する定数
- 木のルートノードの値 $γ_{k m}$ を探索する
- 最小二乗法によりルートノードを分割する
- さらに誤差を最小化する木を追加する

MART

Multiple Additive Regression Trees (MART) [Friedman 1999]

f:id:takuya-a:20201222063819p:plain — MART の学習アルゴリズム

RankNet

RankNet [Burges et al. 2005] はニューラルネットによる ranker
モデルパラメータ w に対して微分可能な関数をスコア関数とする
- $f (x_{i}; w) = s_{i}$ が $x_{i}$ のスコア
クエリ q に対して、各文書の組に対するランキングのクラスの確率を学習する
- $P_{i j}$ は、文書 $d_{i}$ が $d_{j}$ よりランキングが上である確率
- $σ$ はシグモイド関数の傾きを決めるパラメータ

 $P_{i j} = P (d_{i} ≻ d_{j}) = \frac{1}{1 + e^{- σ (s_{i} - s_{j})}}$

損失関数 C はクロスエントロピー損失
- $P_{i j}$ はモデルの確率
- $\bar{P_{i} j}$ は実際の確率（各カテゴリに対して0/1で与えられる適合性の判定）

 $\begin{array}{rcl} C & = & - \bar{P_{i j}} \log P_{i j} - (1 - \bar{P_{i} j}) \log (1 - P_{i} j) \\ = & \frac{1}{2} (1 - S_{i j}) σ (s_{i} - s_{j}) + \log (1 + e^{- σ (s_{i} - s_{j})}) \end{array}$

ただし、
- $d_{i}$ が $d_{j}$ よりも適合しているとき $S_{i j} = 1$
- $d_{j}$ が $d_{i}$ よりも適合しているとき $S_{i j} = - 1$
- $d_{i}$ と $d_{j}$ が同じラベルのとき $S_{i j} = 0$

RankNet の Lambda

 $\frac{\partial C}{\partial s_{i}} = σ (\frac{1}{2} (1 - S_{i j}) - \frac{1}{1 + e^{σ (s_{i} - s_{j})}}) = - \frac{\partial C}{\partial s_{j}}$

これを使って損失関数の $w_{k}$ に対する微分は以下のようにできる

 $\begin{array}{rcl} \frac{\partial C}{\partial w_{k}} & = & \frac{\partial C}{\partial s_{i}} \frac{\partial s_{i}}{\partial w_{k}} + \frac{\partial C}{\partial s_{j}} \frac{\partial s_{j}}{\partial w_{k}} \\ = & σ (\frac{1}{2} (1 - S_{i j}) - \frac{1}{1 + e^{σ (s_{i} - s_{j})}}) (\frac{\partial s_{i}}{\partial w_{k}} - \frac{\partial s_{j}}{\partial w_{k}}) \\ = & λ_{i j} (\frac{\partial s_{i}}{\partial w_{k}} - \frac{\partial s_{j}}{\partial w_{k}}) \end{array}$

この式を使って重み $w_{k}$ を更新できる
$λ_{i j}$ は、文書 $d_{i}$ と $d_{j}$ の組に対しての、変更したいスコアを表している
クエリ-文書ベクトルのと
- $λ_{j i}$ の総和 $λ_{i}$ を定義する

 $λ_{i} = \sum_{j : {i, j} \in I} λ_{i j} - \sum_{k : {k, i} \in I} λ_{k i}$

このは、クエリ-文書ベクトルのペアワイズ損失の勾配を表している
- (a) は最適なランキング
- (b) は 10 のペアワイズ誤差をもつランキング
- (c) は 8 のペアワイズ誤差をもつ
- 青の矢印は最後の文書の勾配 $λ_{i}$

f:id:takuya-a:20201222153814p:plain — ランキングの損失とそれらの λi の例(1)

青の矢印でペアワイズ誤差は減り、2値の適合性評価指標は改善する
しかし、NDCG や ERR のような、上位により大きい重みをつける指標では、以下の赤の矢印のような勾配のほうが望ましい

f:id:takuya-a:20201222153851p:plain — ランキングの損失とそれらの λi の例(2)

LambdaRank

LambdaRank [Burges et al. 2006]
RankNet のようなペアワイズ誤差ではなく、NDCG の効果を入れる
アイデア：を倍する
- $| Δ Z |$ は、文書 $d_{i}$ と $d_{j}$ を交換したときの差分
$| Δ Z |$ として $| Δ N D C G |$ （NDCG の変化）を使って $λ$ を以下のようにする

 $λ_{i j} = \frac{\partial C (s_{i} - s_{j})}{\partial s_{i}} = \frac{- σ}{1 + e^{σ (s_{i} - s_{j})}} | Δ N D C G |$

Burges et al. は、この変更によって NDCG に対して十分に最適化できることを示した

LambdaMART

LambdaRank は勾配をモデル化している
MART は勾配（勾配ブースティング）によって学習できる
この2つを組み合わせたのが LambdaMART [Burges 2010]
- MART に LambdaRank の勾配を入れた

f:id:takuya-a:20201221041428p:plain — ([Burges 2010] Algorithm: LambdaMART) LambdaMART のアルゴリズム

前述の通り、Yahoo! Learning to Rank Challenge で LambdaMART （と他のモデルとの線形結合）を使ったチームが優勝 [Burges et al. 2011]
結合されたモデルと、それぞれの単体でのスコアは以下の通り

f:id:takuya-a:20201222164100p:plain — ([Burges et al. 2011 Table 2]) 使用されたモデルと単体でのスコア

多くのモデルを組み合わせなくても十分に高い性能を示す

f:id:takuya-a:20201222164143p:plain — ([Burges et al. 2011 Table 3]) モデルの組み合わせとそれぞれのスコア

他のチームも僅差
- ペアワイズの Logistic Rank もいい結果を残している

f:id:takuya-a:20201222164220p:plain — ([Burges et al. 2011 Table 4]) Yahoo! Learning to Rank Challenge の最終スコア。1位のチームが LambdaMART

だが、決定木ベースの手法は検索エンジンの会社では必要不可欠になっているようだ
- ビッグデータに対しては少し優位なのかもしれない

講義資料

Learning to Rank (with GBDTs)

stop-the-world

takuya-a のブログ

Information Retrieval and Web Search まとめ(20): ランク学習

情報検索のための機械学習

歴史

機械学習の必要性

ランク学習

検索ランキングのためのアルゴリズム

Yahoo! Learning to Rank Challenge

回帰木

勾配ブースティング

ブースティングのモチベーション

ブースティングによる関数の推定

勾配ブースティングの学習

Gradient Boosted Regression Tree (GBRT)

MART

RankNet

RankNet の Lambda

LambdaRank

LambdaMART

講義資料

参考資料