(cache)AlphaGo Zeroの論文を読むその4(自己対局)

その3の続き

自己対局パイプライン

自己対局パイプラインは、3つの主要な部分から構成される。

最適化
評価
自己対局

これらは並行で実行される。

最適化

ミニバッチサイズ：2,048 (32バッチずつ別々のGPUで実行)
ミニバッチデータは直近50万の自己対局のすべての局面からランダムでサンプリング
モーメントありのSGDで最適化(モメンタムパラメータ=0.9)
学習率は以下の通り徐々に下げる

1000ステップ	学習率
0-400	$10^{- 2}$
400-600	$10^{- 3}$
>600	$10^{- 4}$

損失関数には、policyの交差エントロピーとvalueの平均二乗誤差の和を使用
policyの交差エントロピーとvalueの平均二乗誤差は等しく重み付けする
L2正則化を行う(c= $10^{- 4}$ )

損失関数を式にすると以下の通り
$l = (z - v)^{2} - π^{T} l o g p + c ∥ θ ∥^{2}$
zは勝敗(-1,1)、vはvalue、 $π$ はモンテカルロ木探索で求めた局面の遷移確率、 $p$ はpolicyの遷移確率、 $∥ θ ∥^{2}$ はネットワークのパラメータの2乗ノルム

自己対局1,000回ごとにチェックポイントを設ける
チェックポイントで次の自己対局で使用するか評価を行う

評価

チェックポイントで現在の最良のネットワークと比較して評価する
モンテカルロ木探索アルゴリズムで最良のネットワークと400回対局を行う
1手1,600シミュレーション
温度パラメータは $τ \to 0$ とする(最大の訪問回数のノードを選択)
最良のネットワークに55%以上勝利した場合、それを最良のネットワークとし、その後の自己対局で使用する

自己対局

評価で選択した最良のネットワークを使ってデータを生成する
各イテレーションでは、25,000ゲーム、1手1,600シミュレーションのモンテカルロ木探索で自己対局を行う

各ゲームの最初の30手は温度 $τ = 1$ に設定する(訪問回数の応じた確率で着手し、局面にバリエーションを持たせる)

残りの手は、温度 $τ \to 0$ に設定する
ルートノードの事前確率にディリクレノイズを加える
具体的には、 $P (x, a) = (1 - ϵ) p_{a} + ϵ η_{a}, η \sim D i r (0.03), ϵ = 0.25$
このノイズは、全ての手を試すために行うが、探索することで悪手は選択されなくなる

計算資源を節約するため、明らかに負けの場合投了する
閾値は誤認率を5%以下に保つように自動的に決定する
誤認率を測定するため10%のゲームは終局までプレイする

将棋AIに応用する際の考察

損失関数について

policyの交差エントロピーは、式では教師データの指し手ではなく、遷移確率 $π$ を使用していますが、温度パラメータを0にして自己対局しているので、実際は打ち手のみを学習することになるので、教師データとして打ち手をone hotベクトルとしたsoftmax交差エントロピーを使っていると思われます。

valueの損失には平均二乗誤差が使われています。
出力の活性化関数がtanhの場合は、交差エントロピーは負の値に使えないので、平均二乗誤差を使用していると思われます。
報酬が(-1,1)の単位スケールなのでvalueの平均二乗誤差とpolicyの交差エントロピーと同じ重みにするのは合理的だと、書かれていましたがちょっと意味が分かりませんでした。

なお、将棋AIでは、評価関数の出力にsigmoidを使用して、損失には交差エントロピーを使うのが主流になっています。

温度パラメータについて

局面のバリエーションを増やすために、自己対局の最初30手は温度パラメータが調整されています。
将棋AIでは、初期局面集を使って局面バリエーションを増やすことが行われています。
初期局面集の質が良ければその方がバリエーションを増やすには良いと思います。
初期局面集から開始して温度パラメータ調整ありで、数手を指すのが良いかもしれません。

残りの手は、温度パラメータを0にして最大訪問回数のノードを選択しています。
それではpolicyの予測手以外を探索しなくなるので、ルート局面のみノイズが加えられています。
policyは読み抜けをなくすこと重要なので、ノイズを加えることで対策しているようです。
ルート局面以外にもノイズを加えると探索の幅が広がりすぎるので、ルート局面のみに限定しています。
ノイズを加えることで、ついでにある程度打ち手にランダム性を加えることもできます。

ディリクレノイズについて、K次元のディリクリ分布は、
$D i r (p | α) = \frac{Γ (\sum_{k = 1}^{K} α_{k})}{\prod_{k = 1}^{K} Γ (α_{k})} \prod_{k = 1}^{K} p_{k}^{α_{k} - 1}$
で表されるので、出力ラベル数を次元としたディリクリ分布に従って生成した値をノイズに加えるということだと思います。
（合っているか自信がありません。間違っていたら教えてください。）

投了の閾値について

投了の閾値を自動で決定しているのはよく考えられていると思いました。
自分なら適当に決めていると思います。

対局数について

モンテカルロ木探索で自己対局をするには相当な時間がかかります。
個人で試そうと思ったらどこかで割り切りが必要そうです。

続く

TadaoYamaokaの日記

山岡忠夫 Home で公開しているプログラムの開発ネタを中心に書いていきます。

AlphaGo Zeroの論文を読むその4(自己対局)