その3の続き
自己対局パイプライン
自己対局パイプラインは、3つの主要な部分から構成される。
- 最適化
- 評価
- 自己対局
これらは並行で実行される。
最適化
- ミニバッチサイズ:2,048 (32バッチずつ別々のGPUで実行)
- ミニバッチデータは直近50万の自己対局のすべての局面からランダムでサンプリング
- モーメントありのSGDで最適化(モメンタムパラメータ=0.9)
- 学習率は以下の通り徐々に下げる
1000ステップ | 学習率 |
0-400 | |
400-600 | |
>600 |
損失関数を式にすると以下の通り
zは勝敗(-1,1)、vはvalue、はモンテカルロ木探索で求めた局面の遷移確率、はpolicyの遷移確率、はネットワークのパラメータの2乗ノルム
- 自己対局1,000回ごとにチェックポイントを設ける
- チェックポイントで次の自己対局で使用するか評価を行う
評価
自己対局
- 各ゲームの最初の30手は温度に設定する(訪問回数の応じた確率で着手し、局面にバリエーションを持たせる)
- 残りの手は、温度に設定する
- ルートノードの事前確率にディリクレノイズを加える
- 具体的には、
- このノイズは、全ての手を試すために行うが、探索することで悪手は選択されなくなる
- 計算資源を節約するため、明らかに負けの場合投了する
- 閾値は誤認率を5%以下に保つように自動的に決定する
- 誤認率を測定するため10%のゲームは終局までプレイする
将棋AIに応用する際の考察
損失関数について
policyの交差エントロピーは、式では教師データの指し手ではなく、遷移確率を使用していますが、温度パラメータを0にして自己対局しているので、実際は打ち手のみを学習することになるので、教師データとして打ち手をone hotベクトルとしたsoftmax交差エントロピーを使っていると思われます。
valueの損失には平均二乗誤差が使われています。
出力の活性化関数がtanhの場合は、交差エントロピーは負の値に使えないので、平均二乗誤差を使用していると思われます。
報酬が(-1,1)の単位スケールなのでvalueの平均二乗誤差とpolicyの交差エントロピーと同じ重みにするのは合理的だと、書かれていましたがちょっと意味が分かりませんでした。
なお、将棋AIでは、評価関数の出力にsigmoidを使用して、損失には交差エントロピーを使うのが主流になっています。
温度パラメータについて
局面のバリエーションを増やすために、自己対局の最初30手は温度パラメータが調整されています。
将棋AIでは、初期局面集を使って局面バリエーションを増やすことが行われています。
初期局面集の質が良ければその方がバリエーションを増やすには良いと思います。
初期局面集から開始して温度パラメータ調整ありで、数手を指すのが良いかもしれません。
残りの手は、温度パラメータを0にして最大訪問回数のノードを選択しています。
それではpolicyの予測手以外を探索しなくなるので、ルート局面のみノイズが加えられています。
policyは読み抜けをなくすこと重要なので、ノイズを加えることで対策しているようです。
ルート局面以外にもノイズを加えると探索の幅が広がりすぎるので、ルート局面のみに限定しています。
ノイズを加えることで、ついでにある程度打ち手にランダム性を加えることもできます。
ディリクレノイズについて、K次元のディリクリ分布は、
で表されるので、出力ラベル数を次元としたディリクリ分布に従って生成した値をノイズに加えるということだと思います。
(合っているか自信がありません。間違っていたら教えてください。)