AlphaZero将棋の検証

概略



2017年12月6日に突如「DeepMind社」からこんな論文?が発表された。
https://arxiv.org/abs/1712.01815

コンピューター将棋に関する所だけ抜粋すると、
話題のディープラーニングを使ってコンピューター将棋を学習した。
第27回世界コンピュータ将棋選手権(wcsc27)で優勝した「elmo」相手に対局した。

この論文の「elmo」条件は
将棋エンジン(探索部):やねうら王ver4.73
評価関数(将棋を学習したもの):wcsc27のelmo
1手当たりで読む局面:3500万局面
投了値(負けを認める評価値):900
定跡はたぶん無し(棋譜添付無しなので不明)

上記設定に対して(AlphaZero側から見て)
先手勝ち(43) 先手負け(5) 引き分け(2)
後手勝ち(47) 後手負け(3) 引き分け(0)

勝率90%と圧勝したそうです


検証条件



※誰でも追試可能な条件にするため、フリーで手に入る将棋ソフト群とする


将棋エンジン(探索部)=やねうら王ver4.79
https://github.com/yaneurao/YaneuraOu/releases

使う評価関数=1手2000万局面程度でwcsc27のelmoに81%勝った「aperypaq」
http://qhapaq.hatenablog.com/entry/2017/11/28/195426

定跡=まふ定跡(横歩取り)第5回 将棋電王トーナメント優勝ver
http://www.mafujyouseki.com/article/455142331.html

以上


疑問点



AlphaZeroが学習したディープラーニングは終盤が弱いのが定説で、投了値900はどうなの?

1手当たりに読む局面数は4万局面だが、
ディープラーニングの盤全体の4万枚と
従来手法の3駒の組み合わせの3500万局面が対等なのか?
つまり、対局した「elmo」の条件に勝率90%しか確認出来ないわけだから、
こちらのソフトは2億局面読もうが、100億局面読もうが良いわけだ。
(採用している反復深化深さ優先探索、αβ探索が深く読む程に強くなる仕様だからだ)

といってもこれで勝っても誰も納得しないだろうから、今回は同じ3500万局面にしておく。


これより下記に対局終わった棋譜を添付する























ここまで10戦10勝(勝率100%)






















ここまで20戦20勝(勝率100%)






















ここまで30戦30勝(勝率100%)






















ここまで40戦40勝(勝率100%)






















先手番終了 50戦50勝(勝率100%)



先手番終了しました。

50戦50勝(勝率100%)

これを見てどう思うかは、みなさん次第です。

後手番もやろうと思いましたが、計算資源の無駄使いなので検証終了します。



以前、elmoがオープンソースとして配布され、

半年前の第4回 将棋電王トーナメントで準優勝した

「浮かむ瀬」とレーティング計測しようとしたところ、

定跡を使用すると「負けなかった」のでレーティングが測定出来ませんでした。



今回も、elmoがオープンソース化され

半年後にそれが起こったと思えば、特段おかしなことではありません。

コンピューター将棋の世界が進歩する速度が早いだけです。



「AlphaZero」さん

今回の「AlphaZero-Shogi」はチェスの片手間に作ってみた印象を私は受けました。

様々な分野に応用出来るすばらしいプログラムであることは理解できましたが、

日本の将棋プレイヤーはもっと本気になった「AlphaZero」が見たい!

2018年5月3日(木)、4日(金)、5日(土)の(3日間)で

コンピューター将棋の頂点を決める

「第28回世界コンピュータ将棋選手権」

待ってますよ。

この記事へのコメント

スポンサーリンク