(cache)AIは人間に近づけるか: 将棋が強くなる方法

AIは人間に近づけるか

第31期竜王戦5組ランキング戦決勝にて

藤井聡太七段が６８手目に放った△6三同金からの流れで

「藤井聡太七段 AI（人工知能）が悪手とした一手で勝ち」
「藤井七段は AI（人工知能）を超えたのか？」

などと大きく報じられました。

このときのAI（人工知能）評価値は
2017年の第5回将棋電王トーナメントで
Ponanza等に勝利し優勝した
将棋ソフト「電王　ぽんぽこ」です。

私もこの藤井聡太七段の指し手が
「将棋史に残る一手」だと考えています。

どんな局面だったかと言えば下記局面です。

画像の将棋ソフトでは、ちゃんと読めてます。
この将棋ソフトについて興味にある方はコチラの記事をお読み下さい
　▶将棋を「ディープラーニング」してみた
　▶藤井聡太七段っぽい評価関数が出来た

不足していた教師局面

この第31期竜王戦5組ランキング戦決勝を
さまざまな「既存将棋ソフト」で検討したところ、
あることに気が付きました。

それは既存の将棋ソフトでは、
全然学習出来ていない局面が存在していたことです。

大駒が相手陣へ突破する局面です。

将棋の定跡においても
「大駒が相手陣へ突破する」といった局面は、
一番大きなテーマのひとつと言っても良いと思います。

この局面を学習するためにはどうすれば良いのか。

たった一つの冴えたやり方（かも）

私がやったのは教師局面の工夫です。
下記コマンドで生成しました。

depth 10
random_move_count 0
write_minply 9
write_maxply 160
eval_limit 3000

【コマンドの意味】

depth 10　＝　探索深さ１０手
random_move_count 0　＝　ランダムムーブ不使用
write_minply 9 ＝　初手～８手目までは学習しない
write_maxply 160 ＝　160手目で引き分けとする
eval_limit 3000 ＝　評価値3000まで

【意図としては】

「大駒が相手陣へ突破することが良いことだ」とAIが学習するには、
相手陣で飛車＋角の成駒が暴れまわっている局面が必要と考えた。

この条件で教師局面を生成すると、
デフォルトの「eval_limit 32000」のまま教師を生成するより、
そういった局面が比率的に約４倍程度生成される。

「depth 10」だと「write_maxply 160」程度が
「勝敗項」が上手く付くことがわかった。

学習してみた結果

「MultiPV ５」で検討しないと難しかった局面が
「MultiPV ３」で出るようになった。

どんどん学習してみると

現在トップレートのQQRが「角落ちで負ける」

Godwhale5.0.5/QQR 相手に角落ち
６コア３．５秒のuuunuuunさん基準

　▶棋譜はコチラ

学習途中だけどこれだけは言える。

コンピューター将棋は今年中にレート２００は上がる。

新しい定跡が生まれる。

不足していた教師局面

たった一つの冴えたやり方（かも）

学習してみた結果

どんどん学習してみると

この記事へのコメント