(cache) 競技プログラマー向け将棋AI開発入門 - nodchipのTopCoder日記

2015-12-24

■ 競技プログラマー向け将棋 AI開発入門 00:00

はじめに

この記事はCompetitive Programming Advent Calendar 2015 25日目の記事として書かれたものです。

内容は競技プログラミング経験者であるnodchipが将棋のAIの開発を通して得た知識と経験をまとめたものです。

まずは動かしてみましょう

一から将棋プログラムを作るのは難しいと思います。まずは既存の将棋 AIを動かしてみて、どんな感じなのか感覚を掴んでみましょう。無料で手に入る主な将棋 AIは以下の通りです。

Bonanza - The Computer Shogi Program http://www.geocities.jp/bonanza_shogi/
- 2005年に登場しコンピューター将棋業界に一つのブレークスルーを起こした伝説の将棋ソフトです。
GPSshogi - PukiWiki http://gps.tanaka.ecc.u-tokyo.ac.jp/gpsshogi/
- 東京大学で実践的プログラミングを主催されている金子知適准教授が開発に携わっていることで有名です。第2回電王戦第5局において約680台の端末をクラスタ化してA級プロ棋士三浦弘行九段に勝利したことは記憶に新しいと思います。
Apery http://hiraokatakuya.github.io/apery/
- 平岡拓也氏の開発された将棋 AIソフト。第3回電王トーナメントにおいては3位に入賞しています。オープンソースとして公開されています。
nodchip/tanuki-bin https://github.com/nodchip/tanuki-bin
- 上記のソフトをnodchipが改造した物です。

これらのソフトはUSI(Universal Shogi Interface)プロトコルに対応した将棋 AIです。

将棋所：USIプロトコルとは http://www.geocities.jp/shogidokoro/usi.html

ネット上にはUSIプロトコルに対応したVisualizerがいくつか公開されています。nodchipはVisualizerとして『将棋所』を使用しています。

将棋 GUIソフト「将棋所」のページ http://www.geocities.jp/shogidokoro/

将棋 AIを適切なフォルダに解凍したあと、将棋所→対局→エンジン管理から登録し、対局→対局で対局することができます。AI同士を対戦させるのも良いですし、AIに挑んでボッコボコにされるのも良いかもしれません。

ソースコードをコンパイルしてみましょう

次にソースコードをダウンロードしてコンパイルしてみましょう。Windowsの場合はVisual Studio 2015 Community EditionやMinGW-w64+MSYS、Linuxの場合はgccがあればコンパイルすることができると思います。

tanuki-の場合

ソースコードをgithubよりcloneしてくる
Visual Studio 2015 Community Editionをインストールする
tanuki-/tanuki-.slnを開く
ビルドボタンを押す

これだけです。

将棋ソフトのコンポーネント

将棋のAIは主に以下のコンポーネントに分かれています。

盤面データ構造
- 局面の状況を保持するデータ構造。強いソフトはBitBoardを用いた高速・省メモリなデータ構造を使っていることが多い。BitBoardについては後述。
指し手生成
- ある局面が与えられた時に、手番のプレイヤーが指すことができる合法手を列挙するルーチン。これが高速だと単位時間に読める局面が多くなる。一方、実際に指されそうな手から生成したほうが、ゲーム木探索で枝刈りが多く起こるようになり、探索効率が上がる。高速化と指し手の生成手順は、多分トレード・オフの関係にあると思う。
盤面評価
- ある局面が与えられた時に、先手後手のどちらが有利なのか数値評価するルーチン。これが高速だと単位時間に読める局面が多くなる。一方、より正確な数値評価ができたほうが強くなる。これもきっとトレードオフの関係にあると思う。
盤面探索
- ゲーム木を探索していくルーチン。
置換表
- 局面のハッシュをキー、評価値を値としたキャッシュ。有り体に言うと置換表付き盤面探索はメモ付き探索。局面の評価値と探索の評価値を分けてキャッシュするソフトもある。Apery/大樹の枝/tanuki-は分けてキャッシュしている。
定跡データベース
- 序盤の指し方を何らかの方法でキャッシュしたもの。オフラインで作成しておくことがほとんど。プロの棋譜から作るもよし、Ponanzaのようにモンテカルロ木探索を用いて作るもよし。
USIプロトコル
- GUIと通信をするための部分。標準入出力にテキストを流していくだけの簡単なお仕事。競技プログラミングで入出力に慣れていれば単なる実装ゲー。ただしI/Oのflushは忘れずに。

ゲームAI独特のアルゴリズムを覚えましょう

コンピューター将棋では競技プログラミング界隈であまり目にしないアルゴリズムが多いです。以下にそれらの一部を挙げます。

Minimax
- 局面を評価する関数が与えられ、自分と相手プレイヤーがある局面からN手先の評価値を互いに最大化しようとした時、自分の評価値を高めるにはどの手を打てばよいかを求めるアルゴリズム。
- https://ja.wikipedia.org/wiki/%E3%83%9F%E3%83%8B%E3%83%9E%E3%83%83%E3%82%AF%E3%82%B9%E6%B3%95
- http://www.geocities.jp/m_hiroi/light/pyalgo24.html
- https://chessprogramming.wikispaces.com/Minimax
Negamax
- Minimaxにおいて、相手の手番の評価値を反転させることでコードをシンプルにするテクニック。
- https://ja.wikipedia.org/wiki/%E3%83%9F%E3%83%8B%E3%83%9E%E3%83%83%E3%82%AF%E3%82%B9%E6%B3%95
- http://www.geocities.jp/m_hiroi/light/pyalgo25.html
- https://chessprogramming.wikispaces.com/Minimax
Alpha-Beta
- 探索の途中、それまでの評価値の最大値以下or最小値以上の値が出現した時に枝刈りする手法。Minimaxに比べ探索局面数を大幅に減らすことができる。
- 探索する評価値の範囲の下限をalpha値、上限をbeta値と言う
- https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%BB%E3%83%99%E3%83%BC%E3%82%BF%E6%B3%95
- http://www.geocities.jp/m_hiroi/light/pyalgo24.html
- https://chessprogramming.wikispaces.com/Alpha-Beta
Nega alpha
- Alpha-betaにNegamaxを加えたもの。-beta,-alphaあたりがいい感じにサイケデリック。
- https://ja.wikipedia.org/wiki/%E3%82%A2%E3%83%AB%E3%83%95%E3%82%A1%E3%83%BB%E3%83%99%E3%83%BC%E3%82%BF%E6%B3%95
- http://www.geocities.jp/m_hiroi/light/pyalgo25.html
- https://chessprogramming.wikispaces.com/Alpha-Beta
Fail-Soft Alpha-Beta
- Alpha-betaの書き方の一つ。枝刈りをするときにbetaの値以上になった評価値を返すようにしておく。beta値を返すのはFail-Hard Alpha-betaと呼ばれている。
- https://ja.wikipedia.org/wiki/Negascout
- http://www.geocities.jp/m_hiroi/light/pyalgo25.html
- https://chessprogramming.wikispaces.com/Alpha-Beta
Null Window Search
- Alpha-beta法で探索窓を(alpha,alpha+1)として探索をすること…。
- Minimax法で得られる正しい評価値をvとした場合、Null Window Searchからは以下の様な値が返ってくる
  - v <= x <= alpha (v <= alpphaの場合)
  - alpha < x <= v (alpha < vの場合)
- この特性を別のアルゴリズムで利用したりする
- http://www.geocities.jp/m_hiroi/light/pyalgo25.html
Negascout
- Alpha-beta探索であるノードを探索する際、探索窓を(alpha,alpha+1)として探索して、alphaの値を超えそうなときだけ正しい探索窓を使って探索するようにする。探索盤面数がそこそこ減る。
- https://ja.wikipedia.org/wiki/Negascout
- http://www.geocities.jp/m_hiroi/light/pyalgo25.html
Principal Variation Search
- Negascoutと同時期に生まれた類似品。こちらのほうがよく使われている。Principal Variation(PV)は最善と考えられる読み筋のこと。
- https://ja.wikipedia.org/wiki/Negascout
- https://chessprogramming.wikispaces.com/Principal+Variation+Search
Principal Variation Splitting
- ゲーム木の並列探索手法の一つ。PVは直列に探索し、バックトラックの際、PVの各ノードの子のうちPVに含まれない兄弟ノードを並列に探索する。alpha値の更新のタイミングの都合上、本来探索する必要のない枝も探索してしまう可能性があるが、並列化しないよりは高速なことがほとんど。
- https://chessprogramming.wikispaces.com/Parallel+Search
Depth First Search (DFS)
- 言わずと知れた深さ優先探索
Breadth First Search (BFS)
- こちらも言わずと知れた幅優先探索
Iterative Deepning
- 反復深化法
- 深さ1まで、深さ2までDFS、深さ3までDFS、・・・と1手ずつ深さの上限を増やしながらDFSを行うこと。
- コンピューター将棋ではDFSではなく、枝刈り付き探索を用いる
- それぞれの深さ制限での探索をイテレーションと言う。
- 思考時間が制限されている場合、時間が来るまで深さを増やしながら探索を繰り返す。
- ひとつ前のイテレーションのPVを次のイテレーションで最初に探索すると、探索局面数が減る場合がある。これは、ひとつ前のイテレーションのPVが次のイテレーションのPVの近似とみなすことができ、alpha/betaの値が早めに狭まるため。
- https://ja.wikipedia.org/wiki/%E5%8F%8D%E5%BE%A9%E6%B7%B1%E5%8C%96%E6%B7%B1%E3%81%95%E5%84%AA%E5%85%88%E6%8E%A2%E7%B4%A2
- http://www.geocities.jp/m_hiroi/light/pyalgo26.html
- https://chessprogramming.wikispaces.com/Iterative+Deepening
Lazy SMP
- 並列化手法の一つ。
- メインスレッドは深さ1の探索、深さ2、深さ3、・・・と通常の反復深化法を行う。
- ヘルパースレッドはメインスレッドと平行して、メインスレッドより大きい深さで投機的に探索を行う。
- 各スレッドの探索結果は置換表(後述)に保存しておく。
- ヘルパースレッドが探索の結果を置換表にメモするので、メインスレッドの探索がキャッシュヒットしやすくなり、結果的に探索が早く終わるのだと思う。
- 実際に返す手はメインスレッド/ヘルパースレッドの探索結果の中で一番良い物。
- http://www.talkchess.com/forum/viewtopic.php?t=55188
- http://www.talkchess.com/forum/viewtopic.php?t=55170&start=11
Transposition Table
- 置換表と呼ばれる
- ゲーム木の各ノードの探索結果のキャッシュ・メモ。
- キーは盤面のZobristハッシュ(後述)、探索の深さ、探索窓の上限/下限などの組み合わせ。
- https://ja.wikipedia.org/wiki/MTD-f
- http://www.geocities.jp/m_hiroi/light/pyalgo26.html
- https://chessprogramming.wikispaces.com/Transposition+Table
- http://yaneuraou.yaneu.com/2015/12/17/%E9%80%A3%E8%BC%89%E3%82%84%E3%81%AD%E3%81%86%E3%82%89%E7%8E%8Bmini%E3%81%A7%E9%81%8A%E3%81%BC%E3%81%86%EF%BC%818%E6%97%A5%E7%9B%AE/
Zobristハッシュ
- 局面のハッシュ値を計算するための方法の一つ。
- ある駒があるマスに置かれているという状態/手駒一つ/手番等に対してランダムな値を割り当てる。
- ある局面のハッシュは、その局面に存在する全ての状態の値のxorや和で表す。
- コンピューター将棋の場合は和を使うことが多いらしい。これは手駒のハッシュ値の計算がしやすくなるため。
- https://en.wikipedia.org/wiki/Zobrist_hashing
- https://chessprogramming.wikispaces.com/Zobrist+Hashing
- http://yaneuraou.yaneu.com/2015/12/16/%E9%80%A3%E8%BC%89%E3%82%84%E3%81%AD%E3%81%86%E3%82%89%E7%8E%8Bmini%E3%81%A7%E9%81%8A%E3%81%BC%E3%81%86%EF%BC%817%E6%97%A5%E7%9B%AE/
Aspiration Window
- 反復深化法を行うとき、Alpha-betaの探索窓を前のイテレーションの評価値±δした値に設定して探索する手法。結果が探索窓の範囲外だった場合は探索窓を広げて再探索する。上にハズレた場合はFail-High、下にハズレた場合はFail-Lowと呼ぶ。False-Positive/False-Negativeみたいで覚えにくい。
- https://chessprogramming.wikispaces.com/Aspiration+Windows
Razoring
- 探索中、局面の評価値がAlpha値以下だった場合は枝刈りするというもの。亜種がいっぱいあるらしい。
- https://chessprogramming.wikispaces.com/Razoring
Futility pruning
- ゲーム木の末端付近のノードで、これ以上Alpha値が上がりそうにないノードを枝刈りするというもの。これも亜種がいっぱいあるらしい。
- https://chessprogramming.wikispaces.com/Futility+pruning
Null Move Pruning
- 1回パスしてもbetaカットが起こるほど評価値が高い場合は枝刈り。って書いてるけどちゃんと理解していない。
- https://chessprogramming.wikispaces.com/Null+Move+Pruning
Quiescence Search
- ゲーム木探索の終端ノードにおいて、駒の取り合いだけ追加で探索して、数手先で即負けたりしないよう調べること。水平線効果を抑えられるらしい。
- https://chessprogramming.wikispaces.com/Quiescence+Search
Static Exchange Evaluation
- あるマスでのコマの取り合いが終わったあとの評価値を計算すること。
- https://chessprogramming.wikispaces.com/Static+Exchange+Evaluation
ProbCut
- 浅く探索したときの評価値が悪すぎるノードを枝刈りすること。
- https://chessprogramming.wikispaces.com/ProbCut
Late Move Reductions
- Fail-lowしたノード付近のノードは探索する深さを浅くするというもの。
- https://chessprogramming.wikispaces.com/Late+Move+Reductions
ボナンザメソッド
- 盤面の評価関数の重みベクトルを機械学習を使って自動調整する手法
- 最急降下法や確率的勾配降下法などが使われる
- Aperyでは、学習データの各局面について、実際に指された手に含まれる特徴量の重みを増やし、それ以外の手に含まれる重みは減らしていくという実装になている
- 一部では「これただのランキング学習じゃね？」という声も…
- https://ja.wikipedia.org/wiki/Bonanza
全幅探索
- 枝刈り付き深さ優先探索+反復深化法を将棋ソフトでやるときの呼び方
- 幅優先探索とは違う
BitBoard
- 盤面の状況をビット列を使って表現するデータ構造。コマが置かれているマスに相当するビットを1、それ以外を0とする。駒の種類数だけビット列を用意してあげる必要がある。xhl_kogitsuneさんの天使の階段ビットベクトル解法を思い出すのは私だけだろうか？
- https://chessprogramming.wikispaces.com/Bitboards
3駒関係
- 局面評価のための特徴量の一つ
- Bonanzaが導入したことで有名
- 玉の位置+他のコマ1つの種類と位置+さらに他のコマ1つの種類と位置のtuple等を特徴量とする。
- 上記の特徴量はKPP(King-Piece-Piece)と呼ばれる
- 昔のAperyはs16 KPP[81][1548][1548] に重みを保存していた。81は盤のマス目の数。1548は駒の種類と位置+手駒の枚数。
- NHKの某ドキュメンタリー番組では『勝利の三角形』と呼んでいたが、分かるような分からないような…。
KPP次元下げ
- Bonanza メソッドの学習結果に汎化能力を持たせるための手法の一つ。
- KPP以外に3駒の相対位置等も特徴量に加えて機械学習をし、これらを後からKPPに加える。
- 評価値の計算では絶対KPPの配列のみを使えば良い。
- 通常のKPPは絶対KPP、相対位置の特徴量は相対KPPと呼ばれている。
- 機械学習の次元削減とは違う意味だと思う。多分。
KPA次元下げ
- Bonanza メソッドの学習結果にさらに汎化能力を持たせるための手法の一つ。
- KPP次元下げに加え、同じ利きを持つ仮想的な駒を考え、これらの駒の配置も特徴量に加えて機械学習すること。
- 角の頭に歩を打つのも香車を打つのも似たような意味になる場合があるので、これらはひとくくりにまとめて学習しましょうというノリらしい。

改造してみましょう

気になったところを改造してみましょう。プロファイラを使ってホットスポットを特定し、定数倍の高速化をかけるもよいでしょう。探索ルーチンの枝刈りパラメーターを調整するのも良いでしょう。機械学習ルーチンにナウなヤングにバカウケの最先端の学習アルゴリズムを導入するのも良いと思います。

例えばtanuki-がAperyに対して施した改造は以下のとおりです。

定石データベースを変更し、インターネット上で入手可能なプロの棋譜約4万局と、floodgate上の対戦の中でレーティングがGPS Xeon 12コア以上のAIが含まれた対戦の棋譜から作成しなおしました。
定跡選択ルーチンを変更し、データベース作成時は指し手の評価は行わず、本番中に軽い探索を行い、定跡データベースから選択するようにしました。
盤面評価関数のうちKKPをVGATHERDD命令を使って計算するようにしました。
volatile変数をstd::atomic<>へ変更しました。
static const 変数をconstexprへ変更しました。
置換表のEntrySizeを1に変更しました。
置換表・評価値キャッシュの使用率・ヒット率・破棄率を出力できるようにしました。
コンパイラをclang-3.7に変更しました。
Aspiration Window Searchのwindowの広げ方をStockfish6のものに近づけました。
思考時間を変更し、序盤を短め、中盤を長めにしています。
KPPの重みを保持する3次元配列に適当なパディングを入れました。

自己対戦をしてみましょう

将棋所には自己対戦機能が実装されています。これを使って、昔のプログラムに比べて今のプログラムがどれくらい強くなったか確認してみましょう。

まず「対局」→「エンジン管理」から対戦させたいAIを登録します。次に「対局」→「対局」から先手と後手のAIを選択しましょう。残りのオプションをお好みで設定したら自己対戦開始です。おすすめの設定は以下のとおりです。

手数が256手に達したら引き分けにする
時間切れを切れ負けにするオン
連続対局オン
連続対局数 9999
自動棋譜保存　オン

対局数が少ないとランダム要素のせいで誤差が大きくなり、どれくらい強くなったのか正確に測ることができません。以下は「コンピュータ囲碁 ―モンテカルロ法の理論と実践―」に書かれている、対戦数と有意差の関係です。

試合数	有意に強くなったといえる勝率(95%)	有意に強くなったといえる勝率(99%)
10	8勝2敗	9勝1敗
20	14勝6敗	16勝4敗
50	31勝19敗	34勝16敗
100	59勝41敗	62勝38敗
200	112勝88敗	117勝83敗
500	269勝231敗	277勝223敗
1000	527勝473敗	537勝463敗

他のAIと対戦させてみましょう

AIが十分に強くなったらネット上で他のAIと対戦させてみましょう。コンピュータ将棋対局場「floodgate」は日本で最も有名なコンピューター将棋ソフト同士の対局場の一つです。プロ棋士の一部も棋譜を参考にしているとのことです。

将棋所からfloodgateに参戦するためには「対局」→「サーバ通信対局(floodgate)」から対戦させたいAIを選び、ログイン名にランキングに表示されるAI名、パスワードに任意の文字列を入力してOKボタンを押せばよいです。

大会に出場してみましょう

現在定期的に開催されている大会は以下のとおりです。

世界コンピュータ将棋選手権
- http://www.computer-shogi.org/
電王トーナメント
- http://ex.nicovideo.jp/denou/

世界コンピュータ将棋選手権は毎年5月のゴールデンウィークに開催されるイベントです。世界と名前が付いている通り、海外からの参加者もいます。

電王トーナメントは株式外社ドワンゴが主催するイベントで、不定期で開催されています。第3回電王トーナメントでは、優勝するとプロ棋士の代表と対戦することができました。

まとめ

競技プログラミング経験者nodchipが将棋のAIの開発を行った経験を元に、将棋のAIの開発に必要な雑多な知識をまとめました。あまりまとまっていない記事で恐縮です…。

この記事を呼んで将棋のAIの開発を始めてくださる競技プログラマーが一人でも増えたら幸いです。

リンク

chessprogramming - home https://chessprogramming.wikispaces.com/
コンピュータ将棋の知識 http://misakirara.s296.xrea.com/misaki/words.html
official-stockfish/Stockfish https://github.com/official-stockfish/Stockfish
HiraokaTakuya/apery https://github.com/HiraokaTakuya/apery
nodchip/apery https://github.com/nodchip/apery
将棋 GUIソフト「将棋所」のページ http://www.geocities.jp/shogidokoro/index.html
コンピュータ将棋対局場 http://wdoor.c.u-tokyo.ac.jp/shogi/

最後に

これにて競技プログラミングアドベントカレンダー2015は終了となります。それでは良いお年を。

コメントを書く

トラックバック - http://topcoder.g.hatena.ne.jp/nodchip/20151224

nodchipのTopCoder日記