A:AIが不得意な部分というと、例えば?
水:オーラス、9種9牌、4位の場況で、3位との差が28000点などでは、絶対に国士を狙うのが正解なのに、AIは流しちゃうとか。
凸:何回連続、流局罰符狙っとんねん的な(笑)。 学習量の問題かな?
水:そうかもしれません。相当数、自己対戦や学習をAIにさせても、そういう特殊なケースにはほぼ出会わないので、どちらが有利かを学習できてないようです。
凸:AIの特徴みたいな話に少しなってきたけど、この「Suphx」の概要、水上さんはどう感じた? 深層強化学習を使っているとのことだけど、最終的なプレイヤーの牌譜依存性などは。
水:読む限り、プレイヤーの牌譜に依存した打ち方は残っていますね。
A:プレイヤーの特徴と言えば、時間軸的に読めて打てているのかといった疑問点もありました。例えば同じアンパイを切るにしても、萬子の2、3と切っていけばほぼ安全なのに、筒子の7がかなり危険だけど筒子の8は絶対安全、という時、筒子の8を切っている。「1手変わり先」を厳密に読めていないと感じた部分はありました。
水:深層学習だから“場面”での評価は膨大な特徴量から判断できますが、それを強化学習フェイズにつなげる時、その“細かい”部分までを全部学習できるかというと、確かに難しいかもしれません。
凸:無限時間学習させれば理論上は最適化されるとしても、それは囲碁や将棋で「無限時間探索すれば、完全解がわかる」と言っているようなもので、無理だからね。
水:「人間のプレイ履歴で学習させる」ことによって学習時間を効率化し、スタートダッシュを可能にしたわけですから、囲碁AIの「Alpha Go」と方針は似ていますが、深層強化学習が麻雀に適用できたのはすごいです。
凸:学習データが無限時間で無意味にならない限りは、学習の経路依存性は残るね。人間の知識に一切依存しない「Alpha Go Zero」は次のステップかな。
水:マイクロソフトのページでは人間の牌譜使用について書いていなかったので、もしかしたらもうできているのかもしれない。ただ、そこまでは読み取り切れませんでした。