強化学習を繰り返した結果、私が予想もしてなかったことが起こりました。
ポナンザは単に強くなっただけでなく、どんどん新戦法を指すようになったのです。人間同士の戦いではあり得ないとされていた手順が、次々と湧き出てきました。
コンピュータ将棋の世界に入って本当によかった、と思った瞬間でした。
私は将棋のことを甘く見ていたのです。私自身がプレイヤーとして将棋を指していたころは、既存の戦法にある種の行き詰まりを感じていました。
有効な戦法の種類は限られ、その後の展開も研究しつくされたように見えていたのです。私だけでなく、多くの人が同じ心象を持っていたように思います。
しかしポナンザは、それらの先入観から解き放たれて自由に将棋の海を潜っていきます。そしてその海は、私が思っていたよりずっとずっと深かったのです。
ポナンザが指し始めた戦法は多岐に及びます。それらはおもしろいことに私ではなく、アマチュアプレイヤーやコンピュータ将棋に敏感な若手プロ棋士によって「ポナンザ流」と呼ばれるようになり、体系化されていきました。
ポナンザ流で有名なものでは、「左美濃急戦」と呼ばれるものがあります。この発見によって、プロ棋士の十八番であった「矢倉」が一時期急速に指されなくなったと言われるほど、大きな影響を与えました。
図3−6 左美濃急戦
赤線で囲った部分が左美濃と呼ばれる部分。この局面ののち、矢倉の大家である後手・森内俊之九段に先手・阿部光瑠五段が圧勝します。
また、2013年の名人戦で森内俊之名人(当時)によって打たれた△3七銀は、すでにポナンザによって発見されていた手ということで、大きな話題となりました。
図3−7 名人戦で指されたポナンザ新手
森内俊之名人と羽生善治三冠(いずれも当時)という トッププロ同士の対局の趨勢を決めた一手でした。
今ではポナンザ以外の将棋プログラムも、プロ棋士の棋譜からの学習を脱却して、強化学習を始めています。
そしてここ数年でプロ棋士によるコンピュータ将棋の研究も進み、現在使われる戦法は、何かしらコンピュータの影響を受けたものがほとんどになりました。いつのまにか、コンピュータとプロ棋士の「どちらが教師か」という立場が逆転しているのです。
しかし忘れてはいけないのは、将棋で強化学習が可能になったのは、すでに強化学習前のプログラムがある程度強かったからだ、ということです。
まったく知識がない状態からの強化学習も可能かもしれませんが、その場合はある程度強くなるのに途方もない時間がかかるでしょう。プロ棋士の棋譜を元にすることが、機械学習を現実的なレベルで可能にしたのです。
人工知能の開発においては、必ず大量のデータが必要になるのです。そのうえで、最初は「教師あり学習」。そしてその後は「強化学習」に移るはずです。この流れは今後人工知能が普及するなか、さまざまな場面で出てくると思います。ぜひ覚えておいてください。
人類の反撃と許容
将棋プログラムとしてポナンザが初めてプロ棋士に勝利したあとも、電王戦の場でコンピュータと人間の戦いは続きます。ポナンザ以外にもさまざまな将棋プログラムが、多くのプロ棋士に挑戦しました。
しかし将棋プログラムの長足の進歩に、人間側は真っ向勝負では相当厳しいということがわかってきました。そこで、人間側は直線的な戦い諦めて、ある種の「ハメ技」に近いことも始めます。
誤解してほしくないのですが、私は決してプロ棋士が直接的に戦わないことが悪いと思っていません。むしろ好ましいとすら感じています。
人類と人工知能が本気で戦うなら、その持ち味を極限まで出して戦うべきですし、そもそも電王戦は実験場でもあります。そうした場で限界をあらわにすることで、初めてお互いの知能が相対化され、その輪郭が見えてくるのです。
それではプロ棋士がどのようにして将棋プログラムと戦ったか、実例として2015年におこなわれた電王戦・第5局を紹介しながら検討していきましょう。
図3-8は、先手の阿久津主税(あくつ・ちから)八段が、○で囲った部分にスキを見せ、後手のAWAKEがそこに角を打ち込んだところです。一見すると、1九の香車を取って角が成れるので、形勢はよくなるような気がします。
図3−8 電王戦・第5局で仕組まれた罠
でも、当時の対局を考えてみてください。この対局は、将棋界にとって人間の優位性を示す非常に重要な戦いでした。対局したプロ棋士にとって簡単に負けることは許されないのです。
人間同士の対局であれば、スキを見せられた側はそれが本当のスキなのか、あるいは巧妙に仕組まれた罠なのかを考えます。言わば、いつもとは異なる思考回路を使うのです。
ところが人工知能は違います。少なくとも現在のコンピュータ将棋は相手の意図を読み取って戦ったりはしません。感情で指し手が乱れることはなく、ただ盤面のみを見つめるのみです。
感情がなく、いつでも同じように安定した実力が出せることは、本来はコンピュータのよいところです。しかしこの対局に限っては、コンピュータは感情が必要だったように思います。大きな舞台で、あからさまなスキを見せてきた人間にコンピュータは危機感を持つべきでした。
人工知能はいつものように全力で読み、危機感を持たずに同じようにパンチを打ち込んだ結果、巧妙に設計された罠にはめられます。打ち込んだ角はすぐには取られないので、コンピュータが遠い未来にこの角が死ぬことを発見できませんでした。
図3−9 罠の結果
AWAKEが打った角が、十数手後にただで召し捕られてしまう。
実はこの罠は、アマチュア棋士たちがコンピュータ対策として磨いていた必殺の武器でした。その話を聞いた阿久津八段が、電王戦で実行したのです。言わば人間の集合知のようなものですね。
実際、こうしたコンピュータ将棋をはめる罠は、将棋が強い人というよりは、ゲーマー的な才能を持つ人のほうが見つけやすいようです。将棋プログラムの挙動を理解して、そこから論理の力で設計したのでしょう。
しかしその後、これらのコンピュータ将棋のセキュリティホールとも言うべき傷は、強化学習を重ねることで改善されていきました。コンピュータ側の勝率がどんどん上がっていったのです。
振り返れば、2013年の電王戦で初めて人間がポナンザに敗れたそのときから数年で、将棋界の雰囲気は大きく変わりました。
最初に負けたときの対局後の記者会見では、お葬式でもここまで暗くならないのでは、と思えるほどでした。
しかしその後、対局重ねるなかで、プロ棋士たちも次第にコンピュータのことを認めるようになったのでしょう。今では「(ほかのプロ棋士に負けるように)コンピュータに負けてもしょうがないよね」という雰囲気に変わったことを、はっきりと感じています。
普段は確固たるものと思える私たちの価値観も、現実の変化によって大きく変わります。プロ棋士たちが経験した変化は、これから私たちが社会のさまざまな場面で経験することなのです。
第2期電王戦のお知らせ
4月1日にポナンザが電王戦で対局します!
山本一成さんの開発した「ポナンザ」が第2期電王戦にて佐藤天彦叡王(第74期名人)と1対1の二番勝負で激突! ニコニコ完全生放送。第1局は4月1日(土)AM9:30番組開始、10:00対局開始です。詳しくはこちらをご覧ください。