(cache) Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達

Google DeepMindの開発した『AlphaGo』が、囲碁ソフトとして史上初めて人間のプロ棋士を破る快挙を達成しました。

AlphaGo は従来のコンピュータ囲碁ソフトにも用いられていたモンテカルロ木探索と、ディープニューラルネットワークを組み合わせた新しい囲碁アルゴリズム。

Googleによると、最初は人間の棋士どうしの対局譜面をニューラルネットワークに与え、任意の盤面から棋士が次に打つ手を57%の精度で予測できるまでトレーニングします (従来手法では44%)。そこからはAlphaGoが自分を相手に膨大な対局を繰り返し強化学習することで、Crazy Stone や Zenといった従来のコンピュータ囲碁プログラム相手に495戦中494勝を収めるまで上達させたとのこと。

このAlphaGoとの対局相手に選ばれたのは、欧州の囲碁大会 Europe Go Congress で三年連続優勝した樊麾 (Fan Hui) 氏。樊麾氏は中国出身のフランスの棋士で、中国プロ2段の実力です。昨年10月に非公開で行われた対局では、従来のコンピュータ囲碁で多く使われてきた小さな碁盤(計算量が少ない)ではなく標準の19路盤でハンデをつけず、AlphaGoが5戦全勝を収めました。

ボードゲームの人間対機械といえば、1997年にIBMのDeep Blue がチェスのチャンピオンカスパロフを破ったことが象徴的に語られてきました。しかし囲碁は可能な盤面の数が桁違いに大きく、局面の評価も難しく、従来の手法では計算量が膨大になりすぎることなどから、これまでプロに勝てるプログラムは存在していませんでした。

人間のプロ相手に対等な条件でソフトウェアが勝つには、棋士からも研究者からも10年はかかるだろうとの予測が一般的でした。Google DeepMindのAlphaGo はいきなり5戦全勝でプロ相手に史上初の勝利を収めたことになります。

DeepMindによれば、AlphaGoの設計上の特徴は従来手法のモンテカルロ木検索に加えて、次に打つ手を決めるポリシーネットワークと、盤面を評価するバリューネットワークという2組のディープニューラルネットワークを用いたこと。

Deep Blueの人間超えから20年近くが経過し、半導体の進歩や分散コンピューティングなど、単純な計算能力でも大きな進展がありました。AlphaGoのディープニューラルネットワークも、学習にGoogleクラウドプラットフォームの膨大な演算能力を用いています。

しかし元論文によれば、完成した AlphaGo は機械学習を経て賢くなったため、Fan Hui 氏との対局ではDeep Blueがカスパロフとチェス対決した際より数千手少ない候補しか評価しなかったとのこと。Deep Blueは(当時としては)高速な演算能力を背景に多数の手と展開を先読みする力技の勝利といわれてきました。しかし元論文の著者らは、AlphaGoはもっとインテリジェントに手を決め盤面を評価することができ、ある意味で人間に近い打ち方といえるかもしれない、と記しています。

AlphaGoの詳細は本日付の Nature 誌に論文が掲載済み。コード自体は公開していないものの、論文も棋譜もDeepMindのサイトでダウンロードできます。

AlphaGoはコンピュータとして史上初の「19路盤、ハンデ無し、人間のプロに勝利」を華々しい5連勝で飾りましたが、Fan Hui氏はプロ棋士全体でトップレベルというわけではありません。Googleでは今回の勝利を受けて、来る3月、現世代のプロ棋士で最強と目される韓国のイ・セドル9段とAlphaGoの対局を予告しています。様子はYouTubeで世界にストリーミング中継される予定。

GoogleではAlphaGo開発の意義について、人間が設定した特定のルールを元に計算するエキスパートシステムではなく、機械がみずから学習する汎用のアルゴリズムであり、ゲーム以外のさまざまな問題に応用できることを強調しています。

将来的な目標は、気候変動から複雑な病気の解析まで、実世界の重要な問題を解決すること。人類が破滅に至った克明な歴史記録が数千回分と、何度も繰り返し滅亡させて学べる仮想地球があれば、人類の未来も明るく導いてくれそうです。

ルールを教えずに繰り返し学習だけで上達する汎用性といえば、DeepMindはノーヒントでレトロゲーム49本に挑戦し29本で人間プレーヤーを超えたアルゴリズム DQN (Deep Q Network)の開発でも話題を呼びました。

Google Deepmind、人工知能『DQN』を開発。レトロゲームを自力で学習して人間に勝利

DQNはアタリのレトロゲーム49本を与えられ、映像出力とスコアだけを頼りにプレイを繰り返して学習。ゲームのルールも知らず、人間と違いキャラクターの絵がヒントにならないため、パックマンのような複雑なゲームは苦手です。

さらに余談ながら、DeepMindは十代からゲームデザイナーとして活躍した天才的AI研究者デミス・ハサビス氏が2011年に創業したばかりの企業。Googleに買収されたのは2013年と最近です。

Googleの囲碁AI『AlphaGo』がプロ棋士に勝利、史上初の快挙。自己対局を機械学習して上達

Engadget各国版