アルファ碁の3つの武器

イ・セドル九段に勝利するなど、驚異的な強さを誇るアルファ碁。山本一成さんによれば、アルファ碁はある3つの武器を組み合わせることで、ほかのプログラムを圧倒するほどの強さを手に入れたと言います。その3つの武器とは、いったい何でしょうか。

第17回で、ディープラーニングと囲碁の相性が非常にいいことを説明しました。
 ディープラーニング版打ち手予想器と従来のモンテカルロ法を組み合わせることで、囲碁プログラムは従来の行き詰まりを解消することに成功したのです。

 モンテカルロ法だけではせいぜいアマチュア五段程度だったのですが、ディープラーニング版打ち手予想器を組み合わせることで、アマチュアトップクラスに肉薄できるようになりました。

 ここまではほかのコンピュータ囲碁のプログラマたちも展開を追うことができていたようです。ディープラーニングが囲碁と相性がいいことは、世界中のプログラマたちが同時多発的に気づいていたからです。

 しかし、グーグル・ディープマインド社はさらに一歩先を行く改良をほどこします。それが、ディープラーニングと強化学習の組み合わせでした。

 強化学習はポナンザでも実現したことをお話しましたね(第14回)。自分自身でいろいろと試行錯誤をして、学習していく手法です。

 この強化学習とディープラーニングを組み合わせることで、従来では達成不可能だった課題がコンピュータにできるようになったのです。

 グーグル・ディープマインド社が最初に挑戦したのは、ブロック崩しのゲームです(図3-18)。そのさまざまな画面を大量に画像として入力し、正しいゲームの動きが出せるように学習させるのです。

 このゲームは実際にプレイされたことのある人も多いかと思います。基本的には、画面の下に配置され、横に動くだけのバーを操作して、スピーディに落ちてくる球を弾き返し、何層ものブロックを崩していくゲームです。ブロックを崩すことで得られるポイントとクリアする早さを競いますが、その前に球をそらして落としてしまえばゲームは失敗になります。

図3-18 ブロック崩しゲーム
いくつかのバージョンがあるが、これは初期に発売されたATARI社のもの。

 学習の初期段階では、下にあるバーを闇雲に振り回すだけで、ほとんど点数を獲得できません。しかし何度か試していくうちに、偶然にもバーに球が当たることがあります。すると弾き返した球がブロックを壊し、少しだけ点数が獲得できるので、その結果をフィードバックします。その積み重ねで、だんだん球がバーに当たるように学習していくのです。

 そしてあるとき、上のブロックの裏側に玉を通すと高得点につながることを偶然発見すると、それをどんどん狙うようになるのです。

図3-19 ブロック崩しゲーム
①~④のようにゲームを進め、ブロックの裏側に球がいくと、
球がなかなか落ちてこず連続してブロックを壊して高得点となる。
出所:“Human-level control through deep
reinforcement learning” Jiang Guo

 これはまさに、ディープラーニングと強化学習の幸せな結婚でした。
 以前は概念だけでなかなか実用的に応用されることが少なかった強化学習ですが、ディープラーニングと組み合わせることで、適用可能な範囲が一気に広がりました。

 囲碁においても、ディープマインド社は強化学習を実行しようとします。
 囲碁の強化学習は一般的な方針とは外れて、やや変則的な方法でおこなわれました。

 最初は第17回で説明したモンテカルロ法による打ち手予想器どうしで試合をして、打ち手予想器を倒すことのできる新しい打ち手予想器を作成します。

 そしてこの新しい打ち手予想器どうしで、何度も何度も試合をさせます。ただし、これは単純に直前のバージョンに勝ったものだけを残していくという方法ではなかったようです。

 バージョンAに勝ったBを次はCと対戦させ、Cが勝ったら次のDと……とするだけでなく、バージョンCはAともDとも対戦させるなどの組み合わせが試されました。なぜなら、直前のバージョンに勝つことだけを求めてしまうと、一種の過学習が起きるためです。

 その数は定かではありませんが、多数のバージョンの打ち手予想器が生み出され、繰り返された対局はおよそ3000万試合。

 さらにその試合結果から、今度は試合の勝敗を予想する「勝敗予想器」の作成を始めます。3000万試合ほどの膨大な試合数があって、初めて勝敗予想器が作成できるようです。

 この勝敗予想器にもディープラーニングが使われています。ただし、そのしくみの全貌を説明するのは本連載のレベルを大きく超えるので、関心のある方はネイチャーの論文を参照してみてください。

 この勝敗予想器は、今まで何度も話してきた「評価」に相当します。囲碁では「評価」を作成しようとして、何度も挑戦しては失敗してきました。その結果、モンテカルロ法という「評価」を諦めた手法がメインになったのでした。

 それから10年後、ディープラーニングという新たな武器と強化学習の組み合わせによって初めて、盤面を直接評価できるようになったのです。

 このしくみを知ったとき、私はすごく嬉しかったです。囲碁盤を評価することに、ついに人類は成功したのですから。

図3-20 ディープラーニングが囲碁の壁を突破した

 「モンテカルロ法」と「ディープラーニング版打ち手予想器」、そして「ディープラーニング版評価」。この3つの武器を組み合わせることで、アルファ碁は今までの囲碁プログラムを圧倒するほどの途方もない力を手に入れました。

 ネイチャーに論文を発表した時点ですら、以前の囲碁プログラムに対して勝率99%以上を実現しています。

 これは本当にとんでもない数字です。なぜならほかのプログラムも、一流のプログラマたちが必死で開発しているわけですから。どの世界であれ、どんなに強いプレイヤーであっても、ほかのプレイヤーに対して勝率99%以上というのは通常達成できるレベルではありません(参考までに、将棋の羽生善治三冠の年間最高勝率は1995年の83.64%です)。

アンサンブル効果

 話が少しややこしくなりますが、アルファ碁の強さの秘密は、単に3つの武器を手に入れたことによるわけではありません。3つの武器のあいだで、「アンサンブル効果」が生じていたことも大きかったのです。

 「アンサンブル」とは、もともとは音楽用語で、2人以上が同時に演奏することを意味します。合奏、重奏、合唱などですね。

 そして、大勢の歌い手による合唱の魅力が1人の歌声の単なる足し算とは言えないように、複数の手法が重ねられることで格段によい結果が得られることを「アンサンブル効果」と呼んでいるのです。

 もう少し詳しく言うと、人工知能でも、同等くらいに評価ができ、作り方が違う手法の平均をとると、ものすごくパフォーマンスが上がるのです。

 たとえばアルファ碁の局面評価では、①モンテカルロ囲碁による勝率予想、②ディープラーニングによる勝率予想をし、かつ①と②の平均をとるという方法になります。これが、①、②単独の予想よりもはるかによい結果をもたらすということですね。

 これは、現代社会において多数決が有効であるとされる理由の1つと、本質的に同じことだと思います。ただし前提として、多数決を構成する要素(人)の多様性があり、かつ同じ程度には問題について考えている状況が成り立たないとアンサンブル効果を得られませんし、もっと悪い結果になることすらあります。

 だからアンサンブル効果というのは、別に機械学習に限った話ではないのです。合唱でもそれぞれの構成員が個性を持ちながら、かつ十分な鍛錬をつんだ状態でないと素晴らしいアンサンブルにはなりませんよね(なんだか妙に示唆的な話になってしまいました)。

 この3つの武器(とアンサンブル効果)を手にいれたアルファ碁は、一気に世界トッププレイヤーのレベルに到達しました。そして、イ・セドル九段に勝利したのです。

 その後もアルファ碁は強くなり続けて、オンラインネット対戦の場では人類トップレベルに対して60連勝を成し遂げます。その対戦相手のなかには、現在人類最強と呼ばれている人も含まれていました。もはやアルファ碁は人類のレベルを超越したと断言できるでしょう。

科学が宗教になる瞬間

 アルファ碁ショックののち、囲碁界に不思議なことが起こりました。誰も彼もがアルファ碁の真似を始めたのです。もちろんアルファ碁の打ち回しが優秀だと思ったから打っているのですが、正直なところ、誰もその打ち手の意味をわかっていなかったと思います。

 ポナンザも将棋の新定跡をたくさんつくり出し、プロ棋士たちがそれを試して優秀だと思い実践するようになったのですが、その雰囲気とはちょっと違います。

 なんというか、これまで人間があまりに理解できていなかった囲碁というゲームに、アルファ碁は光を与えてくれたのです。プロ棋士たちが(おそらく)意味もわからずアルファ碁の真似をしはじめた様子は、今までの囲碁から離れ、新しい囲碁の道を模索し始めたようでした。

 私の知人の囲碁棋士・大橋拓文さんが言った言葉が印象的です。 「科学が宗教になる瞬間を見た」—そう、アルファ碁の勝利は、人間を超えた知性が宗教の対象になった瞬間のように思えるのです。

天才からの卒業

 私たち人間は、“天才”という存在が大好きです。「アインシュタインのIQは190だった」などの天才たちのエピソードは世界中で語られていますし、ネットでも本でもいくらでも読むことができます。

 そうした畏敬の念から、多くの人は、普通の人と天才の間にこそ「知の本質」が存在していると思いがちです(図3-21)。

図3-21 知性の本質はどこにある?①

 私も、人工知能の研究を始める前は(そして始めてからしばらくも)同じように考えていました。しかし、今ではだいぶ違う考えを持つようになっています。

 もちろん、アインシュタインは普通の人よりも賢いと思います。でも、“ずいぶん”賢いかは別問題です。 「アインシュタイン」と「普通の人」と「昆虫」は、賢さという点で、どれくらい違うと思いますか?

 ビジュアルにしてみると、図3-22のような感じになるのではないでしょうか。アインシュタインと普通の人の差は、昆虫と普通の人の差を比べると、とても小さくなります。正直なところ、もはやアインシュタインと普通の人の差などどうでもいいくらいですね。

図3-22 知性の本質はどこにある?②

 「知の本質」というものが存在するとしたら、かつては普通の人と昆虫のあいだにこそあったのでしょう。

 「かつて」と書いたのは、これからは人工知能がアインシュタインのような天才すら超えていくのではないかと思うからです。

 いま、人工知能は多くの場面で人間をお手本にした「教師あり学習」をしています。多くの場合はそれだけで十分に技能が高められるでしょう。

 しかし、強化学習とディープラーニングの組み合わせによって、人工知能は人間のお手本からも離れて、はるかに上のレベルに到達することが証明されてしまいました。今、人工知能は天才からも卒業する時代になったのです。

 そうした時代に、「知の本質」はどこにあるのでしょうか?  もしかしたら、「普通の人」と「昆虫」のあいだよりも、アインシュタインと人工知能のあいだにある、と考えるべきなのかもしれません。

図3-23 知性の本質はどこにある?③

この連載について

初回を読む
人工知能はどのようにして「名人」を超えるのか?

山本一成

2016年、電王戦で5戦全勝した将棋AIポナンザ。開発者である山本一成さんは「知能とは何か?」「知性とは何か?」ということを何度も自問することになったそうです。そうすることで、逆に人間の知能がクリアに見えてきたと言います。この思考の結...もっと読む

この連載の人気記事

関連記事

関連キーワード

コメント

plastic_candy アルファ碁がずば抜けて強くなった理由の解説から、科学が宗教になった瞬間、「知の本質」まで、すごく読み応えあった。最後の図が衝撃的… 約1時間前 replyretweetfavorite

k_matsuzaki RL Policyの強化学習のために繰り返された自己対戦と、勝敗予想器(Value Network)の作成のためにSL/RL Policyでやった自己対戦の記述が混ざってるような。 約1時間前 replyretweetfavorite

otapo_ この連載ずっと読んでるけど、今回のが一番グッと来る内容だった。「科学が宗教になる瞬間を見た」 約2時間前 replyretweetfavorite

issei_y アンサンブル効果という今の機械学習の基本的な原理の一つをお話します。 約2時間前 replyretweetfavorite