(cache)新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得 40

ストーリー by hylom 2017年10月20日 17時01分
人間をやめた方が強い部門より

Google傘下のDeepMindが、囲碁AI「AlphaGo Zero」を発表した。DeepMindの囲碁AIといえば、囲碁のトップ棋士を相次いで破ったAlphaGoが有名だが、AlphaGo Zeroはわずか3日間の学習でAlphaGoに圧勝したという（ZDNet Japan、WIRED、ITmedia、Nature誌掲載論文）。

AlphaGo Zeroは人間の対局データをまったく使用せず、AI同士による対局だけで学習を行わせたのが特徴。そのため、初期は完全にランダムな打ち手を選ぶが、数千万回もの自己対局を行った後には人間が行ったことのないような動きを見せるようになったという。

前のストーリー: インテル、AI向け新プロセッサ「Nervana NNP」を発表

/Sea

スコア:

-1

More | Reply

検索40コメント Log In/Create an Account

›

二人零和有限確定完全情報ゲーム (スコア:3)

by asanagi (22217) on 2017年10月20日 16時55分 (#3299014) ホームページ日記

二人零和有限確定完全情報ゲームはもうどんな仕組みでも人間の負けは確定ですかね？
この3日で使ったGCP換算コストも発表してほしい

ここに返信

シェア
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そうかもね。次は複数人数不完全情報ゲーム・・・といっても一番有名なポーカーは手垢がつきまくっているから、麻雀やコントラクトブリッジに挑戦して欲しい。
  麻雀の方はあまり詳しくないが、コントラクトブリッジの商用ソフトはいまだに低級アマチュア並のプレイしかしてくれなくてイライラする。せめて、私みたいなド素人では接待モードにしないとほぼ勝てないくらいのレベルにしてくれ。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    コントラクトブリッジって、競技ルールだと偶然性がなく、割とガチガチなイメージですがそうでもないのですか。
    ポーカーにせよ麻雀にせよ、突き詰めると最後は確率論の分野になりそう。
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      趣味でやってるぐらいですがガチガチです
      そもビッドは「私たちはこういうシステムでビッドしますよ」というのを宣言しないといけません。そうでないと通しが使えちゃうので。だから自動です。
      プレイも大方セオリーが決まってます。ここでどのテクニックを使うか？が楽しみではありますが、一か八かというより、もっともよさそうなプレイというのはだいたい一意に決まるらしいです。上級者だと
      我々レベルだと大混乱ですがｗ
      - Re: (スコア:0)
        
        by Anonymous Coward
        
        そこでサイキックの出番だ
        というか、コンピューターどおしの1000万ディールプレイしたペアが作成した人口知能ビッディングシステムとかでプレイされたら、情報公開とか何とかあったもんじゃない気がする。
        「今のビッディングの意味を教えて」って聞いたら、100ページくらいの詳細な条件分岐テーブルとテラバイトの深層学習マップが渡されたりしそう。コントラクトブリッジは練習以外でコンピューターと遊ぶゲームじゃない気がする。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  乱戦になればなるほど、互角に近づく可能性は高いと思う。
  なので、たとえば進める方向の組み合わせが増えるとか，コマを取った時の選択肢が増えるとか、
  コマの種類が増える、コマがスタックできてその順序が戦闘に影響するなどすれば、変わるかもしんない。
  （必ずしも完全情報じゃないけど）「ギレンの野望」シリーズとかにも、けっこういろんな
  「定石」と呼ばれる物があったけど、ああいうのも演繹や帰納といった推論抜きの単純な総当たりの
  試行錯誤だけで作り出すのは難しいかもしれない。
  https://www14.atwiki.jp/imperatorgirenv/pages [atwiki.jp]
  - Re:二人零和有限確定完全情報ゲーム (スコア:1)
    
    by Anonymous Coward on 2017年10月20日 17時39分 (#3299054)
    
    >特定の機体を入れたり入れなかったりするだけで、ほぼシャッフルされちゃって、それがその後の
    >ゲーム進行をガラリと変えてしまうから。
    機械オンリー学習の怖い所は、それすら幾らでも総当たりで実践学習できるって所だろ。
    
    ここに返信
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      挙句、試行に人間であることに拠る時間ロスが無い。
      機械の速度からすると、思考どころか決めた一手を指すための時間ですら、長大な時間だ。
      分担して並列化ってのも幾らでも出来る。
- Re: (スコア:0)
  
  by Anonymous Coward
  
  全うなルール通りにやるなら、もう人間の負けですね。
  イカサマをやることを想定した場合はどうなんだろう？
  イカサマの手法はともかくとして、やってる可能性や、イカサマをする/しないのリスクとかも数字で計上されちゃうんだよね。
  - Re:二人零和有限確定完全情報ゲーム (スコア:2)
    
    by asanagi (22217) on 2017年10月20日 19時10分 (#3299134) ホームページ日記
    
    完全情報でのイカサマって可能ですかね？
    イカサマ師としてのレベルが低いから思いつかないだけかな
    
    ここに返信
    
    シェア
    
    親コメント
    - Re:二人零和有限確定完全情報ゲーム (スコア:1)
      
      by shinshimashima (9763) on 2017年10月20日 20時26分 (#3299186) 日記
      
      完全情報でも不確定ならイカサマの余地あるんじゃない
      確定完全情報でクロックとかなければ無理とおもうけど
      
      ここに返信
      
      シェア
      
      親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      いわゆる「通し」と呼ばれる身振り手振りで伝える方法だってありますが、
      分解能が違いすぎるのでイカサマやってよいならそっちでも機械の圧勝でしょうねぇ……
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      「明日は雨かな」
      的な
AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:2)

by qem_morioka (30932) on 2017年10月20日 17時06分 (#3299023) 日記

AlphaGO
→囲碁のルールは実装していない。ひたすら勝てる手を効率よく捜すことに特化。
強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。
AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」
AlphaGO Zero
→囲碁のルールを実装している。いわば「教師なし学習」で、AIが目指すひとつの目標。
自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。
AI「俺の経験だと、この手が一番強い」

ここに返信

シェア
- Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:2)
  
  by kcg (26566) on 2017年10月20日 19時58分 (#3299163) ホームページ日記
  
  囲碁のルールを実装していなかったら、ルール違反の手を置いてしまうのでは。
  
  ここに返信
  
  シェア
  
  親コメント
  - Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
    
    by taka2 (14791) on 2017年10月20日 21時47分 (#3299239) ホームページ日記
    
    ルール違反の手は即座に負けと判定されて、それを学習するので、実戦ではそういう手はもう打たなくなるだけかと。
    AlphaGoはコードだけでは成り立たたず、学習データとセットで評価すべきでしょうから、いわば「コードとしてはルールは記述していないけど、データとしてルールを読み込んでいる」状態といえるでしょう。
    そういうものを「ルールは実装していない」って言うのは極論じゃね、って話は以前にも書きました [srad.jp]
    
    ここに返信
    
    シェア
    
    親コメント
- Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
  
  by Anonymous Coward on 2017年10月20日 18時22分 (#3299094)
  
  あなたの人工知能の解釈、以前からウソだらけ。
  だれか彼を教育する学習法を開発してくれ。俺には思いつかん。
  １行目の囲碁のルールは実装していないって、なんだそりゃ。
  一度に百石置く場合とかから学習しているのか？ケッサクだな。
  ちなみに囲碁のルールって、一石ごと交互に置く以外はコウと自死ぐらいしかないのくらいは
  いい加減そろそろ調べて覚えてくれ。
  
  ここに返信
  
  シェア
  
  親コメント
  - Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
    
    by qem_morioka (30932) on 2017年10月20日 18時34分 (#3299106) 日記
    
    一度に百石置く場合とかから学習しているのか？ケッサクだな。
    人間が与えた棋譜がそういうものであれば、そう学習する、そういうものです。
    もちろん食わせた棋譜は勝ったという実績のある棋譜ですから、それには
    囲碁のルールも内包してます。でもそれは棋譜に含まれてるというだけで
    AI自身はルールを持っていない、それがAlphaGO(今回のZeroじゃない方)です。
    なので教師つき学習というのは初期学習をどのようにすればより早くより強くなるのか
    そのAIチューナーみたいな技能が･･･と思っていたらその教師すら不要となったよ
    というのが今回の話。
    安心してください、今回のZeroはちゃんと囲碁のルールを知ってますよwwwww
    
    ここに返信
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....
      - Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
        
        by qem_morioka (30932) on 2017年10月20日 18時54分 (#3299118) 日記
        
        もはやあなたの考えの中には、ディープニューラルネットさえ無いのな。かわいそうなalphaGoとzero.....
        その横文字がどういう意味か良く分からないんで説明してくれませんかね。
        モンテカルロ木探索だって使いたくなかった言葉なのにー
        
        ここに返信
        
        シェア
        
        親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  「教師なし学習」はクラスタリング問題のための学習ですよね．
  動的計画法をベースとする狭義の強化学習は，何と呼ぶんでしょう？報酬あり学習？
- Re: (スコア:0)
  
  by Anonymous Coward
  
  AlphaGO
  →囲碁のルールは実装していない。→ほかのコメントにもあるとおりウソ
  ひたすら勝てる手を効率よく捜すことに特化。→どんな学習プログラムもそうなので、ウソではないが無意味な文
  強化学習も何が正しいか(つまり人間が作った勝てる棋譜)を初期学習させる必要がある。→ウソ。ディープニューラルネットで人間の棋譜学習をしている。強化学習はその後の微調整に使っているが、最終的なプログラムでは捨てられている。
  AI「囲碁?何の事か分かりませんが、勝つと言われる状態になる確率が一番高いのはこの手です」→もはや意味不明。
  AlphaGO Zero
  →囲碁のルールを実装している。→当たり前。
  いわば「教師なし学習」で、AIが目指すひとつの目標。→教師無し学習の意味さえ理解していない典型的な人。ウソ。
  自己学習で強化されるが、初期学習に人の手(棋譜)を使わないのが特徴。→自己学習なんて学習法はない。ディープニューラルネットを自己対戦で学習させている。
  AI「俺の経験だと、この手が一番強い」→もはや例えの機能をはたしていない文
  - Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)
    
    by qem_morioka (30932) on 2017年10月20日 18時51分 (#3299117) 日記
    
    AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。数百万回におよぶ強化学習って微調整レベルのものだったんですか。こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
    AlhpaGOZeroについては教師無し学習がどういうものかまだ理解できてないんですけど、少なくとも無印と違って囲碁のルールを内包し、初期学習に人間の棋譜を使っていない、ただこの二点しか分かってないんですよね･･･
    自己対戦した結果を学習してるのを自己学習っていいませんか?そういう表記をしている記事もありましたけど･･･
    
    ここに返信
    
    シェア
    
    親コメント
    - Re: (スコア:0)
      
      by Anonymous Coward
      
      AlphaGO無印って初期学習は棋譜使ってるけど、強化学習は微調整程度だったとは知りませんでしたよ。-> 良し、一つ覚えたな。これからはウソ書くなよ。
      数百万回におよぶ強化学習って微調整レベルのものだったんですか。→そう。何億回学習しようとも微調整にすらならない場合もある。この場合もそう。これからはウソ書くなよ。
      こいつの基本はモンテカルロ木探索ですから、囲碁のルールなんか知らなくても次の手を捜すことはできますよ(それが勝つ手かどうかは別ですけどね)
      →今日は、モンテカルロ木探索がゲーム木探索であることを覚えろ。ゲーム木探索だから可能手を子節
そういや (スコア:1)

by PEEK (27419) on 2017年10月20日 17時07分 (#3299026)

遺失工学の塊の自動人形であるノエルも囲碁を趣味にしていたが人間相手で学習していたな。
イレインと二人で学習させれば同じようなことになるのかな？

--
らじゃったのだ
進め！恋する乙女♪
その戦闘氏族の成れの果てがこれ

ここに返信

シェア
先入観による評価漏れをなくす (スコア:1)

by akiraani (24305) on 2017年10月20日 17時30分 (#3299047) 日記

AIに創造性があるのではなくて、人間に抜けがあるということなのではなかろうかね。
結局、今の深層学習がやってることって全パターン評価して最高点を探すという作業であって、論理立てて解法を見つけているわけじゃあないでしょ。
ゲームみたいに勝ち負けの判断基準がはっきりしていればそれでまったく問題ないだろうし、そこから先はもう単なるパワーゲームになるんじゃないかな。

--
心の豊かさをHDDの中に求めれば、部屋なんて狭くても良い [srad.jp]

ここに返信

シェア
- Re: (スコア:0)
  
  by Anonymous Coward
  
  これは別に創造性が有るって話ではないよ。
  最初はランダムだって言って居る様に単に勝利のパターンを探すための試行が時間的に効率良く、
  既に無印よりもZEROの方が多くの手をポケットに持って居るってだけだろう。
  - Re:先入観による評価漏れをなくす (スコア:1)
    
    by bero (5057) on 2017年10月20日 19時48分 (#3299157) 日記
    
    考えてみると、人間の「創造性」と言われるものも似たようなものじゃなかろうか
    個体レベルではなく群体レベルで
    最初はランダムに行動または「教師付き学習」して、
    成功したものは名声と金を得てさらなる行動すなわち強化学習し、
    そうでないものは「いい歳してxxxなんかして...」と社会的落伍もしくは（時代によっては）餓死して生物的落伍する
    
    ここに返信
    
    シェア
    
    親コメント
対人間は？ (スコア:0)

by Anonymous Coward on 2017年10月20日 17時07分 (#3299025)

AlphaGoには勝てるとして
人間相手だとボロ負けしたりしないかね
もしくは先手必勝確定で囲碁自体終了なお知らせがでるか

ここに返信

シェア
- Re:対人間は？ (スコア:2, 興味深い)
  
  by Anonymous Coward on 2017年10月20日 17時27分 (#3299044)
  
  >もしくは先手必勝確定で囲碁自体終了なお知らせがでるか
  正しいコミが計算される
  
  ここに返信
  
  シェア
  
  親コメント
- Re: (スコア:0)
  
  by Anonymous Coward
  
  そう。その可能性は多分にある。
  特に「人間が行ったことのないような動きを見せるようになった」なんて言っている場合は、かなり眉唾。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    多分にはないでしょう。
    棋譜を見た囲碁クラスタの方々の反応が面白いですから。
    そして人の棋譜から学習してないわけですから、
    人と同じ手しか指せなかったの方がおかしいでしょう。
定石はリスクが低い様式美 (スコア:0)

by Anonymous Coward on 2017年10月20日 18時37分 (#3299108)

序盤の定石なんて、リスク低減を狙った様式美でしかない。
そもそも定石自体の再評価をする必要もあるのではないかい。
時代の流行の名残とか、思考する労力の低減のためにある定石であるならば、コンピュータには関係ないよな。

ここに返信

シェア
- Re: (スコア:0)
  
  by Anonymous Coward
  
  まあ定石ってのは過去の成功事例でしかないからな。
  ランダムからゲーム終了まで持って行けて、人間の思いもよらない速度で打ち続ける事が出来るので有れば、無からでもその内定石は出て来るだろう。
  - Re: (スコア:0)
    
    by Anonymous Coward
    
    いわゆる「定石」と「布石」はまた違うもんだと思う。布石がオカルトであるのはその通り。
将棋もやってくれないかな (スコア:0)

by Anonymous Coward on 2017年10月20日 20時09分 (#3299172)

将棋のほうでもこういうショックを与えて
コンピュータ対戦をひたすら避けようとする日本将棋界に迫ってほしいね。

ここに返信

シェア
- Re: (スコア:0)
  
  by Anonymous Coward
  
  いや、一応もう決着はついていて、協会の方もセレモニー的対戦もやった気になっているのよ。
  カスパロフ、イセドル、佐藤天彦ってことで。
  nhkスペシャルとかマスコミ対応も一応やって、一応、決着したことになってるのよ。
どうでもいいから打たせろ (スコア:0)

by Anonymous Coward on 2017年10月20日 20時10分 (#3299174)

まぁ最初から井目置かせてもらうけど(弱気)、勿体つけずに打たせろっていう

ここに返信

シェア
ヘボが感染る (スコア:0)

by Anonymous Coward on 2017年10月20日 20時58分 (#3299212)

「ヘボが感染るからお前とはやらない」というキツめの断り文句がありますけど、
人間のトッププロの対局データもそのような扱いになってしまったのですね。

ここに返信

シェア
人の目指した山が間違っていた (スコア:0)

by Anonymous Coward on 2017年10月20日 21時23分 (#3299221)

人工知能の探索でよくある話ですけど、最適解だと思って登った山が間違えってのはよくある話。
探索パスを広げたり深い谷を抜けると、さらに高い評価の山があったりします。
初期ランダムの重要性が、碁の世界にもあったのかもしれませんな。

ここに返信

シェア

関連リンク

前のストーリー: インテル、AI向け新プロセッサ「Nervana NNP」を発表

AIの知性を測定しスコア化する方法が考案される。これによるとトップはAlphaGo

DeepMindがAlphaGo同士の対局の棋譜を公開

DeepMindの囲碁AI「AlphaGo」、引退へ

「AlphaGo」と柯潔九段の囲碁対局、2局目もAlphaGoが勝利

正体を隠してオンライン囲碁サービスに放たれたAlphaGo、トップ囲碁棋士らを次々と撃破

新たな囲碁AI「AlphaGo Zero」、人間の対局データを使わないことでさらなる強さを獲得 More | Reply ログイン

二人零和有限確定完全情報ゲーム (スコア:3)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

Re:二人零和有限確定完全情報ゲーム (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:二人零和有限確定完全情報ゲーム (スコア:2)

Re:二人零和有限確定完全情報ゲーム (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:2)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:2)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re: (スコア:0)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re: (スコア:0)

Re: (スコア:0)

Re:AI「今度の俺は囲碁に詳しいから知ってるんだッ!!･･･」 (スコア:1)

Re: (スコア:0)

そういや (スコア:1)

先入観による評価漏れをなくす (スコア:1)

Re: (スコア:0)

Re:先入観による評価漏れをなくす (スコア:1)

対人間は？ (スコア:0)

Re:対人間は？ (スコア:2, 興味深い)

Re: (スコア:0)

Re: (スコア:0)

定石はリスクが低い様式美 (スコア:0)

Re: (スコア:0)

Re: (スコア:0)

将棋もやってくれないかな (スコア:0)

Re: (スコア:0)

どうでもいいから打たせろ (スコア:0)

ヘボが感染る (スコア:0)

人の目指した山が間違っていた (スコア:0)