NAGAモデルを利用した『牌譜逆再生による証明可能な"読み"』
手牌読み問題
渋川プロvsNAGA3体(ニシキ・ヒバカリ・カガシ)の対局において、この図の局面がありました。
上家のNAGAが聴牌しているとすると、8pはどの程度危険でしょうか?
どのような聴牌の牌姿があり得るでしょうか?
麻雀における『逆再生読み』
麻雀において、「読み」というのは基本的に、他人の手牌を推測する際に「もし相手が自然な進行をしていたなら、河の情報と矛盾する」という論理を元に行うものです。それにより、相手の手牌として「あり得る手牌」のグループと「あり得ない手牌」のグループ分けを行うことが「読み」です。
「あり得る手牌」とは、「現時点で実際にその手牌だったと仮定した場合に、局開始から現時点までの相手の実際のすべての行動が”自然”であるような手牌」です。
たとえば、和了りトップで既に2副露している相手が、2mをポン、打5mとしていたとします。
この時、仮に相手が「2346m」の形の6m単騎待ちということがあり得るか?ということを考えてみましょう。もし今「2346m」の形で、直前で2mをポンして5mを切ったのであれば、鳴く前は「2223456」の14736m待ちからポンして6m単騎に切り替えたということになります。海底ズラしやツモ番拒否等の特殊な行動が必要な状況以外であれば「相手がまともな打ち筋だと仮定すると、行動に矛盾がある」と考えられ、2346mという手牌パターンは否定されます。このような読みを行うには「相手が『まともな打ち筋』である」という、相手の戦略に対する強い仮定を前提としています。
対NAGAを想定した読み
もし、「読みの前提とすべき相手の打ち筋=戦略」を完全に知っていたら、どこまで読み切ることが出来るのでしょうか?
「局面を入力すると、何の行動を選択するのかを出力される麻雀AIモデル」つまりNAGAのような行動選択を行う麻雀AIが使えるなら、「仮定した現時点の特定の牌姿」に対して、「前の巡の行動は妥当な行動だったのか」「その前の巡は妥当だったのか」を検証することができます。
特定手牌を仮定した読み
最初に出した局面例で言えば、上家に対して、たとえば
という手牌を仮定し、それはあり得るのだろうか?ということを検証してみましょう。
上家の直前の4sツモ切りが妥当だったのか、については、
(カガシモデルを仮定)
このように、4sツモ切りはカガシは推奨しており、整合性が取れていることが確認できました。副露判断の整合性や和了するかどうかの整合性も確認します。対面の9pで副露すべきだったり、和了出来ていたら不整合ですが、今回は矛盾はありません。
もう一巡遡り、中手出しについて検証しましょう。
手出しにおいては「その時ツモった牌」は多数考えられるため、検証の分岐が発生します。
中の手出しでこの牌姿を取り得るツモは
の4種類です。(相手の戦略としてNAGAの戦略を仮定しているため、空切りはありません)
この4種類の牌姿を仮定し、更に前の巡に遡り、あり得るかを検証します。
仮に
だったとすると、その数巡前の7mツモ切りと不整合することがわかります。
つまり、さきほど仮定した
という形は、「(相手がカガシだとすると)あり得ない」ということが証明されるわけです。
また、実際、他の
の形を仮定した場合についても同様に、カガシの判断と比較すると、初巡までのどこかで「カガシなら選ばない選択があった」ことがわかります。実際に検証すると、2pツモだったなら4mツモ切りが不整合、6pツモだったなら發手出しのタイミングでどの手出しとなり得る牌をツモっていたとしても不整合、7pツモだったなら4mツモ切りが不整合となります。
つまり、現在の上家の手牌が
という牌姿だということは、「(上家がカガシだとすると)あり得ない」ということが分かります。
この方式での検証を「逆再生による整合性検証」と呼ぶこととします。
全ての候補手牌に対する検証
上家は今、「枚数的にはあり得る手牌構成(同種牌5枚目があったり、2枚以上の同じ赤牌があったりしない手牌パターン)」が28,123パターンあります。
この28,123パターンすべてに対して上記の整合性検証を行うと、「戦略の整合性が無くあり得ない手牌パターン群」と「(少なくとも自分と上家の視点では)整合性がある手牌パターン群」を分けることが出来ます。
後者の群には、「対面・下家の手牌/行動と同時に成立し得るかどうか」の整合性まで検証すれば否定されうる手牌パターンが一部に含まれる可能性はありますが、少なくとも前者の「あり得ない手牌パターン群」に含まれる手牌は「(相手が想定戦略であれば)確実にあり得ない」ことが保証されます。
また、あり得ない手牌パターン群の手牌はすべて、「もしその手牌だったら◯巡前の■切りがおかしい」のように、具体的に否定の根拠を示すことができます。
※カガシ想定の場合、逆再生で現れる1,372,607局面について実際に「カガシなら何を打つか?鳴くか?」の検証が必要となりました。
さて、冒頭の局面において、実際に検証してみるとどうなるでしょうか?
聴牌しているとして、「手順的にあり得ない」と否定されなかった手牌パターン群を以下に示します。
上家をヒバカリと仮定した時の「否定されなかった手牌群」
ヒバカリだとすれば、この牌姿しかあり得ず、待ち牌どころか牌姿までの一点読みが可能であることを示しています
上家をニシキと仮定した時の「否定されなかった手牌群」
上家をカガシと仮定した時の「否定されなかった手牌群」
想定する相手による「ありえそうな牌姿パターン群の差」
さて、ここで上家がヒバカリ/ニシキ/カガシの誰なのかを「知っている」かつ「打ち筋を完全に知っている」とすると、上記の手牌パターン群が「読める」ことになります。
否定されなかった手牌をあり得る手牌と考え、集計をしてみましょう。
ヒバカリ
聴牌しているとしたら北と白しかなく、12,000確定
ニシキ
白と北以外に、3s5s6sが稀に当たる。5sで当たるなら18,000確定
カガシ
8pが待ち牌候補にあり、待ちとなる割合も高い
【注:パターンとコンボ】
パターン - 同一牌は区別しない数え方での牌の組み合わせを指します。(赤5の牌と通常の5の牌は区別します)。
コンボ - 同一牌を区別する数え方での組み合わせを指します。コンボ数とは、例えば🀄の場合、🀄A🀄B🀄C🀄Dのような4種類の🀄が存在しているとして、組み合わせを同一視しない数え方です。この考え方の場合、例えば2sと3sが3枚見えている(ワンチャンス)場合、23sという牌のコンボは1通りしかありませんが、2sと3sが一枚も見えていない場合、それぞれ4種類の2sと3sが存在するため、23sのコンボつまり組み合わせは4×4=16通り存在する、というような数え方です。
「相手が誰か」によって牌の危険度は大きく異なる
改めて、8pは上家に危険でしょうか?
先の集計結果を見れば分かる通り、「もし上家がヒバカリやニシキであれば、8pは絶対に当たらない安全な牌である」、更に言えば「もしヒバカリなら、北白以外の牌は絶対に当たらない」ことが分かります。
しかし、上家がカガシなら、否定されない聴牌形の手牌群(30パターン、1,014コンボ)のうち、コンボ基準で38.2%もの手牌が8p待ちで、全ての当たり得る牌で最も当たる手牌コンボが多い牌です。
また、8pで当たった時は必ず嵌8pであり、最低放銃点2,900から最大放銃点12,000点までのパターンがあり、コンボ基準での平均放銃点は4,837点、放銃点の中央値は5,800点です。
相手がカガシであれば、8pは無視できない危険度があると言えるでしょう。
カガシ・ニシキ・ヒバカリはそれぞれ別人と言えるほどに異なる打ち筋であるため、見た目上「同じ局面」であっても「同じ状況」ではありません。
最終的な打牌判断は対面・下家の関係もあるため、この逆再生読み集計結果のみで打牌判断することは適切ではありませんが、少なくとも上家だけに限っても、「相手が誰かによって牌の危険度は大幅に異なる」ことが分かります。
つまり、相手が誰かによって最適な打牌は変わり得る、ということがハッキリと示唆されます。
「麻雀の強さ」とメタゲーム
「麻雀の強さ」というものをどう定義するかは難しい問題です。
今回の局面で「8pは完全に上家に安牌だ」と思って行動選択をすることは、ニシキ・ヒバカリ相手には全く正しく利益的ですがカガシに対しては間違った仮定に基づいた行動となり損失が出ます。
はたして、麻雀に「真の最善手」は存在するのでしょうか?
この問いを考える上で、ポーカーの世界で長く議論されてきた「GTO戦略」と「Exploit戦略(搾取戦略)」の対比が参考になります。「GTO(Game Theory Optimal)戦略」とは、仮に自分の戦略が相手全員に知られたとしても、長期的には負けないことを目指す均衡戦略です。対して「Exploit戦略」とは、相手の打ち筋や癖を分析し、そこから利益を最大化することに特化した戦略を指します。
「仮に相手3人に自分の戦略を完全に知られたとしても負けない固定の(混合)戦略(GTO的な戦略)」と「相手の特性に最適化した搾取戦略(Exploit戦略)」のどちらが強いのかについて考える場合、麻雀においては戦略同士の1vs1の直接対決ではないため、後者の方が理論上成績が良くなるケースが多々あります。
極端な例でいえば、超初心者がいる麻雀卓においては、「負けにくい『レベルの高い』戦略」を取るプレイヤーよりも、「超初心者から搾取する戦略」の方が成績が良くなります。立直に降りなさすぎるプレイヤーがいるなら立直者の現物待ちをダマにする利益は減りますし、アシストや差し込みをあまりしないプレイヤーがいるなら赤牌を切っての安いよアピールは有効ではありません。
今回紹介したような逆再生読み結果を毎巡参照しながらプレイできるなら、一定以上のスキルの麻雀プレイヤーであれば各NAGA相手に勝ち越すことは難しくないと思いますが、不特定多数相手の場合に特定の相手を仮定した打ち筋を想定した判断を行うと、いわゆる"勝手読み"となりかえって成績を悪化させることもあります。
ルールが異なれば最善手が変わることは自明ですが、同じルールであっても、卓を囲むプレイヤーの組み合わせによって最善手は変動します。
近年、日本でもポーカーが普及し、GTO戦略とExploit戦略の議論が活発になっています。この流れは麻雀界にも波及し、今後はExploit戦略の研究が一層進むのではないでしょうか。特に、プロのリーグ戦やネット麻雀の最上位卓など、限られたメンバーと繰り返し対戦する環境では、Exploit戦略の有効性がより際立ってくるでしょう。
新機能予告
本記事はNAGAの開発中の機能『逆再生読み』の一部を利用して執筆いたしました。
麻雀のメタゲーム性を実感・研究するための機能として近日リリース予定です。また、この逆再生読み情報を活用し、現状のNAGAモデル自体の改善にも繋げたいと考えています。
今回紹介した結果は解析結果の一部ですが、リリースまでの間、他の局面の逆再生読みの集計や、今回の記事では紹介しなかった集計項目から示唆される情報についての記事も不定期に紹介予定です。
文責: 小田桐 優理 (株式会社ドワンゴ NAGAプロジェクト責任者)
コメント