ゲーム理論入門

ゲーム理論編は「理論の説明に特化したメルマガを出してほしい」と言う読者の意見を元に始めたシリーズでしたが、気が付いたら自分にとっても結構いい研究ノートになっていました(笑)。

最初は「囚人のジレンマ」から入って・・・と結構まともな解説を書いていたんですが、徐々に自分の趣味が出てきて(笑)、進化ゲームあり、社会心理学あり、実験の紹介あり、と何でもありのゲーム理論紹介になってしまいました。僕が書いている以上、標準的な教科書的なゲーム理論の解説になるわけないですね(^^;)

今から思うと、「社会を眺め、各行動主体の相互作用を記述する言語」としてのゲーム理論を偏りなく紹介できたかな、と思います。


目次

  1. 囚人のジレンマ
  2. 繰り返し囚人のジレンマとTFT
  3. TFT(その2)
  4. 進化ゲーム理論入門
  5. 経済学と協調行動の関係
  6. 「信頼」と「安心」
  7. チープトークと社会秩序の移行
  8. ブックガイド&ノーベル賞受賞者の紹介

「経済学研究室ライブラリ」表紙に戻る
「ゆうくんのページ」表紙に戻る


囚人のジレンマ

▼ゲーム理論の基本▼

ゲーム理論では、ゲームをプレーヤー(独立した意思決定主体)、ルール、結果、利得の4つで定義しています。

  1. プレーヤーは1人以上であれば特に制限はありません。(議論して面白いのは2人以上ですが)
  2. ルールとは、プレーヤーの行動の順序(ジャンケンの様に同時手番か、チェス・将棋等の様に交代手番か)と、各状況でとりうる行動の選択肢の集合をさします。
  3. 結果とは、各プレーヤーが行動を選択した後の帰結としての社会状態をさします。
  4. 利得はそれぞれの結果に対応して各プレーヤーが手にする利益のことです。

4要素に入りませんが、重要な概念が「戦略」です。戦略は、ゲームのあらゆる場面でどの行動を選択するかが記されている「指示書」と考えてください。この「指示書」に書かれる内容は、あらゆる場面で唯一の選択肢を指示したもの(純粋戦略といいます)でも、その場面でとりうる選択肢の中でどの選択肢を選ぶかを確率的に割り振ったもの(混合戦略といいます)でも構いません。

 各プレーヤーの行動原理を明確にした上で、その帰結として決定される結果(各プレーヤーの戦略の集合)をゲームの解と言います。もっとも有名な解概念は、各プレーヤーに利得最大化を仮定したナッシュ均衡解です。

ちょっとややこしいのですが、ナッシュ均衡を数学的に定義すると次の様になります。

プレーヤー数がn人の時のナッシュ均衡解は次のようにあらわされる。プレーヤーiの戦略をSiとし、i以外のプレーヤーの取った戦略の集合をS-iとする。プレーヤーiの利得関数をPiとする。任意のプレーヤーiの任意の戦略Siで、Pi(Si*,S-i*)>=Pi(Si,S-i*)が成り立つ時、この戦略の集合(S1*,S2*,...Sn*)をナッシュ均衡と呼ぶ

イメージしやすい様に言葉でナッシュ均衡を表現すると、「他のプレーヤーが行動を変更しない限り、自分から積極的に行動を変える動機が存在しない状態」となります。

純粋戦略のみではナッシュ均衡が存在しないゲームはありますが、その場合でも戦略を混合戦略まで拡大すると必ずナッシュ均衡が存在する事が知られています。(ジャンケンを考えればイメージできると思います)

一般的に、プレーヤーに利益最大化行動を仮定して、さまざまなゲームでのナッシュ均衡を考える(議論する)ゲーム理論を「非協力ゲーム理論」と呼びます。

一方、各プレーヤーに別の行動原理を適用し(このとき、他のプレーヤーと手を組むと言う選択も認めます)、コアや交渉解等の別の解概念を考えるゲーム理論を「協力ゲーム理論」と呼びます。

今回のシリーズでは非協力ゲーム理論を中心に議論します。

▼囚人のジレンマ▼

囚人のジレンマ(Prisoner's Dilemma)ゲームはこれまで最も研究されてきたゲームの一つで、読者の方も一度ぐらいは耳にした事があるかと思います。

このゲームは同時手版ゲームで、各プレーヤーは同時(もしくは相手の行動を知らない状態で)自分の行動を決定します。事前に何らの情報交換も出来ないとします。

各プレーヤーの全戦略およびその結果が網羅され、各結果毎の利得が明示されたものを利得行列と呼びます。下の表がが囚人のジレンマの利得行列です。(このゲームでは行動と選択が一致していると考えてください)


Player2
Action1(協調) Action2(裏切)
Player1 Action1(協調) 3(R) , 3(R) 0(S) , 5(T)
Action2(裏切) 5(T) , 0(S) 1(P), 1(P)

左はプレーヤー1の利得 右はプレーヤー2の利得

プレーヤーは2人で、それぞれ2つの行動の選択肢があります。一つは協調行動で、もう一つは裏切りです。協調行動は相手も協調行動の場合利得R(表では3)を得ますが、相手が裏切りの場合最低利得S(表では0)になります。裏切りは相手が協調行動の場合には最大利得T(表では5)を得ますが、相手も裏切りの場合下から二番目の利得P(表では1)になります。

各アルファベットの意味は以下の通りです。
R:Reward S:Sucker T:Temptation P:Punishment

数学的には、この4つの値がT>R>P>Sかつ2R>T+Sを満たす場合を囚人のジレンマと呼びます。(2つ目の不等式の条件は一回毎に裏切りと協調を交代して交互に搾取しあう場合を回避する条件です)

一見して分かるように、このゲームでは裏切り行動を選択する方が得です。相手の行動が協調・裏切りのいずれの場合でも、自分の利得は裏切りの方が高くなるからです(T>RおよびP>S)。(このような他の戦略に無関係に高い利得を得る戦略を支配戦略と呼びます。)

結局、プレーヤーに利益最大化行動を仮定したとき、ナッシュ均衡解は双方裏切りと言う結果になります。双方ともに利益最大化行動(=合理的と思える行動)を採用した結果、社会的には見ればもっと優れた結果(双方協調)があるにも関わらず悪い結果に陥ってしまうと言うのがジレンマのゆえんです。

この2人版囚人のジレンマは、繰り返し行われる場合には、長期的利益に訴える事で回避できます。詳しくは次回にやりますが、単純な理屈はこうです。

2人の間でこのゲームが無限に繰り返されるとします。もし一方のプレーヤーが非常に厳しく、最初は協調しているが一度相手が裏切るとそれ以後のゲームで常に裏切りを選択するとします(このような戦略を引き金となるイベントで行動を一変させるので「トリガー戦略」と言います)。このような相手であれば目先の2(=5-3)の利益に引かれて相手を裏切ると、以後の毎回のゲームでずっと2(=3-1)ずつ損をする事になります。その為、自分の利益を最大化するエゴイストに対しても、ずっと協調を行う事が可能になります。

▼多人数版囚人のジレンマと治安機関の発生▼

今回のシリーズではわき道の議論なのですが、公共財供給問題(フリーライダー問題)と言う形で、多人数版の囚人のジレンマ(社会的ジレンマ)について触れておきます。

(消費してもなくならず、他の人の利用を妨げての利用(排他的利用)が出来ない財を公共財(public goods)といいます。大気・公園等環境に関するものや、警察や市役所と言った治安・行政機構等が例としてあげられます)

例として単純な問題を一つ取り上げてみましょう。


 10人がそれぞれ1000円持っているとする。各人は公共の福祉のために1000円から任意の金額を国に寄付できる。ただし、寄付は郵便為替を郵送して行われるため、自分以外の誰がいくら寄付したかは分からない。国は全員からの寄付を元に公共財を製造・供給する。公共財の価値は寄付金の合計×0.7とする。各人が得られる利益は(1000−寄付した金額+公共財の価値)とする。


この問題での利益最大化行動は何でしょうか?これも容易に分かると思いますが、1円も払わないことです。自分の寄付1円あたりの公共財は0.7円にしかならないためです。つまり、自分は1円も払わずに他人のお金で作られた公共財に「ただ乗り」するのが最適な行動です。すなわち、ナッシュ均衡状態では誰一人1円も寄付せず、全員が1000円の利益を得る、と言う事になります。全員が1000円全額を寄付すれば、全員が7000円を享受できるのに1000円しか得られないので、これもジレンマ状態が発生しているわけです。

この問題では寄付と言う形ですが、当然税金でも同様の議論が出来ます。協力的な行動を決められた日に所定の場所にゴミを捨てると言う行動、裏切り行動を好き勝手にゴミをポイ捨てする行動とすれば環境問題にも応用できます。また、自然回復力の限られたムラの共有地で、村人達が自分の牛を自己利益だけを考慮して放牧させた結果、回復力を超えた過放牧となり共有地を枯らしてしまうのがギャレット・ハーディンの有名な「共有地の悲劇」です。

全員が利益最大化行動を仮定しているときに何とか協調行動を起こさせるには、フリーライダーに何らかの制裁(フリーライダーが最終的に損をすること)が必要です。制裁のためには裏切った相手を特定し、効果的な制裁手段を用意する事が必要になります。

現実を抽象化したモデルとしてこの問題を考えた場合、実際に裏切り者の発見・特定化が難しいと言う問題があります。2人版の囚人のジレンマでは裏切者は明白ですが、多人数版では難しいのです。(このゲームの想定ではもともと特定化不可能ですが、現実に近いモデルを考えたい時は、裏切り者を発見するコストを意識する必要があります。)

また、先ほど述べた、裏切り返すと言う形の制裁の効果が裏切り者だけに向かわない、と言う問題があります。無関係な協力者の利益まで減らしてしまいます(ゴミ捨ての問題で考えると容易に分かると思います)。また、他の人からは報復行動と裏切り行動の区別がつきにくい、と言う問題もあります。

参加者が十分多く、公共財から得られる利益が大きい場合には、社会の協力者たちが費用を出し合って「裏切り者を摘発し、裏切り者だけに有効な制裁をする専門家および組織」を用意する誘引が発生します(いわゆるマルサです)。


繰り返し囚人のジレンマとTFT

▼無限回繰り返し囚人のジレンマ▼

ゲームの設定を変えて、2人のプレーヤーが囚人のジレンマゲームを無限回繰り返す場合を考えます。次回のゲームの利得を今回の利得のa(0<a<1)倍とします。aが1を下回る理由は、心理学的に目先の利益を重視すると考えても、経済学的に金利分割引いてあると考えても構いません。2回先のゲームの利得はaの2乗倍、3回先は3乗倍、と続きます。

ここで、プレーヤー1が次のような戦略を採用しているとします。この戦略を、相手の行動が引金となり行動を一変させるので、「トリガー戦略」といいます。

  1. 相手が裏切りを選択するまでは協調を選択し続ける。
  2. 相手が裏切った場合、それ以降のゲームではずっと裏切りを選択し続ける。

プレーヤー1がトリガー戦略を採用している時、プレーヤー2がずっと協調を選択すると得られる利得Cを現在価値で表現すると簡単な等比数列となり、次のようになります(少し見づらいですが、^は累乗をあらわします)。

C=R+R*a+R*a^2+...=R/(1-a)

プレーヤー2がある回で裏切りを選択した場合を考えてみます。以後、プレーヤー1はずっと裏切りを選択してきますから、プレーヤー2の最善の選択肢は自分も裏切る事です。この場合のプレーヤー2の利得Dは裏切った回がTでそれ以後Pですから、次のようになります。

D=T+P*a+P*a^2+...=T+P*a/(1-a)

※裏切られた後のプレーヤー1の戦略のように、相手が最善に行動した場合の利得を最小化する戦略をミニマックス(min i max)戦略と呼びます。ミニマックス戦略は、ルールを守らないプレーヤーへの「制裁」という形で、ゲーム理論には頻繁に登場します。

C>Dなら、プレーヤー2は裏切る誘因(incentive)を持ちません。C>Dとなるaの条件はのようになります(途中の計算は簡単だから省略)。

a>(T-R)/(T-P) --------(*)

表1の数値を用いると、aは2分の1より大きければいい事になります。aがこの条件を満足し、プレーヤー1がトリガー戦略を採用するときには、プレーヤー2は自分から裏切らない戦略をとれば協調状態が続きます。

この議論はプレーヤーの立場を入れ替えても成り立ちますので、aが(*)の条件を満たすときには、「双方がトリガー戦略」がナッシュ均衡です。

※one-shotのゲームでは行動と戦略が同じものでしたが、今回の議論では全く異なります。行動とは各ゲームでの選択肢の事で、戦略は相手と自分の過去の行動で刻々と変化する状況に合わせて、行動を選択する行動指針です。前回の定義で、行動と戦略が区別し、ナッシュ均衡が行動のセットではなく戦略のセットで定義した理由がここにあります。

このように、ゲームが終わりなく続き、しかもプレーヤーが将来の利得をある程度以上評価している状態では、裏切ったときの制裁を避ける為に、自分の利益のみを追求するエゴイスト同士でも協調する可能性があります。

この議論で重要なのは、「ゲームが無限回続く」事です。もし双方のプレーヤーが繰り返しゲームが何回で終わるかを知っているときには、ゲームの解が一変します。この事を次に示します。

▼有限回繰り返し囚人のジレンマ▼

2人のプレーヤーが囚人のジレンマを100回連続で行なう場合を考えます。双方のプレーヤーが相手の利得を一切考えない完全なるエゴイストの場合、次の事が起こります。

      (・・・以下同じ)

ここで示したゲームの最終局面から逆算して戦略を考える方法を「逆向き推論」(backward induction)と言います。そして、「双方がずっと裏切りつづける」と言う戦略のセットは、双方ともに行動を変更する誘因を持たないのでナッシュ均衡です。

※より厳密には、この均衡状態は「サブゲーム完全ナッシュ均衡」(subgame-perfext Nash equilibrium:SPNE)といいます。SPNEの説明は今回の内容の大筋と関係ないので省略します。関心のある方はゲーム理論のテキストを参照してください。

つまり、「最終回」がわかっているゲームの場合、協調行動は(原理的には)発生できないと言う事になります。

しかし、トリガー戦略のような過度に厳格な戦略も、「逆向き推論」を行なって最初から裏切りつづける戦略も、ほとんどの人は取りません。

繰り返し回数を決めた(双方が最初から何回繰り返されるか知っている)実際の実験では、序盤は相手の様子(裏切りに厳しいか、なめてかかれるか)をうかがって不規則に裏切りを出し、中盤は基本的に協調状態で、終りが明確に見えてきた最終局面では相互に裏切る、と言うパターンが多いようです。

(囚人のジレンマゲームに限らず、学生を使った実験は多数文献があるのですが、経済学を学んだ事があるアメリカの学生はそうでないアメリカの学生より協調行動を取る率が少ない、と言うデータがあります(笑)。日本人の学生ではアメリカほどの差が出ないそうです。)

実際の人間の実験ではこなせる数に限りがありますので、コンピュータのプログラム同士を対戦させるコンテストを開いて、どんな戦略が優秀かを競わせる事を思いついた人がいました。政治学者のアクセルロッドです。次に、このコンテストの結果と優勝した戦略の説明をします。

▼「しっぺ返し(Tit-For-Tat)」の成功▼

「コンピュータ囚人のジレンマ選手権」は2回行われました。参加したプログラムにランダムに協調と裏切りを出す「でたらめ」を加えた全戦略の総当たりの平均利得で優勝が決められました。双方の選手権で優勝したプログラムは同じプログラムだったのです。

※第1回の大会では、200回を1試合で各戦略は5回づつ対戦しました。第2回の大会では、最後の方で残り回数を逆算して「悪さ」をする戦略を排除する為に、5試合の繰り返し回数をそれぞれ異なる回数にしました。繰り返し回数は次回を行なわない確率を約0.3%とした乱数を使って決められました(5試合の繰り返し回数自体は、各戦略の対戦毎に共通)。

しかも、2回目の選手権の前には、1回目に優勝した戦略のプログラムの内容と、なぜ優勝したかの説明が与えられた上でプログラムが募集されました。それでも同じプログラムが優勝したのです。

そのプログラムを送ってきたのは心理学者のラポポートで、「しっぺ返し(Tit-For-Tat:TFT)」と呼ばれる戦略です。TFTは非常に単純な戦略で、送られてきたプログラム中、最も短いものでした。言葉で書くと次のようになります。

  1. 繰り返しの第1回目は協調する。
  2. 第2回目以降は前回の相手の行動と同じ。つまり前回相手が協調なら協調し、相手が裏切ったなら裏切る。

少し考えれば容易に分かる事ですが、「しっぺ返し」は相手と同じ利得を得る事はあっても、相手より高い利得を得る事は決してありません。すなわち、各試合では、「しっぺ返し」は引き分けるか負けているのです。「しっぺ返し」は平均して高い利得を得る事ができたから優勝したのです。

では、なぜこの「しっぺ返し」が成功したのでしょうか??アクセルロッドは次の4つを理由に挙げています。

  1. 自分からは決して裏切らない「上品」な戦略
    裏切り合いの泥沼のきっかけを自分から作らない事で、上品な戦略間での協調行動を育む。
  2. 相手の裏切りにはすぐに厳しく制裁する
    相手が様子をうかがう為に裏切ってきたらすぐに制裁する事で、「つけこまれない」ようにする。
  3. 相手が謝ったらすぐに許す
    相手がもう一度協調したがったらすぐに許す事で、裏切り合いより高い利得を得る(トリガー戦略と比較すれば容易にわかる)。
  4. 十分シンプルな戦略である
    相手がこちらの行動を容易に推測できる為、裏切ろうとする誘因を低め、積極的に協調する誘因を高める。

端的に言えば、「目の前の敵に勝つ」事でなく、「互恵主義(双方ともに利益を得る事)育む」事が決定的に重要だったのです。その為に重要な要素が4です。

将棋やチェスのようなゼロサムゲーム(双方の利得の合計がゼロのゲーム)では、相手に手の内を読まれる事はそのまま敗北につながります。しかし、「囚人のジレンマ」のような非ゼロサムゲームでは、「双方ともに勝つ(=双方ともに高い利得を得る)」と言う結果があるのです。

ただし、当然ながら、相手に手の内を読ませる事が自分にとってプラスに働くのは、(1)〜(3)のような形で裏切らないほうが得、と言う事が十分にわかる形だからです。

かなり長くなったので、TFTについては次回にもう少し詳しく議論します。


TFT(その2)

▼前回の復習▼

前回の理論編(の後半)では、アクセルロッドのコンピュータ上での囚人のジレンマ対戦の結果を紹介しました。TFT(Tit For Tat:「しっぺ返し」)戦略が優勝したことと、TFT戦略の強みを説明しました。

簡単にTFT戦略を復習しておくと、繰り返し囚人のジレンマ状況において

  1. 繰り返しの第1回目は協調する。
  2. 第2回目以降は前回の相手の行動と同じ。つまり前回相手が協調なら協調し、相手が裏切ったなら裏切る。

と言う戦略でした。

そして、TFTが優秀な理由は「裏切りあいの泥沼に陥らず、互恵主義を育む戦略」であることでした。具体的には、

  1. 自分からは裏切らず
  2. 相手の裏切りには厳しい態度で接し
  3. 相手が謝れば寛容に許し
  4. 十分シンプルで相手に自分の意志が伝わりやすい

事が相互協力を達成するのに重要だったのです。

▼しっぺ返しは繰り返し囚人のジレンマゲームのナッシュ均衡になれる▼

トリガー戦略同様、しっぺ返し戦略も割引率が十分大きければ繰り返し囚人のジレンマゲームのナッシュ均衡戦略になれます。

割引率をaとするとき、次の2つの式を満足することが必要十分条件です。

a>(T-R)/(R-S)
a>(T-R)/(T-P)

証明は巻末に付録として記します。証明自身は高校生でも理解可能ですが、テキストで表現すると少々ややこしいので、数学の苦手な方および読むのが面倒な方は結果を信じて証明は飛ばしていただいて結構です。

▼TFTの弱点:ノイズ▼

TFTは繰り返し囚人のジレンマ環境下では非常に優秀な戦略なのですが、弱点が無い訳ではありません。戦略的にシンプルな分、「杓子定規」で外部からの撹乱に弱いのです。

TFT同士が繰り返し囚人のジレンマゲームを行い、以下のように順調にゲームが進んでいるとします。

プレイヤー1  C C C C C C ・・・
プレイヤー2  C C C C C C ・・・

(理由は何でもいいのですが)偶然、プレーヤー2が裏切り行動を採ってしまったとします。すると、その後は以下のように相互裏切りあいが続いてしまいます。

プレイヤー1  C C D C D C D ・・・
プレイヤー2  C D C D C D C ・・・
           ^←ノイズ

この状態を前回の相手の行動を相互に繰り返すのでエコー(echo:こだま)と呼びます。相手が意図的に裏切ったのか、ミスや誤解で裏切ってしまったのかがわからない「ノイズ環境下」ではしっぺ返し戦略は厳しすぎるのです。

ここで挙げたようなノイズ環境下では、一定の確率(ノイズの程度によります)で相手を許す事でエコーから脱出できるG-TFT(Generalized TFT:一般化TFT)と呼ばれる戦略がいい成績を残すことが知られています。

重要なのは、あくまでも「確率的」に(やや小さい確率で)許すことです。厳密な「2回連続裏切られたときのみ報復」と言うルール(この戦略を「堪忍袋」と呼ぶことがあります)では「裏切り・協力を交互交互に行う戦略」につけこまれてしまうからです。

▼進入不可能性▼

ここで生態学の視点を導入します。

生態学的な観点からは、各プレーヤーがゲームで得られた利得を、入手できたエサや産む子孫の数などの、個体の「適応度(fitness)」とみなすことにします。各個体は常に一つの(純粋)戦略を採用しているとします。

社会内からランダムに2個体を選び、ゲームをプレイ(=相互作用)をさせる状況を考えます。相互作用で高い利得を得た個体(=戦略)は子孫を増やし、低い利得しか得られなかった個体は子孫を残せず淘汰されると考えてください。

生態系内に以下の事を仮定します。

  1. 社会内の平均利得以上の利得の戦略は子孫を増やし社会内でのシェアを高める
  2. 社会内の平均利得以下の利得の戦略は子孫を増やせず社会内シェアを低める

出会った個体がプレイするゲームは何でもOKですが、ここでは繰り返し囚人のジレンマをプレイしている状態を考えます。

このとき、社会に単独で参加し、社会内の平均利得以上の利得を上げられる戦略は社会内でその戦略のシェアを高めることができます。これを「進入可能」と呼びます。

例えば、社会全体を「全面協力」が占めている場合、「全面裏切り」は社会内に進入可能です。そして長期的には「全面協力」は完全に淘汰され、社会全体は「全面裏切り」だけになってしまうでしょう。

それでは、社会内の全員がTFT戦略を採用しているときに、全面裏切り戦略は社会内で生存できるでしょうか?答えはNoです。全面裏切りは自分の眼前の相手(TFT)には(最初のゲームで裏切った分だけ)勝てますが、平均利得には遥かに及ばないからです。

逆に、社会内の全員が全面裏切りの時にTFTは進入できません。この場合、TFTは最初の一回目に裏切られてしまう分だけ社会内の平均利得を下回ってしまうからです。

社会全体を一つの戦略が占めるとは限らず、(実際の生態系のように)さまざまな戦略が共存する状態も当然存在します。

進入可能性について詳しく書くと分量的に多くなるので、具体的な話は次回の理論編(進化ゲーム入門を予定)で議論します。

▼付録:TFTが繰り返しゲーム理論でナッシュ均衡になることの証明▼

1)双方がTFT戦略を取っている状態を仮定します。
そのとき、プレイは
プレイヤー1  C C C C C C ・・・
プレイヤー2  C C C C C C ・・・
と進んでいます。

このとき双方が受け取る利得は、割引率をa(0<a<1)とするとき、
R+R*a+R*a^2+...=R/(1-a)
となります(理論編その2でも出てきました)。

2)プレーヤー2が1度だけ裏切り、すぐに謝る戦略を採ったとします。

プレイヤー1  C C D C C C ・・・
プレイヤー2  C D C C C C ・・・
           ^ ^
このとき、^をつけた2回の利得の合計がTFT同士の時(ずっと協力)を下回る条件は、
T+S*a<R+R*a  より、
a>(T-R)/(R-S)    ・・・(*)
となります。

3)プレーヤー2が裏切りつづけるとします。

プレイヤー1  C C D D D D ・・・
プレイヤー2  C D D D D D ・・・
           ^ ^ ^ ^ ^
このとき、最初の^以降無限の将来までの利得がずっと協力を上回らない条件は、(双方協力でない区間を比較して)
T+P*a+P*a^2+...=T+P*a/(1-a)<R/(1-a)  より、
a>(T-R)/(T-P)   ・・・(**)
となります。

この(*)と(**)の2つの式が、最初のあげた条件です。

4)以下で(nを0以上の任意の整数として)、n回双方裏切りを繰り返したときにも(*)と(**)の2つの式を満足していればTFT(双方協力)の利得を上回れない事を数学的帰納法で示します。

プレイヤー1  C C D D D D C ・・・
プレイヤー2  C D D D D C D ・・・
         n→^ ^ ^

※ここは輪をかけてややこしい(笑)ので、飛ばしていただいて結構です。

●n=0のとき
 2)の場合同じであり、trivial(自明)で成立。

●n=1のとき

双方協力でない時を比較して、 T+a*P+S*a^2<R*(1+a+a^2) を証明する。

右辺から左辺を引くと

T+a*P+S*a^2-R*(1+a+a^2)
=(T-R)+(P-R)*a+(S-R)*a^2
<(T-R)+(P-R)*a+(R-T)*a     ←(*)より(S-R)*a<R-T
=(T-R)+(P-T)*a
<(T-R)+(R-T)          ←(**)より((P-T)*a<R-T
=0

よって T+a*P+S*a^2<R*(1+a+a^2) が成立。

●(kを任意の正整数として)n=k-1のとき

このとき、双方協力でない区間を比較すると、

T+P*a+P*a^2+...+P*a^(k-1)+S*a^k<R*(1+a+a^2+...+a^k)   (***)

が成立すればよい。

aで整理して再定義する。
f(a,k)=(S-R)*a^k+(P-R)*a^(k-1)+...+(P-R)+T-R

(***)は f(a,k)<0 と示せる。

これが任意の正整数kで示せればよい。

f(a,k+1)-f(a,k)=(S-R)*a^(k+1)-(S-R)*a^k+(P-R)*a^k
=(S-R)*a^(k+1)+(P-S)*a^k

・a>(P-S)/(R-S) のとき
 f(a,k+1)<f(a,k)<0 より成立。

・a<(P-S)/(R-S) のとき
 f(a,k)<f(a,k+1)<f(a,k+2)<... となるが、

k→∞のとき
f(a,∞)=(P-R)*a/(1-a)+T-R
< R/(1-a)-T-R*a/(1-a)+T-R
= 0

より、成立。
よって常に f(a,k)<0 が成立。

5)任意の戦略は任意の回数の協調と任意の回数の裏切りから構成されているので、2)から4)まででTFTに対していかなる戦略も戦略を変更する誘引を持たないことが証明された。

(証明終わり)


進化ゲーム理論入門

▼なぜ進化ゲーム理論なのか:典型行動の合理性を解明する▼

(注)以下にあげるのはゆうくん(小山)や進化経済学会・数理社会学会等で活動する研究者(に多いと思われる)の理論的スタンスです。このスタンスは経済学の中ではややラディカルであることを先に断っておきます。通常の経済学の文脈では非協力ゲームで複数のナッシュ均衡が存在するときにどの均衡点に落ち着く可能性が高いか、と言う「均衡点の精微化」と言う文脈で進化ゲームを導入する事が多いです。人間行動の社会的な性質までは考えません。中間的な立場が比較制度分析(Comparative Institutional Analysis)です。

今まで人間の話だったのに、なぜ(人間の学問でない)生物学の進化ゲーム理論を議論するのか疑問の方もいらっしゃると思いますので、ここで簡単に理論的意義を説明しておきます。

簡単に言えば、

  1. 人間は非協力ゲーム理論で想定しているほど合理的で無い
  2. 合理的で無いプレーヤー同士での結果を分析したい
  3. 合理的でない行動の帰結として、(社会システムから見ると)合理的(効率的)な結果が発生することを示したい

と言うことが挙げられます。

通常、理論の勉強で用いるモデルは極限までシンプルにしています。また、自分が選択可能な選択肢とその帰結(単純化して言うと利得行列)についての知識をもっていると仮定します。そのため、「知性を持つ人間がこんな単純な構造を見抜けないはずが無い」と考え、合理的(利得最大化)な行動を仮定しがちです。

実際の社会・経済での相互作用を考えると、モデルの構造がちゃんとわかるだけの情報を全員が持っているとは限りません。知識的な制約から限られた選択肢での行動を強いられる場合、選択肢が限られてることすら認知できない場合もありえます。

また、人間は(ある程度以上)複雑な状態を認知できるとは限りません。わかりやすい例は、理論編第2回で解説した、100回繰り返し囚人のジレンマの人間同士の実験結果がSPNE(Sub-Game Perfect Nash Equilibrium)である「ずっと双方裏切り」にならないことです。この結果が現れることはまれです。

「合理的(=利益最大化)」という理論上の仮定を外した時に、行動の基準や制約を全く設けないと、"Anything goes"となり分析になりかねません。しかし、伝統・習慣など、人間は複雑な環境下では逆に安定した行動(典型行動:Routine と呼ぶ事が多いです)を採ることが知られています。しかもその行動が(最適化とまではいかなくても)それなりに効率的で満足が行く場合が多いことも知られています。このことを利用して生態学的な仮定をおくのです。(このあたりの議論は「限定合理性」と言われ、経済学内ではHot Issueの一つです。そのうち理論編で取り上げることもあるかと思います。)

この文脈での生態学的仮定とは、具体的には次のような仮定です:

  1. 個体が得る利得は生態学的に適応度(fitness)と呼ばれる。適応度が高いほど社会内に自分の子孫が多く生まれ、社会内で同じ戦略を採用する個体のシェアが増える。(適応度はエサの入手や繁殖の成功確率などの意味で用いていると考える)
  2. 戦略の変更は合理的な思考によって変更されず、個体の「突然変異」で行われる。

進化ゲームでは、さまざまな条件を満たさない限り用いれない「合理的」の代わりに、「適応的」という言葉をよく用います。現在の環境(=社会内での戦略の分布)下で高い利得を上げることを「適応的」と表現するのです。そして個体の適応度が上昇することで「進化」を説明します。

進化ゲームでは「適応的」な戦略が生き残った結果、複雑な「事前的な」計算の結果では無く「事後的に」社会が均衡に達したと考えます。

この「事後的」な均衡が「事前」と同じ結果となる保証はありません。恐竜の例のように、適応的な進化が「進化の袋小路」にはまってしまうこともありえますから。


▼進化的に安定な戦略(ESS:Evolutionary Stable Strategy)▼

かなり長い前フリでしたが、ここから説明開始です。
議論を簡単にするため、次の仮定をおきます:

  1. 個体は1種類の純粋戦略しか採らない
  2. 各個体がプレイするときの役割・立場は平等なので、ゲームの利得行列は対称(対称2人ゲームを分析対象とする)
  3. 個体の得る利得は、社会内の各戦略の構成比に依存した期待値
  4. 社会内のナッシュ均衡が混合戦略であったとき、それは複数の純粋戦略をとる種族が「共存」している状態と考える

社会全体を既存種x(=戦略x)が占め、そこに突然変異種y(戦略y)が進入する状況を考察します。

以下の事を仮定します:

戦略yが進入可能とは、yの適応度(=期待利得)が社会内の平均利得が平均より高く、社会内での種のシェアが今後増大してゆく状態を指します。逆に、yの適応度が社会内の平均より低いときには、戦略yは最終的に淘汰されるので進入不可能です。

具体的に計算してみましょう。

社会内でのxの適応度(期待利得)は、(1-ε)U(x,x)+εU(x,y) です。
社会内でのyの適応度(期待利得)は、(1-ε)U(y,x)+εU(y,y) です。

この2つの利得を比べて上のほうが大きければ進入不可能です。

進化的に安定とは、単純に言えば他の戦略が社会内に進入不可能なことです。数学的な定義は以下のようになります。

戦略xがESSなら、(xでない)任意のyに対してある定数の最大進入障壁ε(y)が存在して、ε(y)>εであるεに対して以下の不等式が成立する。

(1-ε)U(x,x)+εU(x,y)>(1-ε)U(y,x)+εU(y,y)--(*)

〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・
数学的にもう少し簡潔に書くと次のようになります。

∀y≠x ∃ε(y)∈(0,1) ∀ε∈(0,ε(y))
(1-ε)U(x,x)+εU(x,y)>(1-ε)U(y,x)+εU(y,y)
〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・

ここでεを進入障壁(invasion barrier)と言います。進入障壁以下の比率での進入は排除可能であるとは、要するに(過半数とか)極端に多数で進入を試みられない限り、自分の利得の方が高い事を指します。

(*)はこのままでは少しややこしいですが、数学的には以下の2つの式と同値です:

  1. 任意のyでU(y,x)≦U(x,x)
  2. U(y,x)=U(x,x)ならxでない任意のyでU(y,y)<U(x,y)

言葉で書き直すとイメージしやすいでしょうか??

(通常進入を試みるyは少数なので、エプシロンを無視して)yがxと対戦して低い利得しか得られなければ進入できない。同じ利得でも仲間同士での利得が低ければ進入できない。

あと一つ書き加える必要があるのは、ESSがナッシュ均衡であることです。これは「自分に対する最適反応が自分」というナッシュ均衡の定義から明らかです。(自分が自分への最適反応で無い場合、他の戦略が侵入できるのですから。ただし、逆は必ずしも真ではありません。)

具体的な例としてタカ−ハトゲームを紹介します。

▼例:タカ−ハトゲーム(Hawk-Dove Game)▼


Player2
ActionH(攻撃) ActionD(協調)
Player1 ActionH(攻撃) (V-C)/2,(V-C)/2 V , 0
ActionD(協調) 0 , V V/2, V/2

左:プレーヤー1 右:プレーヤー2


Player2
ActionH(攻撃) ActionD(協調)
Player1 ActionH(攻撃) -1, -1 4 , 0
ActionD(協調) 0 , 4 2, 2

V=4,C=6のとき

タカ−ハトゲームの利得行列は、進化ゲーム理論の提唱者メイナード・スミスの著書でも紹介されている有名な利得行列です。

タカ−ハトゲームはあるエサ場で2個体がエサをめぐって争う状況を考えます。プレーヤーには2種類存在します:

  1. 攻撃的で、相手とケンカをしてでもエサをもとめるタカ戦略(H)
  2. まず相手とエサを分け合おうとし、相手が攻撃的だと逃げるハト戦略(D)

エサの利得はVとします。それぞれの戦略同士が出会ったときの利得は次のとおりです。

  1. 双方タカ戦略(左上)
    タカ戦略を採る個体同士が出会ったとき、ケンカをはじめます。勝った方だけがエサを独占できます。負けた場合傷つき、Cだけ利得を減らします(-Cの利得を得ます)。ケンカに勝つ確率は双方2分の1とすると、タカ戦略の利得は次のようになります。

      U(H,H)=(V-C)/2
  2. タカVSハト(左下、右上)
    タカ戦略がエサを独占し、ハト戦略はエサを手に入れられません。ただし、ケンカをしないので利得を減らすことはありません。

      U(H,D)=V
      U(D,H)=0
  3. 双方ハト戦略(右下)
    仲良くエサを分け合います。

      U(H,H)=V/2

V>Cでは「囚人のジレンマ」と同じ結果になりますので、ここではV<Cの場合のみを議論します(具体的な数値を代入した利得行列を参照してください)。

混合戦略まで含めたナッシュ均衡は3つあります。一方がHでもう一方がDと言う組み合わせが(対称なので)2つと、Hを3分の2・Dを3分の1で出す混合戦略です。(一般的には、V/Cと1-V/Cとなります。)

※参考に、混合戦略ナッシュ均衡の計算を付録につけます。

ESSでは最初の2つのナッシュ均衡が排除され、最後の混合戦略のみとなります。すなわち、ESS状態はタカ戦略が3分の2、ハト戦略が3分の1になります。

簡単に極端な場合の進入可能性とESSを確認しておきます。

1)全員がタカ戦略の場合
 U(H,H)=-1<0=U(D,H) よりハト戦略が進入可能

2)全員がハト戦略の場合
 U(D,D)=2<4=U(H,D) より進入可能

3)ESS状態の確認
 ESSとなる混合群に進入したときの利得をU(*,ESS)とします。

U(H,ESS)=U(H,H)*2/3+U(H,D)*1/3=-2/3+4/3=2/3

U(D,ESS)=U(D,H)*2/3+U(D,D)*1/3=0+2/3=2/3

と、双方ともに同じ利得になりため社会内戦略シェアが変化しません。

ちなみに、ESS内の個体の平均利得も
U(ESS,ESS)= U(H,H)*(2/3)*(2/3)+U(H,D)*(2/3)*(1/3)+U(D,H)*(1/3)*(2/3)+U(D,D)*(1/3)*(1/3)=-4/9+8/9+0+2/9=2/3

となり純粋戦略と同じです。(これはESSでは常に成り立ちます)(そのため、数学的には個体が混合戦略を採っても問題はありません)

▼(付録)タカ−ハトゲームの混合戦略ナッシュ均衡の計算▼

VとCに数値を代入しない一般的な場合で計算します。

二人のプレーヤーをプレーヤーAとプレーヤーBとします。

プレーヤーAが得る利得の期待値はaの関数U(a)と定義でき、次のようになります。

U(a)= ab(V-C)/2 + a(1-b)V + 0 + (1-a)(1-b)V/2={(V-Cb)/2}a+(1-b)V/2

よって、利得を最大化するaは次のようになります:

  1. b>V/C のとき:a=0
  2. b=V/C のとき:aは無差別(任意でよい)
  3. b<V/C のとき:a=1

AとBは対象ですので、利得を最大化するbも同様に計算できます。

  1. a>V/C のとき:b=0
  2. a=V/C のとき:bは無差別(任意でよい)
  3. a<V/C のとき:b=1

となります。

この双方の条件を満足するのは、(a,b)=(V/C,V/C) の時だけです。

(a,bで張られた座標平面にそれぞれをグラフとして描くと、一点のみで交わることを確認することができます)


経済学と協調行動の関係

▼今回の内容▼

今回は実験の紹介です。特に、「経済学専攻の学生はそれ以外の学生より社会的な協力度が低い」事に関する実験を紹介することにします。

少し趣向を変えて、ゲーム理論の実験を行った、

Robert H.Frank,Thomas Gilovich, and Dennis T. Regan, "Does Studying Economics Inhibit Cooperation?"Journal of Economic Perspectives,1993,pp159-171

という論文の結果から簡単な紹介をした後に、僕のコメントを加える形にしてみます。読者の皆さんも、「この状況では自分はどうするだろう?」と考えてみてくださると面白さが増すと思います。

ちなみに、この論文のFirst Author であるフランクは、"Winner Take All Society"の著者として知っている方もいるかもしれません。

〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・
◎Free-Rider Experiments

Frank達は自分達が行った実験の前に、いくつかの先行研究の紹介を行っています。その中から、「公共財ただ乗り」に関する実験を紹介しておきます。

実験を始めるにあたって、いくつかのグループに分けられた被験者(実験の参加者)達はいくらかの金額を与えられています。被験者達は、この与えられた金額を"public"と"private"に分けます。

  1. privateに分けた金額は、そのまま被験者のものになります。
  2. publicに分けた金額はグループごとに集められ、合計金額に定数(<1)を掛け、グループ全員に分配されます。

このゲームにおける各人の利益最大化行動は、容易にわかるように、「全部"private"にして他の人からの分配金にただ乗りする」事です。そのため、ナッシュ均衡は「全員が"private"に全額を割り振り、分配金ゼロ」という状態になります。

社会的にもっとも望ましい(=手に入る金額の総計が最大になる)のは、「全員が"public"に全額を出し、最大の分配金を手に入れる」ことになります。そのため、平均してどれぐらいの割合で"public"にお金を分けるかは、その人の社会への協力度を見るのに都合がいいわけです。

この実験で、経済学以外を専攻している学生が平均49%を"public"に提供したのに対し、経済学専攻の学生は20%しか提供しませんでした。

※経済学者がこの種の実験を行うときには、必ず金銭的な報酬を用意します。実験の回数が多く、全部の回の分を支払えないとしても、全実験終了後にランダムに数回の結果を選んで、報酬を支払います。金銭が伴うことで、被験者が真剣に実験に参加すると考えるからです。 この条件をsaliencyといいます。心理学者が実験を行うときには、それほど金銭的条件に強く関心を持たないようです。このあたりに既に経済学者の立場が現れています。

◎囚人のジレンマ実験


Player2
Action1(協調) Action2(裏切)
Player1 Action1(協調) 2 , 2 0 , 3
Action2(裏切) 3 , 0 1, 1

左:プレーヤー1の利得  右:プレーヤー2の利得

ここからがフランク達の行った実験です。

上の表のような利得行列のワン-ショット(1回限り)の囚人のジレンマゲームを行います。

実験の環境は以下のとおりです。

会話に関しては、次の3つの場合を実験しました。

  1. 制限なし:会話時間中に、「裏切らない」という約束を結んでもよい。ただし、その約束が拘束力を持たない(約束を破っても何ら制裁がない)。
  2. 中間:30分会話することが許される。約束をすることは出来ない。
  3. 制限:10分会話することが許される。約束をすることは出来ない。

以上の条件で合計267回のゲーム(つまり534個の選択)を行いました。その結果、「裏切り」を選択した比率は:

となりました。「経済学専攻者が経済学以外専攻者より裏切りを選択する確率が高い」という仮説をこのデータから統計的に検定すると、0.5%水準で有意とのことです。

◎回帰分析

ここからは少しややこしいんで、無視して次の項目まで飛んでいただいても結構です。

経済学専攻者は男性が多いことや、被験者の学年構成など、被験者のサンプルに偏りがあります。影響を分離するために、フランクたちは回帰分析を行いました。

この分析にあたって、ゲームをプレイするときに一方に協調/一方に裏切りを選択した60サンプルを削除し、両方協力/両方裏切りだった207サンプルを用いました。

協力を0、裏切りを1として、重回帰を行った結果は次のとおりです(カッコ内t値) 

定数項 0.58 5.57
経済学専攻 0.17 2.16
制限 0
中間 -0.09 -1.13
制限なし -0.33 -4.53
性別 0.24 3.74
学年 -0.07 -2.16

(変数の意味)

いくつか読み取れることを書いて見ると・・・

  1. 「中間」と「制限」に間にはほとんど差がないが、約束が出来る「制限なし」は協力を選択させる効果が非常に大きい。また、細かくデータを調べると「制限なし」状況では経済学専攻(28.6%)と経済学以外専攻(25.9%)の間で裏切る割合に大きな差はない。
  2. 男性は裏切りを選択する傾向が女性よりかなり(0.24)高い。
  3. 経済学専攻者が裏切る割合が高いことのかなりの部分は男性の学生が多いことで説明できるが、その影響を除去しても、経済学専攻の学生が裏切る割合は高い。
  4. 学年があがるにつれて、裏切りを選択する割合は下がる。1年次と4年次では、約20%の差があり、学年(おそらく年齢差)の影響はかなり大きい。

コミュニケーションと約束が可能な状況(身内相手と言ってもいいでしょう)では、双方ともに裏切る率がかなり低い事がわかります。つまり、経済学専攻者は「まったく見知らぬ他人」を信頼して、協調を選択する能力が低いことがわかります。

◎経済学の講義前後のアンケート調査

この結果からだけでは、「もともと自己中心的な学生が経済学を学んでいるのだ」との解釈も可能です。そこで、フランクたちは経済学と(対照群として)天文学の学生に対するアンケート調査を行いました。(経済学のクラスは囚人のジレンマの結果を強調したクラスと、普通に結果だけ教えたクラスの2つ用意しています。)

100ドルと落とし主の名前と連絡先のメモが入った封筒を拾ったとします。このときに2つの質問をします。

  1. 拾った人が落とし主に返す確率はいくらぐらいだと思いますか??
  2. あなたが拾ったとしたら、返す確率はいくらぐらいですか??

11月第1週と12月の最終週の2回、同じ質問に答えてもらいます。2回の回答を比較して、拾い主(もしくは仮想した自分)が返す確率が下がった生徒の比率を比較します。

一つ目の質問では、確率が下がった生徒の比率に差はありませんでしたが、二つ目の質問(自分ならどうするか)では、天文学のクラスが10%なのに対して、経済学のクラスでは29.2%と25.2%と、非常に高い結果が出ました。

この結果は、「最初どの程度信じていたか」を問題とせず、「どれぐらいの比率の学生で下がったか」だけを問題にしています。そのため、経済学が「人を信じなくさせる影響」がある、と結論付けることが出来ます。

◎小山の解説・コメント

まずは以下の実験を読んでください。

(以下の実験内容は、次の本から採りました。池田謙一『社会イメージの心理学』サイエンス社、1993 )

●ミルグラムの「アイヒマン実験」

スタンリー・ミルグラムの「権威への服従実験」という有名な実験があります。次のような実験です。

新聞で募集された被験者は、「教師」役として、ある人の学習実験を頼まれます。学習は対連合学習実験で、「青い⇔箱」「よい⇔日」「野生の⇔鴨」などを覚えます。

被験者は「教師」役として、「生徒」が間違いを犯すと電気ショックを与えて罰を与えながら学習を進めること、「生徒」が間違えるたびに電流の強さを強くしてゆくことをミルグラムから指示されます。

実験前に、「教師」は45ボルトのサンプルショックを手首に受けます。このことで、実際に電気がとおってる事、電流の強さを確認させられます。

実は「生徒」は訓練されたサクラで、実際には電流は流れませんが、罰を与えられると迫真の演技で苦しみます。実験中生徒は頻繁に間違え、間違えるたびに、教師役の被験者は電圧を読み上げながら、徐々に強い電気ショックを与えてゆくことを求められます。

電気ショックの機械の前面には、200ボルトのところに「非常に強い」、375ボルトのところに「危険」などと図解されており、自分が与えている電気ショックがどれぐらい危険なものかわかるようになっています。


「生徒」のサクラは、次のように振舞うように指示されています。

実験条件は4通り設定されました

  1. 遠隔条件
    生徒は隣室で、回答はランプで知る。声は聞こえない。電流が300ボルトを超えると壁を叩くので、初めて生徒が抗議していることがわかる。
  2. 発生条件
    生徒は隣室だが、声が届く
  3. 近接条件
    同じ部屋で2、3フィート先に生徒が座る
  4. 接触条件
    150ボルト以上のショックを与えるには、生徒の体に触れて従わせる必要がある

実験の結果は、非常に多くの人が450ボルト(機械の最大値)の電流を流しました。各条件での割合を挙げると、

遠隔条件:65.0% 発生条件:62.5% 近接条件:40.0% 接触条件:30.0%

でした。

遠隔条件、発生条件はともかく、近接条件・接触条件でも、実際に生徒の苦しむ姿を目の当たりにしても、これだけの割合の人が実験者(ミルグラム)の指示に従って電流を流しつづけたのでした。


「自分は『指示』を受けてそれをこなしているだけだ。自分に役割遂行の責任はない」と感じる状況では、人間は非倫理的なことも行ってしまうのです。ナチスの副官で、ヒットラーの指示でユダヤ人をガス室に送ったアイヒマンの名前を採ってこの実験は「アイヒマン実験」とも呼ばれています。

(日本の企業犯罪でもこういった「責任感の希薄化」はおなじみですよね)

●科学という「裏切りの正当化」

僕には、経済学を学ぶと囚人のジレンマで裏切りを選択する人が増えることは、アイヒマン実験に見られる人間の心性と同じものを感じます。

囚人のジレンマ状況において「裏切り」を選択することは魅力的です。相手がどのように行動しても、「裏切り」を選択するほうが得なのですから。しかし、魅力に対して、人々は「倫理感」「道徳感情」「相手との想像上の共感」「義務感」などで対抗して協力を選択するのです。

経済学を(特に囚人のジレンマについて)学ぶ事によって、「人間は利己的な生物だから」「数学的に理論的に裏切る方が得をすることが証明されているから」などと、自分で判断することを「棚上げ」してしまうことが起こっている気がするのです。

「経済学の科学性」という権威に服従することで、自分が裏切りを選択したことを正当化するわけです。

もしかすると、大学の学問研究を「科学」として非常に尊重し、敬意を払い、実用性を信じるアメリカだから、これほどはっきりした差が出たのかもしれません。心理学も経済学も「あたるときだけ信じる占い」程度にしか思わない日本では、「大学の勉強は勉強。実際の社会行動は別物。」と思い、まじめに受け取らないためにこれほどはっきりとした差は出ないのではないかと思います(このことがいい事か、といわれるとかなり微妙ではありますが)。

もともと「国を豊かにする」学問として始まった(アダム・スミスの著書の名前は『国富論』です)経済学が、社会の協調を妨害する結果になっているのは少し寂しいことだと思います。

経済学教育の過程で、人間が「功利主義的な利益最大化」だけでなく「倫理」「道徳」「社会的連帯心」などの影響を受けて行動していることをもっと強調すれば、状態は少し変わるのでしょうか??

※アクセルロッドの互恵主義の研究がかなり一般に知られるようになった現在では、少し結果が異なるかもしれません。でも、ワン-ショットゲームでは相変わらず厳しい結果が出ると思います。


「信頼」と「安心」

今回は理論編として、山岸敏男 『信頼の構造』(東京大学出版会 1998)および『安心社会から信頼社会へ』(中公新書 1999)の内容の紹介と、僕による追加の議論から構成されています。

この「信頼」と「安心」の議論は「経済学研究室」のさまざまなコラムの元ネタの一つですので(苦笑)、「どこかで読んだことが書いてある」と思われる場所も多々あると思います。「小山はこんなことを考えて書いていたんだ」と思いながら読んでいただけると幸いです。

今回は理論編ですが、ゲーム理論の応用的議論ですので、数式も利得行列も全く出てきません。安心してお読みください(笑)。

議論は▼▼で囲まれた部分が2冊の本の議論、それ以外が僕の議論です。ただし、本の議論もわかりやすいように僕の言葉に直してある部分もあります。関心をもたれた方は、簡単に手に入りますので実際に文献にあたってください。

▼意外な結果▼

議論は日米比較調査における意外な結果から始まります。

次の「一般の人に対する信頼」に関する設問に1(そう思わない)〜5(そう思う)の5段階で解答する、質問紙調査を日米で行いました。

男子学生・女子学生・男子一般・女子一般の全サンプルで、アメリカ人のほうが日本人より一般の人を信頼すると言う結果が出たのです。

フランシス・フクヤマの議論やバブル期の日米の経営姿勢の比較で有名ですが、一般的には日本人の方が他人を信頼し、アメリカ人のほうが冷たいと思われていました。また、このことが日本経済の安定したパフォーマンスに寄与している、そう信じられてきました。それが逆だったのです。

このパラドックスを解くカギは、(心理学用語で言うところの)「内集団」と「外集団」に対する態度・考え方の日米での大きな相違にあったのです。

▼日本人の強制された「内集団びいき」▼

次の質問に、アナタは「そう思う」と答えますか?「そう思わない」と答えますか?

この質問の(1〜5で解答された)平均は、4種類のサンプル全てで日本人が高かったのです(統計的検定は5%水準をクリアーしています)。

これ以上個別に例を挙げると分量が多くなりすぎるので省略しますが、(アメリカ人サンプルと比較して)日本人は人の性質を判断するのに評判を重視する傾向が強く、ルールや公平性をあまり重視しない、と言う回答結果が出ています。

この結果をやや誇張して述べると次のようになります:

日本人は内集団内での評判を重視しており、外集団と内集団で基準を使い分ける「ダブル・スタンダード」を平気で行う。逆にいえば、「ダブル・スタンダード」を行えないと、集団内での評判が下がり、集団内で生きてゆくことが厳しい。日本人社会全体で外集団の存在である他者一般への信頼が低いため、他の集団の人間と新たに協力関係を作り、今の集団から抜け出すことも難しい。半ば強制的に、今いる集団へのコミット(強い参加・帰属意識を持つ)を求められる。


つまり、「社会全体で他人への信頼度が低い」→「新しい協力関係を構築したくても、相手が協力してくれる可能性が低い」→「今の関係が非常に重要」ということです。

「イエ社会」「ムラ社会」の論理そのままを読まされているようで、かなり「イヤーな気分」になりますね(苦笑)。この行動パターンをJ戦略と呼ぶことにします。

「イヤーな気分」になると書きましたが、J戦略にも、ある種の合理性があります。むやみに他人を信用しないので、「本当は信頼にたるいい人」と協力関係を結べない可能性がある一方、悪い人に騙される、利用されると言った「失敗」が無くなるのです。すなわち、J戦略は「『成功』はしないが『失敗』しない行動戦略」なのです。

▼「社会的知性」に裏打ちされたアメリカ人の「外交性」▼

では、比較されたアメリカ側はどのような行動戦略なのでしょうか?

日本人の場合同様、やや誇張して述べてみましょう:

アメリカ人は正直さや公平さを重視しており、「ダブル・スタンダード」を行うことを内集団から求められることはない。アメリカ人社会全体で他者一般の信頼が高く、容易に他の集団内の人間と協力関係を構築できるため、今の集団への強いコミットは不要である。

つまり、「社会全体での他人への信頼度が高い」→「新しい協力関係を構築できる可能性が比較的高い」→「今の関係の重要性は比較的小さい」ということになります。

「社交性」と「ドライな人間関係」という、日本人には一見矛盾しているかに見えるアメリカ人のステレオタイプ的人格が端的に現われています。この行動パターンをA戦略と呼ぶことにします。

A戦略の合理性は、J戦略とちょうど表と裏の関係です。すなわち、悪い人に騙される、利用されると言う「失敗」の危険性はあるのですが、「信頼にたるいい人」と協力関係を結べなかったことによる損失が無くなるのです。すなわち、A戦略は「『失敗』するかもしれないが『成功』の可能性がある行動戦略」なのです。

しかし、「誰彼ともなく信頼する『お人よし』の行動戦略では、悪い人間に簡単に付け込まれるのではないか」との疑問が湧くと思います。

このあたりはうまく出来ていて、アメリカ人は日本人に比べて外集団の人間に対して本当に信頼できるかを見極める「人間性検知能力」が高い、という結果が出ています。

日本人は、同一集団内での生活を強いられるためか、集団内での派閥関係や、「誰が自分に好意的か」「誰が自分に敵対的か」等の微妙な人間関係を読み取る力(「関係性検知能力」)に長けています。

このような、社会的環境を読み取るための能力を山岸(1999)では「社会的知性」と呼んでいます。

▽統計学の仮説検定の用語で説明すると(余談)▽

仮説Xを「目の前の相手が自分に協力的である」とします。この仮説が正しいかどうかを推定する場合に、推定ミスには2種類あります。

一つ目は、「仮説Xが偽にも関わらず真だとみなす」です。具体的には、「相手は非協力的なのに自分が協力的な態度に出て損失を蒙る」ことです。この種の偽の命題を真としてしまうエラーを、「第1種のエラー」といいます。

もう一つは、「仮説Xが真にも関わらず偽だとみなす」です。具体的には、「相手は協力的なのに自分が非協力的な態度に出て得られる利益を逃す」ことです。この種の真の命題を偽としてしまうエラーを、「第2種のエラー」といいます。

ココまで書くとおわかりかと思いますが、J戦略は「『第2種のエラー』は目をつぶるから、『第1種のエラー』を避ける」戦略、A戦略は逆に「『第1種のエラー』は目をつぶるから『第2種のエラー』を避ける」戦略だと言えるでしょう。

新しい人と出会うときには、人は挨拶・態度・簡単な会話などの、相手への数少ない情報から仮説Xを検定していると言っていいでしょう。現実の複雑な環境下では、相手を絶対に正しく判定する方法も、限られた情報からミスを最小化する方法もわかりません。J戦略とA戦略は、複雑な社会環境に適応するために、中途半端を避けてそれぞれ一方のエラーを避けることに専念した戦略なのです。

▼「信頼」と「安心」▼

ここで、今まで(あえて)紹介せずに用いてきた、山岸(1999)内での「信頼」の定義を紹介します。

山岸(1999)では、「信頼」を「初対面や次に会う機会があるかわからないと言った、相手が自分を裏切るかもしれない不確実な環境下で、相手が協力的だと信用すること」としています。A戦略のアプローチです。

一方、J戦略のアプローチは、「安心」と言う別の言葉で定義しています。「安心」は、「同じ相手と何度も相互作用したり法律などで何らかの規制があったりと、相手が裏切ると損をする環境を用意した上で、相手が協力的だと信用すること」としています。

つまり、漠然と混同して用いられてきた「他人を信頼する」と言う現象を、「信頼」と「安心」の二つに分けたのです。

☆ネットワーク構築能力としての人間性検知能力☆

複雑で何が起こるかわからない社会・経済では、限られたチャンスで相手から必要な情報を聞き出す「コミュニケーション能力」と、手にした情報を分析する「社会的知性」が重要です。

少ない情報から相手が「信頼」できるかを見抜き、協力関係を結ぶ人を増やしてゆく行為は、自分の周囲に新しいネットワークを構築し、拡大してゆく行為です。そういう意味では、現在重要な(必要とされる)社会的知性は人間性検知能力です。

「故郷から新しい街に出てくる時の期待と不安」を例に挙げるとわかりやすいでしょう。自分の周囲の人のさまざまな情報が既にわかっています。たとえば、

「この人は全面的に信用できる」
「この人は親切だけど、お金にルーズだから注意した方がいい」
「この人は近寄らない方がいい」

と言ったことがわかっています。

知らない人に対しても、自分の周囲の誰かが知っている場合が多く、その人から評判(reputation)を聞くことで、情報を入手できます。

しかし、誰も知っている人がいなく、情報(アドバイス)提供者もいない空間では、「頼りになるのは自分だけ」と言う状況になります。この状況で発揮するのが「人間性検知能力」です。

現在では、今までより多くの利得を得るために「人間性検知能力」を発揮しなければならない状況が多数存在します。

ビジネス現場における例をあげてみましょう:

また、サイバースペースは数少ない情報から判断を求められる場面の連続です:

(女性の場合はこれ以外にも危険が多いはずです)

新しい仲間・新しいなじみのお店・新しい顧客と言った、社会内の「宝の山」にも「ゴミの山」にもなりうるさまざまな「社会的資源」から、自分にプラスになるモノだけを上手に分別して収集できる能力がある人が、これから成功できる人でしょう。

☆リスク負担能力☆

少し考えれば容易に想像がつくと思いますが、「信頼」戦略をとるにはそれなりの「リスク負担能力」が必要です。いくら人間性検知能力が高くても、見知らぬ相手を信頼すると言う行為には相応のリスクが伴うからです。

先ほど挙げたベンチャーキャピタルの様な例がその典型です。

資金に余裕のないわれわれ一般人では、ワケのわからない起業家に簡単にお金を出せません。次がないからです。つまりJ戦略しか取れません。一方、「大数法則」にしたがって「一つか二つヒットが出ればいい」と言う姿勢で望める金融機関や資産家なら、このような起業家にも資金を提供することが可能です。A戦略が可能です。

この結果、J戦略しか採れないフツーの(「持たざる」)人は儲けられない一方、A戦略が採れる資産家はさらに儲けられ、どんどん差が広がってゆく、と言うことになります。

少しJ戦略とA戦略の話とは離れますが、「リスク負担能力の差→とりうる戦略の差」のわかりやすい例として、結婚の例を挙げてみます。

山岸(1998)の議論は、社会内のどのような戦略の人が多いかによって社会内の利得構造が決まり、最適な戦略が固定化すると言う「ナッシュ均衡」的構造があります。

しかし、さらに遡ればリスク負担能力と採用可能な戦略のバリエーションには対応関係があり、(社会がさまざまな激動の後に)今の状態に「落ち着く」以前の段階では、「どの程度のリスク負担能力がある人が多いか」が影響したと思われます。

(実際のところ、どの国でも、経済的な事情でリスク負担能力が小さい移民者やマイノリティグループはJ戦略に近い行動を採っています。どの国にもチャイナタウンがあり、同胞同士の結束が強いのがわかりやすい例でしょう。)

☆信頼と安心は社会の両輪☆

「信頼」と「安心」は対立する概念でも、両立しない概念でもありません。

最初は「信頼」して発生した協力関係も、長期にわたって継続し、お互いに関係が損なわれることを心配し始めたとすると、その関係は「安心」に移行しています。

ビジネス戦略で言えば、一度取り込んだ顧客を上手に「囲い込ん」で、他の企業の商品に浮気させない、と言う戦略は信頼に始まり安心に終わる戦略です。

また、社会的な環境では多くの場合、「家族」「損得なしで付き合える友人」等といった「安心」や(利得関係を完全に超越した)安心以上の「絶対的な保証・承認」がベースにあって初めて「信頼」戦略が採れると思われます。

社会の発展にとって、「信頼」と「安心」はまさに両輪なのです。


チープトークと社会秩序の移行

▼事前コミュニケーションの重要性▼

囚人のジレンマについての質問紙調査によると、「もし相手が絶対に協力するとわかっている場合に、アナタは協力しますか?」との質問に対して、過半数の人が「協力する」と回答しています。

※なぜ「協力」するのかについては確固とした説明はまだありません。しかし、これからの議論に関しては、この協力性向がある、と言う事実だけで十分です。(あえて説明をつけるとすると、「協力」的な倫理基準を無条件で受け入れるような心理構造を持つ集団が社会的に繁栄し、非協力的な人々を淘汰・同化していった、と言う進化心理学的な説明が浮かびます)

また、以前の理論編で紹介した囚人のジレンマ実験では、実際に行動を選択する前にプレーヤー間で会話できる/できない、協力の口約束ができる/出来ないのそれぞれの場合が比較されていました。その結果、コミュニケーションと口約束が可能な場合が、最も協力が発生する確率が高かったのです。実験の参加者達は、相手とのコミュニケーションや口約束から、相手が信頼に足る、「協力」を選択しても大丈夫な相手であるかどうかを見極めていたようです。

この2つの事例をあわせてみると、「社会内での協力発生を成功させたければ、各人が実際に行動を起こす前に仲間とコミュニケーションを採る事が重要」と言うことになります。実際に行動を起こす前のコミュニケーションを「事前コミュニケーション(Pre-Play Communication)」と呼び、ゲーム理論では重要な分野の一つになっています。

▼チープ・トーク▼

実際の社会的環境では、事前コミュニケーションができない場合も多いと思われるかもしれません。事実そうなのですが、はっきりとしたコミュニケーションではなくても、コミュニケーションに準ずる効果のある相互作用ができる場合が多いのです。それがチープ・トークです。

チープ・トーク(Cheap Talk)は、「ゼロコスト、もしくは無視できる低コストでの相互情報交換」を示します。「自分でわざわざコストを負担して発信する情報」である「シグナル」とは、ほぼ反対の意味です。


※ずいぶん前に「教育」シリーズ中に「学歴はシグナルと解釈することもある」と言う話をしました。学歴が自分の能力の証明を自分の費用で行うからシグナルと考えることもできる、と言うお話でした。

チープトークで交換される情報には発信者が意図的に発信した情報もありますし、意図せずに(無意識のうちに)発信された情報もあります。

▽無意識のうちに発信される情報(余談)▽

われわれが無意識に発信している情報は、かなり膨大です。例えば、喫茶店の隣のテーブルに僕(小山友介)が座っていたとして、手に入れることのできる情報を列挙してみると、

。。。自分で書くとあまり浮かびませんが、もっとあるでしょう。これらの情報を元に、相手が信頼できる/信頼できないを判断するのです。

膨大な情報を人間は処理しきれないため、通常はいわゆる「ステレオタイプ」と言われる類型を作って、それに当てはめる形で多くの事例は処理されます。茶髪で長髪の遊び人風の男性は信用できないから用心する、などと言うのはその典型例です。

「ステレオタイプ」を利用した処理は便利なのですが、容易にわかるように、偏見と誤りが多数入り込む可能性があります。

また、判断が難しい事例については、前回の理論編で説明した「社会的知性」が重要になってきます。

▼Secret Handshakes▼

Coordination Game


Player2
Action1 Action2
Player1 Action1 3 , 3 0 , 0
Action2 0 , 0 1, 1

チープトークに関する簡単なモデルを紹介します。上のペイオフマトリックスは、コーディネーション・ゲーム(Coordination Game:協調ゲーム)と呼ばれるものです。容易にわかるように、ナッシュ均衡は(Action1,Action1)と(Action2,Action2)の2つです。

社会の中の任意の2人が出会い(ランダム・マッチング)、ゲームをプレイする状況を考えます。社会内の全員がAction1を選択し、ナッシュ均衡状態を仮定します。

明らかに望ましい均衡は(Action2,Action2)です。しかし、相手のプレーヤーがAction1を選びつづけている限り、自分もAction1を選択せざるを得ません。つまり、「社会的にはもっと望ましい状態がわかっているにもかかわらず、自分ひとりだけではどうにも出来ない状態」に陥っています。

※ナッシュ均衡の「他のプレーヤーが行動を変更しない限り、自分から積極的に行動を変える動機が存在しない」性質を自己拘束性と呼びます。

ここで(突然変異の発生を想定してください)、一部の人々(集団Aとします)がチープトークを始めます。一部のプレーヤーが自分達にしかわからないメッセージを発信し、双方がメッセージを発した時のみAction2を選択し、それ以外の場合にはAction1を選択する状況を仮定します。

この結果、集団Aが他の社会の人々より高い利得を手にします。「社会内の平均より高い利得を手にしている集団の比率は増加。低い利得の集団は減少。」と言う「進化的過程」を想定すると、社会内の集団Aの比率が増えてゆきます。

(このペイオフマトリックスでは)Action2を選択しつづける戦略の比率が社会で8分の3を超えると、Action1を選択しつづける戦略よりAction2を選択しつづける戦略がランダムマッチング下で期待利得を上回ります。そのため、集団Aの社会内構成比が8分の3を超えた時にコミュニケーションなしでAction2を選択する戦略に変更すると、均衡点が変化し、社会の構成員全体が一気にAction2を選択するようになります。最終的に社会の秩序の転換が起こります。

このような、社会内で不利な少数派の間はチープトークで「仲間」と確認できる相手だけ協力しあう戦略をシークレット・ハンドシェイク(Secret Handshakes)と呼びます。

▽局所優位性とその波及(余談)▽

シークレット・ハンドシェイクの特徴は、「相互作用する相手を選べない環境下で、出会った相手の中から協力可能な相手を選ぶ」ことにあります。

「相手を選ぶ」と言う視点から見ると、「社会内に均一に散らばらず、仲間同士が空間的に偏って存在することで、ランダムに出会うよりマッチング頻度を高める」と言う方法でも同じような結果が得られます。

わかりやすく書くと「社会全体では少数派でも、自分の周囲では多数派」を保つことで社会の平均より高い利得を手にする方法です。アメリカの大都市内の民族街等がわかりやすい例です。この方法は、少数派が多数派に飲み込まれることを防げます。

また、さまざまな社会運動などの場合、仲間内から徐々に相互作用する空間を広げることによって、社会内の勢力を拡大し、社会の秩序の転換をはかることも可能になります。

※この「局所的な優位」をまずキープしてから「社会全体での優位」へと広げる手法は、流行に敏感な層を狙う・特定の世代だけを狙う、等と言う形で商品のマーケティングでは頻繁に用いられます。


最終的には、ナッシュ均衡状態にロックされている社会的秩序は、異端派が社会全体に均一に散らばっている場合にはチープトーク、偏っている場合には局所的な優位の全体への波及、と言う形で別の状態へと移行することになります。

実際の社会現象での移行プロセスではこのプロセスが混ざって発生するはずです。社会的知性が高い人どうしがチープトークで仲間になり、グループを形成し、社会内に波及してゆく、と言うプロセスになります。


ブックガイド&ノーベル賞受賞者の紹介

※メールマガジンの各回で紹介した本も、ここにまとめることにします。

▼ブックガイド▼

(1)フォン・ノイマン

ゲーム理論がいつ始まったのか、という時期を特定するのはなかなか難しいのです。(賭博に関する確率論による数学的分析、ということではパスカルあたりまで遡れるそうです)

一般的には、『ゲーム理論』という学問分野が確定したのは、フォン・ノイマンとオスカー・モルゲンシュテルンによって1944年に書かれた大著『ゲームの理論と経済行動』です。

次の本では、著者の1人、20世紀最大の学者の1人であるフォンノイマンの伝記と、ゲーム理論の歴史がバランスよく(かつ読みやすく)まとめられています。

ウィリアム・パウンドストーン(松浦俊輔 訳)
『囚人のジレンマ』 1995年(英語版1993年)
青土社 ISDN4-7917-5360-7


(2)テキストブック

僕はゲーム理論に関係したテキストは何冊か持っていますが、次の本の解説が一番わかりやすいと思います。鈴木光男さんは日本におけるゲーム理論の普及に多大な影響を与えた方で、次に挙げるテキストの著者(京大経済研究所 岡田章教授)も、鈴木光男さんの研究室出身です。

第1部 非協力ゲームの理論
第2部 協力ゲームの理論
第3部 ゲーム理論の役割と歴史

と、全範囲を網羅されているところもおすすめです。


鈴木光男
『新ゲーム理論』 1994年
勁草書房 ISBN4-326-50082-4

−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・
この本は、大学院の修士課程での講義用のテキストです。当然レベルは高いです。いい本なのですが、ちょっと読みにくいのが残念。


岡田章
『ゲーム理論』 1996年
有斐閣 ISBN4-641-06794-5
−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・
この本は、戦略的行動の観点によるミクロ経済学の諸概念を説明を試みるという野心的な教科書です。まだ全部目を通しきったわけではないのですが、全般的に説明もわかりやすいです。

普通のミクロ経済学の教科書とセットで、『副読本』的に使うといいかもしれません。


梶井厚志   松井彰彦
『ミクロ経済学 戦略的アプローチ』 2000年
日本評論社 ISBN4-535-55202-9


(3)メルマガ内で紹介した文献

R.アクセルロッド『つきあい方の科学』(ミネルヴァ書房)
ISBN4-623-02923-9

『つきあい方の科学』と言うのは日本で付けたタイトルで、英語のオリジナルのタイトルは、"Evolution of Cooporation"と言って、1984年に出版されました。この分野では現代の古典、と言ってもいいかもしれません。
−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・
西山賢一『勝つためのゲーム理論---適応戦略とは何か』
1986年7月20日発行
講談社ブルーバックスB653 ISBN4-06-132653-8

まだ進化ゲーム理論には部外者向けの簡単な概説書がありません。あえて1冊挙げればブルーバックスから出てるシグムント『数学から見た生命の世界』なのですが、今手元の本棚から発見できなかったので(^^;)こちらをあげて起きます。

(内容)
序章 つき合い方の科学へ
一章 囚人のジレンマ
二章 しっぺ返し戦略の再発見
三章 社会のジレンマ
四章 四つのジレンマ状況
五章 何でも屋か専門家か
六章 文化的に安定な戦略
終章 情報化時代とゲーム
−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・
J,Weibull "Evolutionary Game Theory", MIT Press,1995
ISBN 0-262-23181-6
(これは僕の手元にありハードカバーのISBNで、現在はペーパーバックもあります。注文なさる方は一度確認してください)

大和瀬達ニ監訳 『進化ゲームの理論』 文化書房博文社、1998年
ISBN 4-8301-0820-7

進化ゲーム理論の「定番」と言っていいでしょう。ただし、非協力ゲーム理論と常微分方程式(Harsh & Smale の『力学系入門』レベル)の知識が要りますので大学院生向けです。

僕が修士の学生のころは英語しかなかったんですが、気が付いたら翻訳が出てました。「こんなことだから院生の英語力がつかないんだ」とか思いながらも、ノート代わりに便利だから買ってしまいました(^^;)

英語のペーパーバック版が一番安いので、英語力に自身のある方は英語のペーパーバック版をお勧めします。実際のところ、数学の証明を追いかけているときには英語でも日本語でもたいした違いはありません。(読み直すときや訳語の確認には日本語版が便利ですが)
−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・−・

◎ノーベル賞学者の業績紹介

1994年にナッシュ・ハルサーニ・ゼルテンの3人がノーベル経済学賞を受賞しました。この3人の業績を紹介と思ったのですが、

  1. ナッシュだけでかなりの分量になった
  2. ハルサーニ・ゼルテンの業績は、部外者にはやや専門的過ぎ、専門外の人へ紹介することは難しい
  3. 均衡点の数学的精緻化という方向性に小山がそれほど意義を感じていない。特に、ベイジアン均衡点には意義を感じない。

と言う事情から、ハルサーニ・ゼルテンの業績に関しては殆ど名前だけにさせていただきました。

▼ナッシュ▼

ナッシュの業績としては、既に「ナッシュ均衡解」が紹介済みです。「ナッシュ均衡解」は、「経済学研究室」で多用したことからもわかるように、社会現象を議論する際に欠かせない基本概念となっています。

もう一つ、現在でも多用される解概念として、2人交渉問題における「ナッシュ交渉解」があります。

(ナッシュの業績は、この2つの解概念に加えて、交渉問題を非協力ゲーム・アプローチで分析した結果、ナッシュ均衡解が利得最大化行動の結果として示せる事を示し、協力と非協力の2つのアプローチの間をつないだ事です。)

「交渉解」の説明のためには、元になる「2人交渉問題」の説明が必要です。かなり長くなりますが、「経済学研究室」で採り上げなかった協力ゲームの入門にもなりますので、交渉問題を(できるだけ^^;)簡単に説明します。

○交渉問題○

(1)実現可能集合

プレーヤー1とプレーヤー2の2人で何らかの行動をとる状況を考えます。二人が何らかの選択をした結果を、(x1,x2)と双方が手にする利得で表します。プレーヤー1の選択とプレーヤー2の選択、全ての組み合わせでp通りの結果が起こるとします。このn通りから二人が結果を選ぶことになります。

1つ目の結果をA1=(a11,a21)、以下A2=(a12,a22)、...、Ap=(a1p,a2p)とp通りの結果にそれぞれに名前を付けておきます。(単純化して言えば、ゲーム理論における「解」とは、これらの結果全体からある特定の結果を選び出す基準の集合のことです。)

加えて、交渉が決裂した場合の結果(交渉決裂点)を定義します。交渉決裂点には、現状維持点(全く相互作用しない場合の結果)が選ばれる場合が多いです。

双方が自分の利益を重視する「合理的」やプレーヤーなら、交渉決裂点以下の結果はなる選ばないでしょう。交渉決裂点はそういった「問題外の結果」を排除するために用います。

これだけの準備をすると、議論の始まりとなる実現可能集合を定義できます。実現可能集合とは、p通りの全結果の中から、全員の手にする利得が交渉決裂点が低くなく(同じもしくは高い)、少なくとも1人のプレーヤーの利得が交渉決裂点より高い結果の集合です。

簡潔に式で定義すると次のようになります(数学的にややこしい内容は、一部説明していません。):
〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・
Xi=(x1i,x2i):結果の各要素
S={X1,X2,…,Xn}:実現可能集合
d={(d1,d2)}:交渉決裂点

としたとき、Sは以下の条件を満たす。

  1. S:2次元ユークリッド空間R2の有界で閉の凸集合
  2. d∈S:dはS内の点
  3. Sは任意のプレーヤーiに対して、xij>di(i=1,2 j=1,2,...,n)となるxijを少なくとも一つ含む

〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・
・・・ぶっちゃけた言い方をすると、実現可能集合とは、

  1. 交渉決裂点が原点
  2. プレーヤー1とプレーヤー2の(交渉決裂点以上に取れる)利得が座標軸

とする座標空間上・第1象限内の、北東(右上)方向に張り出した両軸を含んだ多角形になります。
(図を書いたら一発なんですが・・・^^;)

(2)交渉領域

実際の交渉では、実現可能集合全部が交渉の舞台になるわけではありません。実現可能性集合をさらにパレート最適条件で絞り込みます。(ミクロ経済学で有名な)パレート最適性とは、「他の人の利得を下げることなく、これ以上自分の利得を上げることが出来ない状態」を指します。

単純に、各人が「他の人の行動を固定した時に、自分は自分の利得を最大にする(=最適な)行動を選択している」状態が徹底されていると考えてください。

このパレート最適性で絞り込まれた後に残る結果が「交渉領域」です。これも式で書いてみましょう:

〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・
交渉領域 U={(u11,u21),(u12,u22),...,(u1n,u2n)}とは、

Sのうちパレート最適な部分
 ⇒Tj>Uj (j=1,2,...,n)となる結果tijが、一つもSに属さない状態
〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・〜・

これまたぶっちゃけた言い方をすると、交渉領域とは実現可能集合の外枠です。内部の点は、相手の利得を下げることなく自分の利得を上げる選択肢があるから、排除されるわけです。

(3)ナッシュ交渉解

・・・で、ようやくナッシュ交渉解です。

交渉解とは、、するに一つの交渉結果を選び出す手順のことです。

数学的には交渉解とは、交渉領域 U をU内の一要素(u1,u2)に射影する写像で、次のようになります。

f:交渉解  f:(U,d)→R2∈U

ナッシュが示した交渉解(u1,u2)とは、2人のプレーヤーの交渉決裂点からの利得の純増(ui-di)の積が最大化するように解を定める、というものです。つまり、

max (u1-d1)(u2-d2)

となります。


ナッシュは、ナッシュ交渉解が次の4つの基準を満足することを証明しました。(証明は割愛します。関心がある方は参考文献を実際にご覧になってください)

  1. パレート最適性
  2. 対称性:  d1=d2,  (u1,u2)∈U なら、 (u2,u1)∈U
  3. 利得の測定法からの独立性(正の一次変換からの独立性)

       交渉問題(U,d)を

    di' =ai* di + bi
    uij'=ai*uij + bi    (i=1,2)

      と変換した(U',d')でも、変換させた後の対応した同じ要素が解となる。
  4. 無関係な関係からの独立性:T⊂U(TがUの部分集合)のとき、

    f(U,d)∈Tならf(T,d)=f(U,d)



1の意味は既に述べました。2も問題ないでしょう。3は、少しややこしいですが、理論的には交渉解が期待効用理論と整合的であることを保証します。また証明の時に、交渉領域が対称性を満たすように変形する際に用います。4は、交渉が交渉領域を徐々に絞り込むように進み、最終的には局所的な交渉になるという交渉手続きによって解が変わらないことを保証します。

▼ハルサーニとゼルテン▼

非協力ゲームにおけるナッシュ均衡は、複雑な構造のゲームでは解概念が曖昧になったり、複数の均衡点が存在したりすると言う問題があります。

前者の議論を「均衡点の精緻化」といい、後者を「均衡点の選択」と言います。ハルサーニとゼルテンの功績は、とどのつまりこの2点への功績です。(ここまで大雑把にしてしまうと、ゲーム理論専攻の人に怒られそうですが^^;)

ハルサーニの名前が冠されている業績には、「情報不完備ゲームにおけるベイジアン・ナッシュ均衡点」があります。

ゼルテンの名前が冠されている業績には、「展開形ゲームにおけるサブゲーム完全ナッシュ均衡点」があります(こちらは、繰り返し囚人のジレンマの説明のところで少し触れました)。

それぞれの具体的な内容に関しては、1人あたりでナッシュと同じぐらいの分量が必要ですから(数学的なレベルはかなり高くなります)、ブックガイドで挙げたテキストブックを参考にしてください。


「経済学研究室ライブラリー」表紙に戻る

ホームページ表紙に戻る