リプレイスメント・レベルの定義に関する議論

2025.12.7

by Baseball Concrete

1.論者ごとに多様な定義

 総合評価指標WARの「基準」として用いられるリプレイスメント・レベルは、WARの普及とともにその評価基準としての意味も浸透し、すっかり地位を確立した感があります。

 そこでは「レギュラーが故障をした際に代わりに出てくるのは一軍の平均に劣る選手なのだから、選手の貢献度は平均ではなくリプレイスメント・レベルとの比較で評価するのが適切だ」という議論が行われ、これはもちろん説得力のある主張です。

 筆者としてもそのようなKeith Woolnerの論説などを紹介してきたところですが、かつての英語圏の議論状況を考えると「リプレイスメント・レベルとは何か」について実に様々な議論があり、その定義については「研究者の数だけ定義がある」とか「定まった定義はない」などと言われるのが定番でした。

 Keith Woolnerの議論はたしかに説得的で強力ですが、他の定義を見るのも学びがあります。なんとなくここまでWoolner以外の定義を議論する機会がなかったという気持ちがあるため、Woolnerを相対化するためにもここで少し検討をしてみたいと思います。なおここでいう定義というのは.300にするか.320にするかという量的な話ではなくそもそもリプレイスメント・レベルを用いるとはどういうことかという概念的な話です。

 

2.競技的な観点と経済的な観点

 まず視点として大きく分かれるように感じるのはリプレイスメント・レベルを競技的に捉えるか経済的に捉えるかです。

 すなわち、あくまでもレギュラーが怪我をしたら控えの劣る選手が出てくるという競技の中の意味でリプレイスメント・レベルを捉えるという立場が1つです。もう1つは「最低限のコストで」調達可能な選手との比較が大事だというように経済的な観点を重視する立場です。

 これは定義の仕方として2つの流派に分かれるという見方もできますし、同じ物事の2つの側面という見方もできるでしょう。

 この捉え方の違いは実際にリプレイスメント・レベルを算定するときにレギュラー以外の控えを集計の対象とするのか、自由契約から最低年俸で契約した選手の事例を対象とするのかといった計算アプローチの違いにも繋がります。

 Dave Cameronは2013年にFanGraphsとBaseball Referenceがリプレイスメント・レベルの水準を統一した際に「そもそも何故リプレイスメント・レベルを用いるのか」を論じた記事を書いています。

 そこでは理由を2つに整理し、第一に平均を基準として用いると平均以下のレギュラーが控え選手より低い価値になってしまうので出場量を適切に評価するためにリプレイスメント・レベルが必要であり(前述の整理でいう競技的な観点)、第二に平均的な選手は最低限のコストで得られるものではないため平均的な選手との比較だと経済的価値が出しにくい(経済的な観点)といった旨の指摘をしています。その上で、必ずしもみんなが選手の金銭的価値に興味があるわけではないとして、経済的な観点については副次的なものであると位置付けています。

 これはたしかに妥当な整理だとは思われます。ただし、まだWARが定まった形で算出されるようになる前の段階で、例えばTom Tangoを中心として有力な分析家が集うTHE BOOK BLOGにおいてオフシーズンの移籍や選手の適正価格などを議論する際にWARのような計算が活発に用いられていました。Tangoによるリプレイスメント・レベルの定義は「自由市場において最低年俸の、またはトレードで最小限のコストで獲得できる能力水準」であり、こうした議論が意識されているように思います。

 WAR及びリプレイスメント・レベルという基準が実際にそうした経済的議論の文脈を絡めて発展・定着してきたという事実はリプレイスメント・レベルの意義を語る上で踏まえておくべきであるように思われます。MLB界隈のセイバーメトリシャンにとっては暗黙の前提になっているのではないでしょうか。

 選手の金銭的価値については、例えばリーグ全体の数字から1WARあたりの平均年俸(最低年俸を超える部分)を算出してWARに乗じることで選手の適正年俸を検討することができます。もちろんWARと年俸を線形の関係で捉えるのは大変ナイーブですが、おおむねそのように想定されるようです。

 またWARの野手・投手の間の配分がFA選手の年俸の配分に裏付けられていることもこうした観点の表れではないかと考えられます。

 

3.漸進的最小水準

 競技的に考えるのであれ経済的に考えるのであれリプレイスメント・レベルという発想が有用であることは多くが同意するところです。しかしよく考えると「選手が故障をした場合に何が起こるか」という点はもっと掘り下げる余地があり、一口にリプレイスといっても様々な状況を考えることができます。

 本稿執筆のきっかけは過去に読んだ気になっていたセイバーメトリシャンPatriotの評価基準についての論考(Patriot, “BASELINES,” Buckeyes and Sabermetrics、執筆時期が不明ですがおそらく2003~2006年頃)を読み返したところめちゃくちゃ面白かったことなのですが、ここではPatriotの記事からいくつか議論を紹介してみたいと思います。本稿のこれ以降の部分は多くをPatriotの記事に依拠しています。

 まず、現在主流派のWARで採用されている「最低限のコストで容易に調達可能なレベルの選手(Freely Available Talent、Readily Available Talent)とそのまま比較する」という手法は、Patriotの整理に従えば、ミニマリストと呼ばれる立場です。つまり、それ以下はないという最低レベルを考え、選手のパフォーマンスを直接的にその最低レベルと比較するという方法をとります。リプレイスメント・レベルの概念上これより低い評価基準はあり得ないことになります。

 しかし例えばMLBで20年プレーした選手の「その選手が怪我をして出場できなかった場合と比較して増やした勝利数」を計測するときに、その選手の20年の実績と最低年俸選手が20年出場し続けたとした場合の見込み値を比較することは実態に即しているでしょうか。

 状況を想像すると、レギュラーが怪我をしてすぐは適切な代わりの選手を用意できないかもしれませんが、時間が経てばチームもそれなりの手当をする(しなければいけない)し、代わりの選手が成長することだってあると思われます。つまりミニマリストの想定とそこから得られる数字は非現実的ではないでしょうか。

 そこで出てくるのが漸進的な最小水準(Progressive Minimum)という考え方です。これは平均基準と最小基準の調和を図ろうとするRob Woodによって最初に提唱され、後にTom TangoとNate Silverによって独立して議論されました。

 Rob WoodとTom Tangoはエキスパンションのチームを分析し、ほぼ最小水準(FAT)の選手で構成されたチームが平均的には8年で.500(平均)に到達すると見出しました。またNate Silverは打者の生涯成績を分析することで似た結論に到達しました。

 漸進的最小水準論はこれに基づき、選手のキャリア全体をそのまま最小水準と比較するのではなく、例えば1年目は.350との比較、2年目は.365との比較……といったように、少しずつ上昇していく基準と比較するというものです(ここから.350などの小数点以下3桁の数字が出てきますが、これは能力の高低をチームの勝率になぞらえて表したものです。.350が最低レベル、.500が平均レベルと考えてください)。

 たしかに「もし20年稼働してくれたこの選手がいなかったら」「いなかった場合と比べたその選手の影響度は」などと考えたときに、ある意味ではしっくりくる考え方です。

 漸進的最小水準に対する疑問としては、同じ.540の一塁手が20年プレーし続けたら基準が上がっていくのにチームが20年間毎年新しく.540の一塁手を獲得した場合には毎回最小水準と比較されるので同じパフォーマンスに対して結果が不整合ではないか、というものがあります。

 しかしこれは単にチームの視点では漸進的最小水準が機能しないだけで選手個人のキャリアという視点では機能するのであって、分析の目的次第であるとPatriotは整理しています。

 

4.連鎖的代替水準

 次に考えるリプレイスメント・レベルの議論が連鎖(Chaining)です。これはPatriotが支持するものでもあります。

 連鎖派の主張を簡単に言うと「レギュラーが怪我をしたとき、チームはいきなり最低レベルの選手を出場させるわけではなくマシな選手から出場機会を割り当てて、その選手すら出られなくなったら仕方なく最低レベルの選手を出すという連鎖的な過程が想定されるのだから、ミニマリストのように直接的に最低レベルと比較するのはおかしい」というものです。

 そう言われればそれはそうですし、置き換えが生じた場合の実態をミニマリストより踏み込んで考えるという意味では漸進的最小水準とも近しいニュアンスを持っているといえるかもしれません。

 例えば一塁のレギュラーが怪我をした場合、いきなり最も打てない選手を出場させるのではなく、普段ベンチで代打を担っている選手が一塁で先発出場することになるケースはありがちだと思われます。このとき代打の選手は.430くらいの能力はある、などと想定されます。そしてその選手が1年間出続けることはできず100打席くらいは.350の選手を出さざるを得ないかもしれませんが、この場合二人あわせて.415ほどの水準になります。元の一塁手レギュラーは.350と比較するのではなく.415と比較すべきである、というのが連鎖派の立場です。なるほど現実的です。

 考えられる批判としては、連鎖を仮定するとレギュラーは準レギュラーと比較して評価されるのに対して準レギュラーは最小水準と比較され、選手によって評価基準が異なるのは不公平で妙だというものがあります。しかしPatriotはチームにもたらす価値の観点や現実性を考えればそれほど突飛なことではないとし、「収穫逓減」の概念などを援用して反論しています(収穫逓減とは経済学で用いられる用語で、例えば工場の生産ラインにどんどん人を追加していっても、やがて混雑して効率が落ちるので追加一人あたりの生産量増加幅は減っていくような現象)。

 また連鎖論の難しいところは、現実的にはこういう事態が起こるだろう、というのを考えていくと議論が際限なく複雑になっていくところです。どのようなバックアップ体制になっているかは守備位置によっても異なるでしょうし、チームや時代によっても違うはずなので一概に言えないところがあります。普遍的なモデルを作ることができるのかどうかよくわかりません。

 「もし評価対象の選手が怪我をしたら(していたとしたら)」という想定をきちんと考えるなら連鎖の要素を考えるのは合理的ですが、どんな連鎖が起きてそれは数量的にどのように表せるのかを研究し尽くすのはなかなかに大変そうです。

 Patriotは、最終的にどのような基準を採用するかは別として、連鎖的代替水準が現実を最もよくモデル化すると評価しています。

 ちなみにMLBの現行のWARはリリーフ投手のレバレッジ・インデックス(LI)についてLIと1の平均値を失点阻止に乗じる係数として使用しています。LIをそのまま使わないのはリリーフエースが怪我をしてもいきなり最小水準の投手が抑えを任されるわけではなく優れた投手から順に役割を繰り上げられるような連鎖が働くことを考慮したものであり、この意味で現行WARには連鎖原理が取り入れられています。野手については連鎖を考慮してもしなくてもその影響は基本的に全員に均等に及ぶためあまり大きな影響はありませんが、レバレッジを考えるべき救援投手については大きな問題になります(David Gassko, “Jonathan Papelbon and Replacement Level,” The Hardball Times, 2006及びTHE BOOK BLOGのTangoコメント参照)。

 

5.平均の擁護

 さて、昨今は総合指標といえばWARというのが当然のような空気ですし前述のDave Cameronの記事のように「平均と比べると問題があるからリプレイスメント・レベルと比べよう」という説明は当たり前に見るものです。しかし、本当にそれでいいのでしょうか。実はPatriotは平均(Average)という評価基準もかなり擁護しています。ここもPatriotを参考にしつつ今一度考えてみます。

 野球においてあるチームの勝利は相手チームの敗北であることから勝利と敗北は常に一対一対応し、リーグの勝率の平均値は.500になります。平均と対比するというのは.500を基準に評価するということです。

 平均との比較の優れているところはこのように.500を超えていると「チームにとって、敗北より勝利を多くもたらす選手である」という大事な情報が得られる点です。

 .500を上回るかどうかは相手との対戦がイーブンな状態から勝ちに傾くか負けに傾くかの重要な分岐点ですから、「そこを基準にプラスマイナスを測る意味」はとてもよくわかります。数理的にも明確で定義に曖昧さがないのもいいところです。

 またリプレイスメント・レベル論者は出場量を評価する重要性を強調しますが、選手単位で見れば出場量が少ないより多いほうが偉いものの、チームの視点では誰が出場するのであれ全チーム27アウト162試合を成立させることに変わりはないので、出場量の多さというよりはその中での優秀さだけが問題となります。出場それ自体でチームが利得することはありません。

 WARが普及する以前は重要な総合評価指標とされていたTotal Player Ratingの開発者であるPete Palmerも平均対比論者であり、Patriotの記事に引用されています。

 Pete Palmerは、平均との比較は誰がチームの勝利に貢献し誰がチームの勝利を妨げているかを判断する最良の方法だと主張します。ある選手が平均に比べて劣っているのであればその選手はチームにアドバンテージを与えていないことになります。結局、どんな選手でもリプレイスメント・レベルと比べればポジティブな評価(正の値)となりますが、それだけでは誰がチームの勝利増加に貢献しているのかよくわかりません。すなわち、WARがプラスの選手達であっても、平均より劣っているのであれば、そういう選手ばかりで構成されたチームは勝率.500を下回る弱いチームなのです。

 平均基準を批判してリプレイスメント・レベルを正当化するときにしばしば「平均と比べると10打席で.510の選手が500打席で.499の選手よりも価値が高くなってしまう(Patriotはこれを”リプレイスメント・パラドックス”と呼んでいます)」ということが言われますが、平均対比でマイナスの値というのは「選手として価値がない」という意味ではありません。そういうことを言う人は意識的にか無意識的にか一定の基準に照らして負の値であることと「価値がない」という抽象的な表現を混同しているといえるでしょう(ちなみにBill Jamesですらそうした誤りを含む議論をしています)。

 トートロジカルですが、平均に比べてマイナスだというのは平均に比べてマイナスであるという意味しかなく、チームにとって大事な存在であり得ること、控えの選手と比べれば価値があることとは何ら矛盾なく両立します。その意味で前述のDave Cameronのような書き方は、分析の目的などの限定をしない限り、必ずしも説得的でないように思われます。暗黙にリプレイスメント・レベルを使うのが有用な状況を想定しているからリプレイスメント・レベルが有用だという結論が導かれるのです。

 Patriotも指摘していますが、考えてみると、「この選手はWARが+2.0だ」と言われてもだからなんなのか実はよくわかりません。複数年契約すべき選手なのか、トレードでもう少しいい選手を取りたいというレベルなのか、リプレイスメント基準は教えてくれないのです。このため一般的には「平均的な選手が1年出場した場合のWARは+2.0程度」といった知識を補うことでその優秀さを評価していると思われますが、これは平均基準を併用しているのと同じことです。

 結局、リプレイスメント・レベルとの比較で指標を出したとしても、もっと高い基準も使うことになるということでしょう。

 

6.複層アプローチと指標の実用

 最終的にPatriotは、レギュラー.530、バックアップ.430、FAT.350など複数の基準を考え、出場した打席数のうち最初の50打席はFAT水準との比較、次の150打席はバックアップ水準との比較、残りはレギュラー水準との比較……といったように多層的に比較を行う「複層」アプローチ("multi-tiered" approach)をひとつの選択肢として提示しています。分析者の好みや状況によってその能力水準や打席数の基準を調整することが考えられます。

 ここまでの議論を踏まえればたしかに説得的なモデルですし、このような複層アプローチをどのような状況にも対応できる「一般モデル」として考え、現状よく使われる最小基準はそれを便宜的に単純化したもの(全ての打席で最小基準と比較されるように設定したもの)というように解釈することもできるかもしれません。

 ちなみにレギュラー以外の集合を準レギュラー的な選手とFATの組み合わせと考えたとき、「レギュラー以外」をリプレイスメント集合とするKeith Woolnerの集計方法は、結果として部分的に連鎖を取り入れた現実的妥当性が高い計算である気もします。

 色々な考え方を見てきて、一口にリプレイスメント・レベルといっても最小、漸進的、連鎖的など様々な考え方がある上に、リプレイスメント・レベル自体も平均などの基準に照らして相対的なものであることが確認できたように思います。

 結局は分析の目的が何かということと、扱っている数字が何を意味する数字なのかの理解が重要であり「平均よりリプレイスメント・レベルを使うのが正しい」などと理論的に決まるわけでもなければ「リプレイスメント・レベルをこのように定義すれば”絶対的に正しい評価値”が出る」などということもないでしょう。例えば個々のチームの選手層を考慮した基準で評価するなども分析の目的によっては当然考えられるところです。

 私見としては「その計算法を採用した場合に指標がどう機能するか」という機能的な観点も重要だと考えます。というのも「プロ野球選手の才能は貴重で、一定水準の能力はそう簡単に得られるものではない」といってリプレイスメント・レベルを低く設定するのは簡単ですが、計算上リプレイスメント・レベルの水準は出場量(打席数・イニング数)にどれだけの係数を乗じるかの問題でしかありませんから、水準を下げるとWARはどんどん出場量に比例するだけの数字に近づいていきます。実際上、それでは分析をするときに有用な指標になりづらいのではないかと思います。

 Patriotの考察を踏まえると、リプレイスメント・レベル対比とは言いつつも人は(無意識的にであれ)他の基準も使う必要がありますし、実際使っています。最終的には「リプレイスメント・レベルといったときに本当に適切なのはどのような考え方か」を突き詰めることにあまり意味はないのかもしれません。分析の目的に応じて変えていけばいい話です。連鎖論のような議論も研究としては興味深いですが実践的には「実際に置き換えたときに何が起こるか」の描写にそこまでこだわる意味は薄いのではないかとも考えるところです。

 このことを逆から言えば、定義を突き詰めたところで唯一絶対の正解が出るわけではなく分析の目的に応じて考えるしかないのですから、とりあえずの基準としては一般的に納得しやすくてわかりやすいもので統一しておいて問題ないともいえそうです。2013年にFanGraphsとBaseball Referenceが水準の統一に至ったのはそのような感覚が暗黙にであれ共有されているからなのではないかと想像しますし、実際にそれは正しい選択だったと思います。もちろん、最小コストで得られる能力との比較を行う手法については、経済的な分析が行いやすいという現実的な利点もあります。

 

トップ > 分析・論考 > リプレイスメント・レベルの定義に関する議論

inserted by FC2 system