審判のバイアスをどう判定するか

 フィギュアスケートの審判のお国びいきについて今年のグランプリ(GP)シリーズ7回のデータを使って分析した記事で、判定の方法を変える訂正を行いました。半数ほどの審判にはお国びいき(同胞バイアス)があるという結論は変わりませんが、3氏に関しては表示上の扱いを変更しました。ここではその意図を説明します。

 2017/12/13 中日新聞電子編集部

出来栄え点の分布

 分析の対象は、ショートプログラム(SP)で7件、フリースケーティング(FS)で13件(女子は12件)ある演技要素それぞれについて、演技審判が決める出来栄え点(GOE)でした。GOEは-3から3まで7段階に分かれています。GOEは、9人のうち最高と最低を除いた7人分を演技要素の難度に応じてポイントに換算し、点数に合算されます。

 GPシリーズの全演技要素について、審判9人の評価の平均を求めると、以下のような分布になります。-3が多いのは、ジャンプに失敗した場合などに審判9人全員が-3をつけるからです。

 GPシリーズに出るのはトップレベルの選手ですから、GOEがプラスに偏っているのは当然です。

 記事では、各審判が「同じ演技を見た他の8人の評価の平均値からどれだけ離れているか」を計算し、その審判の「採点傾向」とみなしました。例えば、8人のGOEが1、0、−1、0、0、1、−1、0(=平均0)だった時に1を出せば、平均より1点甘いということになります。

 平均値の分布(散らばり具合)は、たいていの場合、正規分布と呼ばれる釣鐘状になります。ここで計算した「採点傾向」は、そんな性質を持つ平均値からの差ですから、同じような分布になると想定していました。

 ところが、そうではありませんでした。青い曲線は正規分布です。

 審判は、1や-2などの整数でしか評価できないために、「採点傾向」は中央部分に値が集中した分布にはならず、両側に広がってしまうためです。

正規分布ではないデータ

 各審判の採点傾向の分布は記事の最後に掲載していましたが、審判ごとのデータは少ないため、正規分布でないことに気がつきませんでした。データが正規分布でない以上、正規分布を前提として平均値の差を検定する「ウェルチのt検定」を使うことは適切ではありません。

 正規分布が想定できない場合に二つのデータの違いを検定する方法の一つに、順位和検定があります。二つが同じような分布なら、データを混ぜても順位が上位や下位に偏ることがないことを利用するテストです。

 以下の表は、記事で当初利用したt検定と順位和検定のp値を計算したものです。

 データ分析を記事にすることは欧米の新聞で始まっています。弊紙でもGPファイナルを機にチャレンジしてみました。ご意見やご提案をお待ちしています。