守備指標としてUZR(Ultimate Zone Rating)が日本でも使われるようになってきた。DELTAとデータスタジアムが日本版を発表しているが、歴史の浅さゆえか、その結果の解釈には混乱が生じている。それも当然で、信頼性の検証としては年度間の相関くらいしかない。今回お届けするのは、不完全ながらUZRの信頼区間を求めるおそらく日本初の試みである。

UZRの信頼区間を求めるには、当然UZR自体の求め方を知る必要があるが、当事者のUZRの算定方法の説明は長すぎる。細かいことを省くと以下のようになる。

1.ある選手自身にかかわるプレイでのアウトにした割合を求める。
2.NPBあるいはリーグ平均との割合の差を求める。
3.割合の差に自身のプレイ数をかけて、アウト数の平均との差を求める。
4.アウト数を得点に換算する。

最初の段階では伝統的な野球の記録とやることに差はないことに注目してほしい。そして、統計的な検討、つまり、信頼区間を求めたり、有意差があるか検定したりするのはここしかない。実際に打率の信頼区間を求めたものは既にある。ただ、打率は見慣れているので、信頼区間を求めなくても混乱はほとんどない。しかし、セイバー系指標は状況が正反対である。精度や信頼性を様々な角度から検証する必要がある。

そこでUZRの信頼区間の出番である。UZRの信頼区間は以下のようにして求める。

1.標本サイズ=打球の飛んだ位置や強さで分けられた各区分の打球数
  標本確率=アウトにした数/標本サイズ
  として、区分ごとに信頼区間を求める。
2.誤差伝播の法則で各信頼区間を総合する。
3.併殺、失策などについても、同様に求める。

特に難しいことはないが、部外者となると話は別だ。現在UZR算定の基礎となるデータは公開されていない。それでも、入手できる限りのデータを揃え、足りないものは推定して計算していくことにする。

完全ではないが、データスタジアムが2015年の坂本(巨)の各区分別のデータを公表しているので、これを活用してみよう。

グラフィックで見る坂本勇人の守備範囲,佐々木 浩哉,baseball lab,2016/02/15

このデータに次の仮定を加えれば、信頼区間を計算できる。


  1. 各ゾーンに均等に飛び、打球の速さの分布も等しく1:7:2である。



当然この仮定をした時点で実際の坂本の記録とは無関係なものになるが、今回の目的は信頼区間がどの程度の大きさになるかなのでご理解いただきたい。これを基に計算した総合の守備成功率は72.475%となった。この数字を使って、守備範囲に飛んだ打球の総数を求める。

打球式

この打球数を1.の仮定を用いて、各区分に分配する。

ゾーン打球式

強い打球の各区分では、標本数が10に満たない。このような場合は一般的な正規分布を用いた信頼区間の計算では精度が悪い。そこで、「Clopeer & Pearson(1984)の信頼限界」と呼ばれる方法で各区分ごとに信頼区間を計算する。

母比率の信頼区間の求め方 (2項分布),堀 啓造

次に、アウト数を得点に換算する。これは単にかけ算するだけだ。
最後に、誤差伝播の法則によって、全体の信頼区間を求める。比較のため、全打球を一括で処理した場合の信頼区間も求める。その結果、
RngR信頼区間
-15.3、+12.3 細分化
-15.9、+14.9 細分化なし

という値が得られた。少しだが、細分化した方が信頼区間が狭まる、つまり、指標としての精度が上がっているが、大きく変わることはなさそうである。とはいえ、あくまで一例なので断言はできない。

失策(ErrR)、併殺(DPR)についても同様に計算するが、2015年の坂本では揃えられなかった。

ErrR信頼区間 -6.8、4.5 2009年巨人遊撃,日本版Ultimate Zone Rating(UZR)プロトタイプ
DPR信頼区間 -5.9、5.9 2015年菊池,DELTA 守備評価に対する基礎的な考え方

広島の二遊間の補殺の多さと高い併殺成功率のため、このDPR信頼区間は特殊な値になっているかもしれない。

今回はUZRの信頼区間の幅を知りたいので、特別にこの3つの信頼区間を統合してみる。その結果、

UZR信頼区間式


UZR95%信頼区間 -18、+15

となった。
つまり、このやり方で繰り返し信頼区間を求めたとすると、95%は区間内に実力のUZRがあるということだ。
話を単純化するために、ある選手の単年のUZRの値が正規分布し、±16ポイントが一般的な信頼区間として話を進める。
この時、±8以上実力から外れる確率が約33%もある。選手間の厳密な比較をするには有意差の検定が必要だが、少なくとも10未満の差で優劣をいうのは厳しいだろう。

この数字をWikipediaのUZR評価基準と比べてみよう。

UZR評価基準

ゴールドグラブ級 +15
優秀 +10
平均以上 +5
平均 0
平均以下 -5
悪い -10
非常に悪い -15

アルティメット・ゾーン・レーティング,Wikipedia


残念ながら、偶発的な誤差が実力差に劣らず大きいことがわかる。これだけノイズが載っていれば、UZRの年度間の相関が悪いのも致し方ない。従来から数年をまとめて見ないと信用できないとされているのもうなずける。精度を2倍にするには2の2乗で4倍のデータが必要になる。

当然、二遊間以外のポジションや控え選手、シーズン途中の指標は処理する打球が少ないから、さらに精度が落ちる。打球数の影響を見るために、内野手RngRの上側信頼区間と打球数の関係をプロットした。ただし守備の成功率は70%とし、打球の分別はしていない。

RngR信頼区間

開幕数試合でのUZRに意味がないことや、出場の少ない選手を評価するには向かないこと、データの少ない選手の値を標準化すると誤差も拡大することを読み取っていただきたい。

また、指標の増減を体調と結びつけられるとする考えがあるが、それは言い過ぎである。そんな短期的なことを言える精度はない。UZR考案者が言っているのは、指標が加齢で低下する傾向があるという、もっと長期の話である。

このようにNPBのUZRはデータ数の問題により、偶発的な誤差が選手の技量差を覆い尽くしかねないほどに大きい。ちなみにMLBは年間総試合数で日本の2.8倍の規模があるため、信頼区間は日本の6割ほどに狭まると予測される。それでも、5ポイント差程度に意味を見出そうとするのはお勧めしない。
続きを読む