信頼区間 : すき間ベイスターズ

伊藤光登録抹消の説明に、ラミレス監督は捕手別防御率という数字を持ち出した。データ重視を公言する割には、データの基本的な取扱いに疑問を感じる。

ラミレス監督は試合後、故障の可能性について否定し「きょう捕手を１人抹消しないといけなかったので、マスクをかぶったときの防御率などを見て、残念ながら彼という決断をした」と抹消理由を説明した。
ＤｅＮＡ、正捕手・伊藤光が抹消　ラミレス監督「防御率などを見て残念ながら」，サンスポコム，2020/7/19

そこで、バッテリー別防御率を調べて以下のツイートをした。

すき間ベイスターズ@skimabaystars
#伊藤光登録抹消前までのバッテリー別防御率。対戦する打順の影響を減らすため、9人以上対戦に限定している。
そもそも、組む投手がほとんどかぶらない中で捕手別防御率という数字を比較に使うのは無理がある。

#baystars https://t.co/J00jpWYnxz
2020/08/02 10:54:54

ラミレス監督に限らず報道でも、「データ」として、球場別や対戦相手別などの数字が挙げられることは多い。しかし、そのような数字の精度にあまりにも無頓着なのが現状だ。

たとえば、エース今永が先発する試合のスタメン捕手は、最近3試合連続で戸柱。というのも、受ける捕手別の成績を見ると、戸柱の時が3戦全勝、防御率2.41。伊藤光の時が4試合1勝2敗、2.52。嶺井の時は1勝0敗、6.00となっているのだ。
正捕手1人は時代遅れ？　DeNAラミレス監督は「捕手別投手成績」で徹底使い分け，宮脇広久，フルカウント，2020/08/12

戸柱の2.41と伊藤光の2.52は、差と呼べるようなものではないにも関わらず、そのことにはまったく触れず、ただ数字を並べるだけである。

以前、守備指標UZRの精度と扱いに疑問を持ち、「UZRの信頼区間を試算してみた」を書いた。その中で、

ただ、打率は見慣れているので、信頼区間を求めなくても混乱はほとんどない。

と記し、言及しなかったが防御率も打率同様に多くの人が経験的に精度を理解しているだろうと考えてきた。それを覆す記事を発見し、残念でならない。

残念な記事をこれ以上読みたくないので、防御率の信頼区間の求め方をお伝えする。ざっと検索した限りでは日本語でヒットするものはなかったので、本邦初かもしれない。

まず、扱う数字の性質によって、母平均の推定、あるいは母比率の推定のいずれかを選ぶ必要がある。

自責点は投球回の一部ではない。よって、防御率は比率ではない。また、日によって点を取られたりゼロに抑えたりをならした数字が防御率である。平均といってもいいだろう。もう少しいうと、得られるデータによっては加重平均なのだが、深入りしない。

なぜなら、こちらの道には大きな障壁が存在する。投手は1アウトも取れずに降板することがある。分母に0が来てはお手上げである。前後の別のイニングに点を付け替えるなど検討したが、それはもはやデータの改ざんであり、抜本的な解決にはならない。

先ほど日本語でヒットしなかったと書いた通り、英語で検索したらやはり似たようなことを考えた人はいた。

In the end, I decided the simplest solution would be not to find the reliability of ERA, but of runs and earned runs allowed per batter.
訳：
最後に、私は最も単純な方法に行き着いた。防御率の信頼性を求めるのでなく、打者当たりの得点や自責点の信頼性を求めることにした。
A Long-Needed Update on Reliability，Jonah Pemstein，FanGraphs，2016/9/19

つまり、

こうなると、計算もはるかに簡単になる。先ほど防御率は加重平均であると述べたが、こちらは比率である。対戦した打者のうち、投手責任の走者として生還したものが自責点となる。素直に統計の教科書通りに信頼区間の幅を求め、最後に9イニングあたりに換算すればよい。

実際に計算してみよう。2019年セ・リーグ防御率ランキングに95%信頼区間を追加した。先発投手で1年間フル稼働しても、±0.5～0.6点くらいの精度にしかならないことがわかる。この範囲内の成績の変動なら、特段に選手の能力に変化がなくても十分に起こり得る。

	回	打者	自責	防御率	95%信頼区間
1:大野雄大	177 2/3	696	51	2.58	2.01	3.15
2:ジョンソン	156 2/3	650	45	2.59	1.96	3.21
3:今永昇太	170	684	55	2.91	2.32	3.50
4:山口俊	170	705	55	2.91	2.31	3.51
5:西勇輝	172 1/3	702	56	2.92	2.33	3.52
6:青柳晃洋	143 1/3	601	50	3.14	2.48	3.80
7:大瀬良大地	173 1/3	712	68	3.53	2.94	4.12
8:柳裕也	170 2/3	703	67	3.53	2.94	4.13
9:小川泰弘	159 2/3	686	81	4.57	3.94	5.20

信頼区間の幅は 1/√ｎに比例する。つまり、サンプル数が４倍になると幅が半分になり、サンプル数が少なくなれば、幅は広くなる。先ほどの記事で紹介された今永・伊藤光バッテリーの防御率の95%信頼区間は、0.86 ～ 4.28 である。何かと比較できるような数字ではない。

データが意味をなすには相応のサンプル数が必要という当然のことを、球団の雇っているデータ分析の専門家が知らないはずはない。それでいて、ラミレスが知らないとすれば、ガバナンスに問題ありだし、知っているならば、取材記者をなめて煙に巻いていることになる。知っていて追及しない記者は転職した方がいい。今まで知らなかった記者がやることは、もう明らかだろうから言わない。

守備指標としてUZR(Ultimate Zone Rating)が日本でも使われるようになってきた。DELTAとデータスタジアムが日本版を発表しているが、歴史の浅さゆえか、その結果の解釈には混乱が生じている。それも当然で、信頼性の検証としては年度間の相関くらいしかない。今回お届けするのは、不完全ながらUZRの信頼区間を求めるおそらく日本初の試みである。

UZRの信頼区間を求めるには、当然UZR自体の求め方を知る必要があるが、当事者のUZRの算定方法の説明は長すぎる。細かいことを省くと以下のようになる。

１．ある選手自身にかかわるプレイでのアウトにした割合を求める。
２．NPBあるいはリーグ平均との割合の差を求める。
３．割合の差に自身のプレイ数をかけて、アウト数の平均との差を求める。
４．アウト数を得点に換算する。

最初の段階では伝統的な野球の記録とやることに差はないことに注目してほしい。そして、統計的な検討、つまり、信頼区間を求めたり、有意差があるか検定したりするのはここしかない。実際に打率の信頼区間を求めたものは既にある。ただ、打率は見慣れているので、信頼区間を求めなくても混乱はほとんどない。しかし、セイバー系指標は状況が正反対である。精度や信頼性を様々な角度から検証する必要がある。

そこでUZRの信頼区間の出番である。UZRの信頼区間は以下のようにして求める。

１．標本サイズ＝打球の飛んだ位置や強さで分けられた各区分の打球数
　　標本確率＝アウトにした数／標本サイズ
　　として、区分ごとに信頼区間を求める。
２．誤差伝播の法則で各信頼区間を総合する。
３．併殺、失策などについても、同様に求める。

特に難しいことはないが、部外者となると話は別だ。現在UZR算定の基礎となるデータは公開されていない。それでも、入手できる限りのデータを揃え、足りないものは推定して計算していくことにする。

完全ではないが、データスタジアムが2015年の坂本（巨）の各区分別のデータを公表しているので、これを活用してみよう。

グラフィックで見る坂本勇人の守備範囲，佐々木浩哉，baseball lab，2016/02/15

このデータに次の仮定を加えれば、信頼区間を計算できる。

各ゾーンに均等に飛び、打球の速さの分布も等しく1:7:2である。

当然この仮定をした時点で実際の坂本の記録とは無関係なものになるが、今回の目的は信頼区間がどの程度の大きさになるかなのでご理解いただきたい。これを基に計算した総合の守備成功率は72.475％となった。この数字を使って、守備範囲に飛んだ打球の総数を求める。

打球式

この打球数を1.の仮定を用いて、各区分に分配する。

ゾーン打球式

強い打球の各区分では、標本数が10に満たない。このような場合は一般的な正規分布を用いた信頼区間の計算では精度が悪い。そこで、「Clopeer & Pearson(1984)の信頼限界」と呼ばれる方法で各区分ごとに信頼区間を計算する。

母比率の信頼区間の求め方　(２項分布)，堀　啓造

次に、アウト数を得点に換算する。これは単にかけ算するだけだ。
最後に、誤差伝播の法則によって、全体の信頼区間を求める。比較のため、全打球を一括で処理した場合の信頼区間も求める。その結果、
RngR信頼区間
-15.3、+12.3 細分化
-15.9、+14.9 細分化なし

という値が得られた。少しだが、細分化した方が信頼区間が狭まる、つまり、指標としての精度が上がっているが、大きく変わることはなさそうである。とはいえ、あくまで一例なので断言はできない。

失策（ErrR）、併殺（DPR）についても同様に計算するが、2015年の坂本では揃えられなかった。

ErrR信頼区間 -6.8、4.5 2009年巨人遊撃，日本版Ultimate Zone Rating（UZR）プロトタイプ
DPR信頼区間 -5.9、5.9 2015年菊池，DELTA　守備評価に対する基礎的な考え方

広島の二遊間の補殺の多さと高い併殺成功率のため、このDPR信頼区間は特殊な値になっているかもしれない。

今回はUZRの信頼区間の幅を知りたいので、特別にこの3つの信頼区間を統合してみる。その結果、

UZR95%信頼区間 -18、+15

となった。
つまり、このやり方で繰り返し信頼区間を求めたとすると、95％は区間内に実力のUZRがあるということだ。
話を単純化するために、ある選手の単年のUZRの値が正規分布し、±16ポイントが一般的な信頼区間として話を進める。
この時、±8以上実力から外れる確率が約33％もある。選手間の厳密な比較をするには有意差の検定が必要だが、少なくとも10未満の差で優劣をいうのは厳しいだろう。

この数字をWikipediaのUZR評価基準と比べてみよう。

UZR評価基準

ゴールドグラブ級 +15
優秀 +10
平均以上 +5
平均 0
平均以下 -5
悪い -10
非常に悪い -15

アルティメット・ゾーン・レーティング，Wikipedia

残念ながら、偶発的な誤差が実力差に劣らず大きいことがわかる。これだけノイズが載っていれば、UZRの年度間の相関が悪いのも致し方ない。従来から数年をまとめて見ないと信用できないとされているのもうなずける。精度を2倍にするには2の2乗で4倍のデータが必要になる。

当然、二遊間以外のポジションや控え選手、シーズン途中の指標は処理する打球が少ないから、さらに精度が落ちる。打球数の影響を見るために、内野手RngRの上側信頼区間と打球数の関係をプロットした。ただし守備の成功率は70％とし、打球の分別はしていない。

開幕数試合でのUZRに意味がないことや、出場の少ない選手を評価するには向かないこと、データの少ない選手の値を標準化すると誤差も拡大することを読み取っていただきたい。

また、指標の増減を体調と結びつけられるとする考えがあるが、それは言い過ぎである。そんな短期的なことを言える精度はない。UZR考案者が言っているのは、指標が加齢で低下する傾向があるという、もっと長期の話である。

このようにNPBのUZRはデータ数の問題により、偶発的な誤差が選手の技量差を覆い尽くしかねないほどに大きい。ちなみにMLBは年間総試合数で日本の2.8倍の規模があるため、信頼区間は日本の6割ほどに狭まると予測される。それでも、5ポイント差程度に意味を見出そうとするのはお勧めしない。
続きを読む