伊藤光登録抹消の説明に、ラミレス監督は捕手別防御率という数字を持ち出した。データ重視を公言する割には、データの基本的な取扱いに疑問を感じる。

ラミレス監督は試合後、故障の可能性について否定し「きょう捕手を1人抹消しないといけなかったので、マスクをかぶったときの防御率などを見て、残念ながら彼という決断をした」と抹消理由を説明した。


そこで、バッテリー別防御率を調べて以下のツイートをした。

ラミレス監督に限らず報道でも、「データ」として、球場別や対戦相手別などの数字が挙げられることは多い。しかし、そのような数字の精度にあまりにも無頓着なのが現状だ。

たとえば、エース今永が先発する試合のスタメン捕手は、最近3試合連続で戸柱。というのも、受ける捕手別の成績を見ると、戸柱の時が3戦全勝、防御率2.41。伊藤光の時が4試合1勝2敗、2.52。嶺井の時は1勝0敗、6.00となっているのだ。
正捕手1人は時代遅れ? DeNAラミレス監督は「捕手別投手成績」で徹底使い分け,宮脇広久,フルカウント,2020/08/12

戸柱の2.41と伊藤光の2.52は、差と呼べるようなものではないにも関わらず、そのことにはまったく触れず、ただ数字を並べるだけである。

以前、守備指標UZRの精度と扱いに疑問を持ち、「UZRの信頼区間を試算してみた」を書いた。その中で、
ただ、打率は見慣れているので、信頼区間を求めなくても混乱はほとんどない。

と記し、言及しなかったが防御率も打率同様に多くの人が経験的に精度を理解しているだろうと考えてきた。それを覆す記事を発見し、残念でならない。

残念な記事をこれ以上読みたくないので、防御率の信頼区間の求め方をお伝えする。ざっと検索した限りでは日本語でヒットするものはなかったので、本邦初かもしれない。

まず、扱う数字の性質によって、母平均の推定、あるいは母比率の推定のいずれかを選ぶ必要がある。
防御率式
自責点は投球回の一部ではない。よって、防御率は比率ではない。また、日によって点を取られたりゼロに抑えたりをならした数字が防御率である。平均といってもいいだろう。もう少しいうと、得られるデータによっては加重平均なのだが、深入りしない。

なぜなら、こちらの道には大きな障壁が存在する。投手は1アウトも取れずに降板することがある。分母に0が来てはお手上げである。前後の別のイニングに点を付け替えるなど検討したが、それはもはやデータの改ざんであり、抜本的な解決にはならない。

先ほど日本語でヒットしなかったと書いた通り、英語で検索したらやはり似たようなことを考えた人はいた。

In the end, I decided the simplest solution would be not to find the reliability of ERA, but of runs and earned runs allowed per batter.
訳:
最後に、私は最も単純な方法に行き着いた。防御率の信頼性を求めるのでなく、打者当たりの得点や自責点の信頼性を求めることにした。
A Long-Needed Update on Reliability,Jonah Pemstein,FanGraphs,2016/9/19
つまり、
打者当たり自責点式

こうなると、計算もはるかに簡単になる。先ほど防御率は加重平均であると述べたが、こちらは比率である。対戦した打者のうち、投手責任の走者として生還したものが自責点となる。素直に統計の教科書通りに信頼区間の幅を求め、最後に9イニングあたりに換算すればよい。

防御率信頼区間式


実際に計算してみよう。2019年セ・リーグ防御率ランキングに95%信頼区間を追加した。先発投手で1年間フル稼働しても、±0.5~0.6点くらいの精度にしかならないことがわかる。この範囲内の成績の変動なら、特段に選手の能力に変化がなくても十分に起こり得る。

打者 自責 防御率 95%信頼区間
1:大野 雄大 177 2/3 696 51 2.58 2.01 3.15
2:ジョンソン 156 2/3 650 45 2.59 1.96 3.21
3:今永 昇太 170    684 55 2.91 2.32 3.50
4:山口 俊 170    705 55 2.91 2.31 3.51
5:西 勇輝 172 1/3 702 56 2.92 2.33 3.52
6:青柳 晃洋 143 1/3 601 50 3.14 2.48 3.80
7:大瀬良 大地 173 1/3 712 68 3.53 2.94 4.12
8:柳 裕也 170 2/3 703 67 3.53 2.94 4.13
9:小川 泰弘 159 2/3 686 81 4.57 3.94 5.20

信頼区間の幅は 1/√n に比例する。つまり、サンプル数が4倍になると幅が半分になり、サンプル数が少なくなれば、幅は広くなる。先ほどの記事で紹介された今永・伊藤光バッテリーの防御率の95%信頼区間は、0.86 ~ 4.28 である。何かと比較できるような数字ではない。

データが意味をなすには相応のサンプル数が必要という当然のことを、球団の雇っているデータ分析の専門家が知らないはずはない。それでいて、ラミレスが知らないとすれば、ガバナンスに問題ありだし、知っているならば、取材記者をなめて煙に巻いていることになる。知っていて追及しない記者は転職した方がいい。今まで知らなかった記者がやることは、もう明らかだろうから言わない。


続きを読む