こんにちは、
らんそうるいです。この記事では、試合ごとに得点のばらつきが大きい選手━━ガチャ感のある選手のランキングを紹介しようと思います。私の勉強も兼ねて、得点の指標として「出場時間で得点を回帰した時の残差(以下、残差)のばらつき」と「1分あたりの得点のばらつき」を調べてみました。どちらのランキングの方がしっくり感があるか教えていただけると嬉しいです。
ガチャ感ランキング
残差に基づくガチャ感ランキング(上位10名・ガチャ感強め順)
| 安藤誓哉
| 田中大貴
| 河村勇輝
| 渡邉裕規
| 牧全
| 平尾充庸
| 松井啓十郎
| マックス・ヒサタケ
| ジャスティン・ノックス
| 石井講祐
1分あたりの得点に基づくガチャ感ランキング(上位10名・ガチャ感強め順)
| 関野剛平
| 太田敦也
| 小寺ハミルトンゲイリー
| 三ツ井利也
| 岡本飛竜
| 満田丈太郎
| 笠井康平
| 長谷川技
| 池田雄一
| 會田圭佑
ランキングの詳細
データセット
Bリーグ(B1)の2021-22レギュラーシーズン全試合x各選手を分析対象としました。指標の計算にあたって、各選手が10分以上試合に出場しているデータだけを抽出しました。残差の計算のための回帰分析はこのデータセットを用いて実行しました。その後、10分以上試合に出た回数が20試合以上の選手だけを絞り込み、ランキングを作成しました。
得点の指標:残差 vs.1分あたりの得点
選手の得点は出場時間が長いほど高くなる傾向があります。次の散布図は横軸に出場時間・縦軸に得点をとったものです。散布図は右上がりの一直線にデータが並ぶほど、出場時間が長いほど 得点も高くなる傾向が強いと読みます。散布図を確認すると、一直線とは言い難いものの、出場時間が長くなるほど得点も多くなることが確認できます。
出場時間(横軸)と得点(縦軸)の散布図
もう少し踏み込んだ話をします。出場時間が長くなるほど得点も多くなる、ということは得点のばらつきの一部は出場時間がばらついているせいで生じていると考えられます。そのため、ガチャ感を検証するためには、出場時間のばらつきによって得点がばらついている可能性を排除するのが理想的です。その方法として、残差を使う方法と、1分あたりの得点を調べる方法があり得ます。
まず、残差を使う方法について説明します。残差とは、この記事では出場時間で得点を予測した(回帰した)時の予測値と実際の得点のズレのことです。回帰分析では、出場時間で得点が完全に予測できる成分(予測値)と、出場時間では全く予測できない成分(残差)に分割することができます(これを直交分解と言います)。また、予測値はある出場時間が与えられた時の平均的な選手が記録する平均的な得点であり、残差は出場時間の割に得点が多かったか少なかったかを表す指標だと解釈することができます。結論として、残差は出場時間からは全く説明できないかつ、平均的な選手と比べた際にどれだけ得点を記録したかを表す指標です。
次に、1分あたりの得点を使う方法について説明します。1分あたりの得点は得点を出場時間で割った指標です。この方法も出場時間が1分だったら、何点得点を記録するかを表すものなので、出場時間のばらつきを揃えた上で得点がどれだけ記録したかを表す指標だと言えます。また、この記事ではしませんが、データセット全体の1分あたりの得点の平均値を、各試合x各選手の1分あたりの得点から引き算(これをセンタリングと言います)することで、平均的な選手と比べた際に、どれだけ得点を挙げたかを表す指標にすることもできます。
残差と1分あたりの得点はとてもニュアンスが似た指標だと思います。これらの指標によるランキングが似たものになるのか、それとも似つかないものになるかを調べるというのが、今回の私のお勉強です。
得点の指標について検討を行ったので、次にばらつきの指標について説明します。
ばらつきの指標:変動係数
統計学ではデータのばらつきの指標として、分散・標準偏差・変動係数が使われます。それぞれ説明します。
分散・標準偏差は「各データが平均値からどれだけ離れているか」の平均です。変動係数は標準偏差を平均値で割ったものです。今回のランキングの作成にあたって、変動係数を採用しました。
バスケでは、得点を多く取る選手とあまり取らない選手が存在します。分散・標準偏差は、平均が大きい選手ほど、高くなる傾向があります。これを示したのが次の散布図です。横軸が平均得点・縦軸が得点の標準偏差です。確かに、平均得点が高いほど、標準偏差も高くなる傾向があります。
残差の平均(横軸)と標準偏差(縦軸)の散布図
1分あたりの得点の平均(横軸)と標準偏差(縦軸)の散布図
標準偏差がガチャ感を表す程度でありかつ平均得点の大きさを表す指標でもあることから、標準偏差のランキングにはガチャ感以外のノイズが含まれてしまいます。これを補正するために平均得点と標準偏差の比をとってフェアな比較を目指しました。
残差の変動係数 vs. 1分あたりの得点の変動係数のランキングの比較
残差の変動係数と1分あたりの得点の変動係数の関係を示したのが次の散布図です。
1分あたりの得点の変動係数(横軸)と残差の変動係数(縦軸)の散布図
縦軸が残差の変動係数・横軸が1分あたりの得点の変動係数です。散布図を確認すると、二つの値の関係は弱いことが分かりました。