A popular quantitative approach to evaluating player performance in sports involves comparing an observed outcome to the expected outcome ignoring player involvement, which is estimated using statistical or machine learning methods. In soccer, for instance, goals above expectation (GAX) of a player measure how often shots of this player led to a goal compared to the model-derived expected outcome of the shots. Typically, sports data analysts rely on flexible machine learning models, which are capable of handling complex nonlinear effects and feature interactions, but fail to provide valid statistical inference due to finite-sample bias and slow convergence rates. In this paper, we close this gap by presenting a framework for player evaluation with metrics derived from differences in actual and expected outcomes using flexible machine learning algorithms, which nonetheless allows for valid frequentist inference. We first show that the commonly used metrics are directly related to Rao's score test in parametric regression models for the expected outcome. Motivated by this finding and recent developments in double machine learning, we then propose the use of residualized versions of the original metrics. For GAX, the residualization step corresponds to an additional regression predicting whether a given player would take the shot under the circumstances described by the features. We further relate metrics in the proposed framework to player-specific effect estimates in interpretable semiparametric regression models, allowing us to infer directional effects, e.g., to determine players that have a positive impact on the outcome. Our primary use case are GAX in soccer. We further apply our framework to evaluate goal-stopping ability of goalkeepers, shooting skill in basketball, quarterback passing skill in American football, and injury-proneness of soccer players.


翻译:一种流行的量化评估运动员表现的方法涉及将观察到的结果与忽略球员参与度的预期结果进行比较,后者通过统计或机器学习方法估计。以足球为例,球员的“预期进球差”(GAX)衡量该球员射门导致进球的频率,与模型推导的预期射门结果相比。通常,体育数据分析师依赖于灵活的机器学习模型,这些模型能处理复杂的非线性效应和特征交互,但由于有限样本偏差和收敛速度慢,无法提供有效的统计推断。在本文中,我们通过提出一个框架来填补这一空白,该框架使用基于实际与预期结果差异的指标,采用灵活的机器学习算法进行球员评估,同时允许进行有效的频率学派推断。我们首先证明,常用的指标与参数回归模型中用于预期结果的Rao分数检验直接相关。基于这一发现和双重机器学习的最新进展,我们提出使用原始指标的残差化版本。对于GAX,残差化步骤对应于一个额外的回归,预测给定球员是否会在特征描述的情况下进行射门。我们进一步将提议框架中的指标与可解释的半参数回归模型中的球员特定效应估计联系起来,从而能够推断方向性效应,例如确定对结果有积极影响的球员。我们的主要应用案例是足球中的GAX。我们还将该框架应用于评估守门员的扑救能力、篮球中的投篮技巧、美式橄榄球中四分卫的传球技巧,以及足球运动员的受伤倾向。

0
下载
关闭预览

相关内容

体育,又称体育运动或简称运动,是人们遵循人体的生长发育规律和身体的活动规律,通过身体锻炼、技术、训练、竞技比赛等方式达到增强体质,提高运动技术水平,丰富文化生活为目的的社会活动。 「体育」原指在学校中开展的一项促进参与者身体发展的教学活动,现在由于其广泛使用,在日常生活中已不再和运动一词做明显区分。
事件抽取的再评价:过去、现在和未来的挑战
专知会员服务
25+阅读 · 2023年11月28日
深度学习在体育应用中的研究概览:感知、理解和决策
专知会员服务
39+阅读 · 2023年7月17日
《防空反导作战中心的多级指挥和控制性能评估概念》
专知会员服务
96+阅读 · 2023年6月30日
【AI+体育】机器学习在体育应用概述
专知会员服务
38+阅读 · 2022年4月17日
【干货书】预测原理与实战,Forecasting: Principles & Practice
专知会员服务
96+阅读 · 2022年4月11日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员