[R] – 数据解读足球的”主场优势”以及影响排名的因素

足球的主场优势体现在: 地利(场地熟悉, 没有舟车劳顿)人和(球迷亲人助威, 老板督战)

从各大联赛的主客场积分上也能明显体现出来,比如英超16/17赛季主客场积分:

几乎所有球队的主场战绩都要好于客场

———-

再看17/18赛季意甲积分情况

进球最多的拉齐奥只能排第5,失球过多应该是一个主要原因,但到底是什么影响到最终的排名呢?光靠眼睛看每个赛季的图表可能有点吃力

那么下面就讨论一下如何用R语言从五大联赛赛季排名数据中寻找规律并 验证主场优势 以及 影响最终排名的主要因素


从pearson相关性系数看,和积分(即排名)相关性较高的为主场净胜球、主场积分、客场积分;相对主场战绩和总积分的相关性更高

残差并非完全服从正态分布,检查了离群值大部分是垫底球队的数据(一些垫底球队的丢球数和积分实在有些离谱),这里暂时忽略掉


下面就从相关性最大的两个因素展开分析:

五大联赛2009~2018年所有球队积分+净胜球分布图(虚线表示平均值)

  1. 积分、净胜球均值51.14、0
  2. 客场积分、净胜球均值20.57、-7.39
  3. 主场积分、净胜球均值30.6、7.39

可见主场优势在数据上体现的非常明显
所有指标都呈现正偏态分布,偏离较大的数值基本都是各大豪门贡献,足球界的金元效应明显

————–

五大联赛2009~2018年前三名积分+净胜球分布图:

前三名净胜球均值主场是客场的2.08倍,但积分只有1.26倍;这说明了2点:
1. 想进入前3,客场拿分能力很重要
2. 即便是强队,在客场踢球会艰难很多
同时主场积分略微呈现负偏态分布,说明主场拿分能力是进入前3的最基本保障(44.43/(19*3) = 78%)

五大联赛2009~2018年冠军积分+净胜球分布图:

冠军净胜球均值主场是客场的1.76倍,积分1.21倍
冠军球队主场拿分率均值是恐怖的 48.29/(19*3) = 84.7%

五大联赛2009~2018年降级区积分+净胜球分布图:

降级区净胜球均值为-30.36,其中73%由客场贡献,积分主场贡献64%

换个姿势,以排名顺序看一下主客场的数据范围

关键几点

  • 主场优势显而易见
  • 冠军的客场净胜球至少是正值
  • 冠军的主场积分最少是40
  • 冠军客场失球数<=26
  • 前6的主场净胜球至少>=0
  • 前6的客场失球数<=35

以上可视化图标涉及的包为: highcharter, GGally

jbkunst/highcharterhttps://github.com/ggobi/ggally


本专栏只生产干货,喜欢请关注:

数据及可视化

来源:知乎 www.zhihu.com

作者:知乎用户(登录查看详情)

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载