变革中的足球3——世界排名

变革中的足球——欧洲国家联赛

变革中的足球2——录像裁判

2018年世界杯已经过去多时,关于国家队足球的讨论话题也已逐渐淡出人们的视野(先不考虑略为鸡肋的国家联赛的话题)。实际上,2018年里除了世界杯(以及在世界杯上广泛推行的VAR),在世界足球界还有一项颇为重要,却没有引起舆论太多关注的变革——就在世界杯开赛前的几天,国际足联正式宣布,将全面改变从1999年以来开始使用的世界排名机制,颁布全新的世界排名算法。为什么FIFA要改变一套使用了十九年的排名制度?国际足球界的世界排名究竟是如何得到的?本文对这一话题做一个具体的讨论。

本文的相关知识,在这一篇文章中有一些背景科普式的介绍,有兴趣的读者可以看一下里面“动态排名”部分的内容。不看也不要紧,本文会对文中的一些概念作一些解释。

趣话体育——排名的科学

引言

谈论FIFA国际排名之前,我们首先要讲一讲这个东西在大众眼里究竟是个什么模样?

不用说也知道,在(中国)大众眼里,FIFA排名的最主要用途是拿来数落中国男足,至少我见过的段子就有:

①XX的表现跟中国队的排名一样稳定(烂)/中国男足的退步始终不让人失望/靠买中国男足的彩票就可以买房。

②中国男足的排名起码比中国人均GDP、人均收入云云的排名高。

③中国男足的排名是世界政治变迁的反映,苏联/南斯拉夫解体成N国中国队的排名就下降N位。

我为什么讨厌的这种“尬黑”式的段子,因为编这样的段子的人根本就不懂足球世界运转的机制,他们创作的唯一目的,仅仅是为了献媚于群众对中国男足的怨气,为自己博来一点可怜的流量而已。

但是,这的确反映了一个问题:FIFA排名在人们心目中又太“权威”,FIFA的这份榜单在世界范围内的影响乃至达到了与人均GDP排名一样的地位,以致大众对FIFA排名上的几个数字寄予了谜一般认可,乃至“玄化”(在全世界都一样)。体育界里另一个被谜之玄化、扩大化解释的是奥运会的金牌榜,对于这个问题请参考下面几篇文章:

【看奥运】金牌榜的背后

为什么印度作为世界人口第二的国家,奥运会成绩这么差?

本文的意义就是以2018年6月FIFA排名的改革为契机,对FIFA排名的性质、历史和缺点做一点介绍和分析,尤其希望破除大众对于这个排名的诸多误解。

FIFA排名的诞生

这一段的开始,我先明确声明,上面的段子③是纯扯淡——因为FIFA排名在1993年才诞生,而那个时候苏联、南斯拉夫早就解体了。1993年以政治独立为由加入FIFA的只有东帝汶、南苏丹、黑山、科索沃,只有黑山队的排名能超过中国队。

为什么FIFA要在1993年时创设世界排名?简单的答案是——为了给接下来的世界杯分组抽签划定种子。那么之前的世界杯分组抽签难道不需要种子吗?答案是需要。那个时候世界杯的种子是如何决定的?答案是由FIFA自己决定。

其实在上世纪90年代以前,体育运动的国际化都还是件相当稚嫩的事情,即便世界杯这个级别的赛事,在30年前还只像一个小圈子的内部交流会。在很长一段时间里,世界杯并不实行以球队强弱来预先划定“种子”的概念(实际上“种子”的概念也是从网球借鉴来的)。1978年以前,世界杯的分组抽签原则是按球队的地理位置分档,比如在1966年时,当时的抽签就是按“欧洲1、欧洲2、南美、世界其他国家”来组织的,但早年的“世界其他国家”在世界杯上形同虚设(亚非加起来就一个名额),实质欧洲还有两队被分到了第四档。

这段无种子抽签史的一个直观结果便是在1970年世界杯上,上届冠军英格兰与当届冠军巴西,也是按今天推算的当时世界头两号强队,小组赛竟然分到了一个组!同组还有当时全世界实力起码前6的捷克斯洛伐克。直到1978年,FIFA才在世界杯抽签中引入了最强球队回避,也就是简单的种子概念。82年世界杯扩军至24队后,当时的6个种子名额完全由FIFA内部决定,而且主要基于往届赛事成绩,但这套不透明的机制很快遭到了质疑。90年世界杯时,正处于三剑客时代、如日中天的88年欧洲杯冠军荷兰队,由于未能入围之前的82、86两届正赛而无缘种子,荷兰队无缘种子导致淘汰赛过早地碰到了最后的冠军联邦德国,使得范巴斯滕等一代英杰在世界杯上铩羽而归。

进入90年代,FIFA终于意识到了应该建立一套实时性的国家队排名系统,以为世界杯分组抽签提供一个令人信服的根据。同时,90年代也是足球的世界扩张进程的起始,足球开始大规模进军亚洲、非洲、中北美洲、大洋洲等以往的“次大陆”,FIFA也希望为足球运动的新势力提供一个有效的奋斗目标。1992年12月,FIFA试推行了首期世界排名;1993年8月,FIFA世界排名正式开始每月更新,持续至今。

排名的演变

不久前的一个叫“中国男足是不是一直在退步?”的问题里,有人翻出了FIFA网站上的历史排名图来说明,中国男足确实是一直在退步。单看这幅图,尤其是图的左半部分倒没错。但是,明明2001年十强赛出线是中国队的史上最高峰,为什么那时的中国队比90年代中期还弱?

答案是,因为90年代最早的FIFA排名没什么参考价值。在1998年12月以前,FIFA排名的计算方式就是:胜3平1负0,只是考虑了一个浮动时间窗,换言之就是在过去的n年间,这支队赢/平了几场而已。这自然导致同分的球队极多,而且积分的多少纯粹是看一支球队比过多少场。

90年代前到中期,亚洲国家尚没有留洋球员,联赛也相当简单,这使得当时亚洲国家之间非常喜欢打友谊赛。中国队“恐韩”的重要原因就是当时中韩两国几乎每年都要打一次友谊赛,而中国队是真的被韩国按着打。98年底中国队飙升至史上最高的37位,主要原因只是96~98年间,中国队平均一年能打15场国际A级赛事,包括那时被算作友谊赛的亚运会足球(99年排名骤降的原因也是当年无世预赛且要组国奥,导致国家队全年没打一场A级赛事)。在实行国际比赛窗制度后,一支国家队一年里能自由安排的最多也就10场。而且当时由于世界杯预选安排过于简单,世界排名的末端存在着大量根本没打过几场比赛的“僵尸”球队,所以那个时候靠前的排名的确是有很大水分的。

1999年时,FIFA第一次改革了世界排名算法,引入了一套一直使用到2018年6月的计算框架。99年算法的基础仍是310积分机制,但对于每个3分或1分,要考虑对手排名、主客场、净胜球、比赛权重、地区强度五个附加因素。比赛权重指友谊赛、预选赛、洲际杯、世界杯等不同等级赛事的差别,地区强度则一般按大洲划分,通常欧洲和南美权重分大,其他大洲权重分低。同时,99年机制要考虑一个持续时间长达八年的浮动窗口,每一年的总分数按1、7/8、6/8……递减后加合成一队在当期的总分。

2006年,FIFA简化了99年的算法,将浮动窗口由八年缩减为四年,以更好反映球队近期的变化。同时也取消了主客场和净胜球的因素,一场比赛只考虑胜负、对手排名、赛事权重和区域强度。这个算法最终得以稳定推行,并逐渐成为了从世界杯到各大洲杯赛分组抽签的准则(只有欧足联在自己的欧洲杯上不采用FIFA排名)。

排名困境

写到这里,我们暂且重新思考一个问题——给全世界的所有国家建立一个总排名的难度在哪儿?

最大的问题就是——比赛的样本太少,而且比赛样本太“偏”。国家队足球的基本组织秩序依赖于FIFA旗下的六大洲际足联,而最具分量的A级赛事几乎只来自各洲内部的洲际杯和世界杯预选。不同洲国家队交手的数据只有四个来源:世界杯正赛、世界杯洲际预选、联合会杯和友谊赛。其中前三者的样本都很有限,而且都只能反映到一个大洲最强的几队。友谊赛本身的权重很低,效果不一定好。

比如,在亚洲内部,日本队强于越南队在统计上没有争议,但日本队和欧洲的罗马尼亚队相比呢?越南队和非洲的马达加斯加相比呢?前者结合日本和亚洲顶级队伍在世界杯和联合会杯上的成绩,可以说大致在同一级(但实际上日本队排名长期都不如很多欧洲中下游国家)。可是越南队和马达加斯加队怎么比?更关键的是,日本队这样洲际领先的队伍只是少数,全世界国家队里这些“吊”在中下游的队伍才是主流,基本上,FIFA排名60位以后、且不同大洲的国家队间就已经缺失了互相对比的依据。

旧FIFA排名的问题,只要把当时各国的实际分数做成图就可以清楚看到(如下图所示)。民众认识的排名,自然是1~200这样线性的分布,但实际计算的积分,在前60和60名之后的区间内差距极大,前60名近乎指数增长,60名之后却变成了线性。比如在06~16这一段中国足球的低谷期,中国队的排名时常如过山车般上下游走,原因就是在中国队的实力范围(70~90)内拥挤着极多的非洲、中北美中游国家,中国队的每一场比赛(乃至压根不比赛)的结果,都会引发一堆同位置国家间的连锁反应。

造成旧排名算法如此不公平的一个重要因素,是算法里的“地区强度”指标。旧算法直接人为地定义:对阵欧洲、南美的对手,就是比对阵亚洲、非洲、中北美、大洋洲的对手得分多。然而,由于欧洲和南美国家的国际比赛日程基本被洲际杯、世界杯预选赛占据,这个定义实际上成了:欧洲和南美国家的内部比赛就比其他大洲“值”,哪怕对的是卢森堡、列支敦士登等国。在不同大洲之间交流相对困难,大多数时候只能靠友谊赛的情况下,“地区强度”看起来颇有“阶级固化”意味。尽管FIFA提出了根据世界杯表现修正地区强度系数的方案,这依然是治标不治本。

失控

时间到了2000年代后期,当中国国家队陷入史上最黑暗的低谷,FIFA排名已经基本沦为编段子工具的时候,FIFA排名自身的问题也开始暴露。

首先被世界体育媒体注意到的是一些国家异常的高排位,比如2006年时美国队飙升至世界第4,2008年时从未打进世界杯、欧洲杯决赛圈的以色列队莫名攀升至世界15名,这甚至连该国国内媒体都难以置信。但当时显然已经有人注意到——FIFA排名是可以操纵的

到2010年代,操纵FIFA排名已经基本不是什么秘密,尤其是对于实力在欧洲、南美中游,但有幸蒙受“地区强度”便利的国家而言,靠赛程安排占排名的便宜,这套伎俩的操作方式近乎可以白纸黑字地写出来——数学博弈论高手成了比场上球员还有用的人员。后来的结果便是:大赛正赛成绩平平的瑞士队长期高居世界前十,仅崛起两三年、14年世界杯只是打进八强的比利时在15年奇怪登顶世界第一,无缘数次大赛的罗马尼亚“算”出一个世界杯预选赛小组种子,后来它又被波兰队利用,“赚”来一个世界杯的种子(当然最后它们还是聪明反被聪明误)。

当时排名为什么能够被操纵?简单地说,因为友谊赛和平均数。当时一些人发现,每一期FIFA排名计算的实际是12个月内所有积分的平均数,并且每次会排除四年前同期的一组数据。那么,如果当期比赛获得的分数太少——比如打赢了一场对弱队的友谊赛,你的平均积分反而会减少,也就是,你赢球居然会吃亏!但是,你打友谊赛,也许无论胜平负你都吃亏,可你啥都不做,效果却是个bug——你一年内的“平均分”会显著提高。于是,排名的漏洞基本已经汇成一句话——少打友谊赛。对一支欧洲的中游队伍,每年有10场国际比赛空间,其中只有一半需要打预选赛。博弈论高手的作用便是计算出这剩余5场左右的空间里,打几场友谊赛、打谁的收益更高。当然,他们能够这么做,另一个原因是很多没“投机”的队伍老老实实打友谊赛却被漏洞坑而已。

排名问题的发酵来自2014年世界杯灾难般的分组抽签。2010年之前,世界杯分组确定种子时仍需要考虑球队过去两届的表现。在2006年世界杯抽签时,状态非常好、世界排名前三的荷兰队(又是荷兰队)因为02年时没打进而无缘当届的种子,导致06年正赛和阿根廷同组,淘汰赛又与葡萄牙刷牌,整个颇为悲剧。于是在后来的南非世界杯,FIFA决定将分组抽签改为只看正赛前一年10月的世界排名(11月的洲际附加赛不计入)。

然而不巧的是,10年代正入了博弈论高手的下怀,2013年10月期颁布的世界排名榜单可谓“亮瞎”,最后选出的世界杯种子是,东道主巴西、西班牙、德国、阿根廷——到这还正常——然后是,哥伦比亚、比利时、乌拉圭、瑞士……也就是,上届亚军荷兰,12年欧洲杯亚军意大利,居然都不是种子!哥伦比亚和比利时的账面实力尚可,但哥伦比亚98年后三届都没打进,比利时在02年世界杯后就没进过任何一届世界杯和欧洲杯,仅在短短两年间,这两者就从一介无名之辈跃升至世界前八。更荒谬的还是乌拉圭和瑞士,乌拉圭在没有巴西的南美区预选堪堪打出个第五,从未取得过成绩的瑞士更是莫名其妙。问题是当时FIFA选了八个种子,却仍把剩下球队按大洲分档,还因为欧洲的档位过剩,从欧洲区抽了个冤大头(意大利)到其他档。最后,乌拉圭、意大利、英格兰同组,西班牙、荷兰、智利同组,哥伦比亚、比利时、瑞士则占尽了便宜。

到2018年世界杯,波兰队故技重施,赚来了2017年10月份排名的世界第六,成功套出了正赛的种子,这一下FIFA排名的漏洞终于让全世界都看到了——包括FIFA自己。当然,在这之前就有人猜测排名的漏洞是FIFA有意为之——毕竟人家FIFA总部就在瑞士,而瑞士在FIFA排名中占便宜极大(瑞士在俄罗斯世界杯的抽签上差一点又挤掉最后的冠军法国成为小组种子)。但在17年底,FIFA终于还是决定将重新审查现行的排名机制,并很快决定于18年世界杯后推行新算法。

旧算法的另一个缺陷是:由于大赛的东道主没有预选赛可打,它们在至少两年内的比赛权重分会非常低,而与四年前不做东道主时对比,它们的积分更会严重衰减。14年世界杯东道主巴西缺席南美区长达三年的预选赛,导致一度落到了个史无前例的22名。18年东道主俄罗斯本来就不是强队,办一次世界杯更是把自己整到了60名开外,即便18年正赛成绩不错,俄罗斯如今也才勉强升到40来名。

等级分

到这里你应该会问:对于世界足球排名这种地区隔离性强且样本数量不多的问题,有没有能从数学上解决、至少是防止被钻空子的方法?起码,我们得解决旧式排名算法最荒谬的三个问题:地区系数歧视、赢球吃亏、坑大赛东道主。

答案是确实有,对于动态性排名,目前比较受认可的排名方式,便是1970年匈牙利数学家Arpad Elo发明的Elo积分算法。你可能没听说过Elo算法,但如果你玩任何竞技性游戏,你就一定会和Elo算法打交道,因为它是竞技游戏中最普遍的对手匹配和等级排行机制,它保证了你每一局游戏都可以匹配到与自己实力接近的对手,而你也知道自己的实力在全世界玩家中处在什么等级。

Elo积分的机制在此文中有详细介绍趣话体育——排名的科学(“等级分系统”一节),它的原理简单地概括成三条:

  1. 参加排名的所有选手的实力服从一个统计学的分布;
  2. 对于每场比赛的参赛者,他们获得的实际分数,是他们对阵的实际结果与根据统计得到的“预期结果”的差值。
  3. 上述差值可以是正数也可以是负数,也就是参赛者可以得分,也可能被扣分。

根据Elo积分,所有排名者的分数会构成一个相对线性的趋势(也可能是其他趋势,由样本数量决定),也就是前面那幅图FIFA新排名系统所绘制出的形状。在这条线上,每一个分数阶段,自然就构成了一个个明确的阶级,这也就是所谓“爬天梯”的意义。

Elo积分最直接的效果就是:你要是一场比赛也不打,你的积分就一点也不动——你要已经有很高的分,即便你退役了,你在“天梯”上的荣誉就不会消失。这就直接解决了以往积分计算坑东道主的问题。

Elo积分的另一特征是:不需要设置时间。比如对于足球,它理论上可以从史上第一场国际足球比赛算起。但它的积分时效性仍然可以保证:我们可以通过调整参数,使得超过若干年之前的比赛对现在的影响微乎其微。而这是一个从根本上打击排名投机者的制度——旧排名的漏洞,很大程度就出自过去固定以四年计算的时间周期。

Elo积分最受推崇的,还是它“用实力说话”的准绳:强队虐弱队——双方都没分,强队无意义、弱队不吃亏;弱队爆冷胜强队,弱队分数大涨、强队分数受创;而要“爬”上天梯,最切实的操作,还是稳定战胜自己同档次的对手——不论它来自哪个大洲。

新制度

2018年世界杯之前,FIFA公布了新排名的算法,不出所料,这套新算法完全采用了Elo机制。具体的算法可参考此处:FIFA World Rankings

2018年世界杯之后的第一期新世界排名一直推迟到8月份才终于姗姗来迟。新排名里,世界杯冠军法国队如愿登顶,但仅过一月,就被三年前登顶过的比利时超越。15年的比利时几乎没有可靠的成果,当时的世界第一饱受“钻空子”诟病,而18年世界杯战胜了巴西并获得第三,这个超越还多少令人信服一点。

新世界排名也见证了一些新的变化:下半年霉运连连的德国队从榜首狂跌至第16,重现了03~05年间的低谷;世界杯时被媒体狂吹的冰岛队在欧洲国家联赛A档的一轮四连败后也被打出原形,排名骤跌近15位;世界杯之前靠漏洞爬到世界前七的波兰队,如今已跌到了20名。

从目前已发布的排名来看,以往40名外球队一期排名动辄变几十位的情况大为减少(旧算法在预选赛窗口经常出现一支球队一期排名暴涨/暴跌50多位的奇观),中国队的位置仍在比较客观的76位左右。

FIFA世界排名的历史,大概就是这么一部奇葩、荒诞,但如今起码走上正道的历史。我们回到开头提出的问题——公正地说,中国队应该从世界排名中学到什么?

正如Elo积分制度本身所设想的:

稳扎稳打,打赢与自己同级别的,排名自然会上升;挑战强大的对手,自己不会吃亏,还能得到宝贵的经验;

你运气好、钻空子获取了一时荣誉,要是没有足够的实力,你仍会被迅速打回原形;

最重要的是,输给实力不如自己的,后果会立刻、直接地写在排名上,令你蒙羞。

——所以,态度决定一切,这不愧为匈牙利数学家Arpad Elo的智慧。这也是刨除低劣的段子,我们真正该从FIFA世界排名中学到的真理

来源:知乎 www.zhihu.com

作者:宋宁世

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载