眼见不一定为实,数据不一定“不说谎”

数据从不说谎。1个进球就是1个进球,2次助攻就是2次助攻,3次抢断就是3次抢断。统计数据就在那里,永远都是不偏不倚。

但利用数据得出的结论经常骗人。射门转化率高的前锋就真的更能把握机会吗?创造机会多的中场就真的有更大的进攻贡献吗?抢断多的后卫就真的防守更好吗?今天,就让我们来好好聊聊那些关于足球数据的理解误区。

为什么数据会和现实冲突?

众所周知,这是一个属于大数据的年代。各种“15到30岁的人群平均每周花多少小时看直播/打游戏/看小说”的新闻层出不穷,广告里充斥着“连续N年销量领先”和“每十户家庭就有八户用XX”,明星们的微博粉丝和热搜数字直奔千万和亿级而去,就连你打开任何一个购物网站,首先看到的推荐商品都是根据你以往的浏览与消费而自动生成的。

但这些所谓的大数据都对吗?为什么有的数据看起来言之凿凿,却和我们日常生活里的所见所闻好像并不一致呢?

来,让我们先看几个有趣的例子。

案例一:德国一家全国性报纸曾经发过这样的报道,20岁以下的青少年自杀占到了全国自杀总数的25%,30-40岁的人占到了10%,超过70岁的老人自杀占比不足2%。因此他们得出推论,年龄越大自杀比率越低,我们随着年龄的增长会变得越来越容易找到幸福。

背后的故事:很快就有专业人士站出来吐槽了这家报纸,从总人数来说这样的数据没有问题,但忽视了各个年龄群体的总人数。实际上,随着年龄的增长自杀率反而会不断上升。德国20岁以下的青少年自杀率不到10万分之1,但70岁以上老人的自杀率则接近10万分之50。

这叫从片面数据得结论。

一叶障目,只站在一个位置自然只能看到一个角度,多几个角度的数据往往才能看到全貌。

案例二:特朗普2015年曾经发过一则图文推特,图上表示美国大部分凶杀案都是黑人犯罪,数据来源于“旧金山犯罪统计中心”。当时正值参选美国总统期间,他因为这条推特受到了很多黑人的强烈抨击。

背后的故事:这个什么“旧金山犯罪统计中心”压根就不存在,这是一条不折不扣的假新闻。

这就叫虚假数据。

就像某些流量明星发条微博动辄转发一两亿一样,疯的不是这个世界,而是相信这些“数据”的人。

案例三:1999年到2009年的十年间,美国上吊等窒息自杀的人数与政府的科研支出保持了惊人的同步增长,相关系数高达99.79%!这一定存在着某种不为人知的蝴蝶效应!

同一时间段,美国在游泳池溺死的人数也和尼古拉斯-凯奇参演电影的数量基本保持着同步变化,相关系数也达到了66.6%!这位曾经的影帝每多拍一部烂片,竟然就有更多的美国人会在后院结束自己的生命!

背后的故事:这两张图其实来自于一家专门嘲讽大数据的网站

15 Insane Things That Correlate With Each Other

图片制作者先是找出两组毫不相关但曲线相似的数据,然后强行把他们搭成一对。

这就叫从数据倒推出现象。

抛开观察谈数据,一切都是耍流氓。

在我们的生活中,这些片面分析数据、制造假数据、从数据强行倒推出现象的情况屡见不鲜,足球圈里同样如此。所以接下来,就让我们回去看看那些常见的足球数据,找找看有没有类似上文的理解误区。

射门转化率不一定等于效率

射门转化率是什么意思?拿进球数除以射门的总次数,得出百分之多少的射门最终转化成了进球。射门转化率更高的前锋,理论上可以用更少的射门取得更多的进球,这不明摆着就是效率更高吗?

很多人估计都是这么理解的。比如去年底,我曾经听过某位踢FIFA用时远超看球的友人(这个真不是内德)说了这样的一个观点:奥巴梅扬是英超射术最好的前锋。他的主要依据有两个:一是他在FIFA里用美羊羊的进球率远超阿圭罗、凯恩等人;二是当时有这么一个新闻,奥巴梅扬联赛射门转化率超过了30%,比任何其他球员都高出5个百分点以上。

第一点这里就不吐槽了,咱们重点聊聊第二点。这个数据其实是正确的,而且奥巴梅扬不仅当时的射门转化率高得惊人,整个赛季下来射门94次也打入了22个进球,23.4%的射门转化率在英超所有球员里排到了第四位。

可能有的阿森纳球迷已经感受到疑惑了,按理说射门转化率越高不是代表着射术越精吗,为什么在我们上赛季的观赛印象里,他明明就能出个超过十分钟的“吐饼”集锦呢?

这种印象其实也是正确的,请看英超官网发布的另外一项数据:球员错失绝对机会次数榜。在该榜单里,奥巴梅扬以单赛季23次“吐饼”笑傲群雄。

为什么会这样?

让我们回头看看射门转化率:进球数/射门次数。这只是一个简单的数据,毕竟门前三米面对空门是射门,在多人包夹防守里强行起脚远射也是射门。单看射门转化率,其实并无法准确衡量每一脚射门的难度和质量。如果单用这个数据来评断射术,那就犯了前文“片面数据得结论”的错误。

话题回到奥巴梅扬身上。众所周知,埃梅里麾下的阿森纳非常执着于这么一个进攻套路:倒三角。这种进攻套路里难的是如何从边路把球横敲到中间,门前抢到点之后的射门反而是相对简单的部分。因此,阿森纳在上赛季场均只有12.3次射门,在整个英超只排第11位。而他们创造了足足89次绝对机会排到了英超第5,比起射门总数多出自己71次的死敌热刺还要略高一点。

作为枪手的锋线头牌,奥巴梅扬射门转化率高也有部分原因是射门难度相对较低,而他错失绝佳机会如此之多也能从另一个方面证明他的射术并非顶尖。美羊羊无疑是一个非常优秀的前锋,但射门准度真的不是他最引以为傲的特点。

顺带一提,细心的球迷可能已经发现除了奥巴梅扬之外,威尔逊和瓦尔迪也同时出现在了射门转化率前十和错失机会前五的行列内,这也和伯恩茅斯前场逼抢凶猛、莱斯特城反击效率高,以及两队刀刃火力集中有着直接的联系。

至于错失机会很多但在射门转化率榜单上排不上号的拉什福德和热苏斯……这么说吧,拉师傅平均每90分钟能拿到0.8次绝佳机会,在曼联队内仅次于卢卡库;热苏斯每90分钟更是能有2次绝佳机会,比英超任何其他球员都多出至少50%,跑位能力简直达到了顶级巨星级别。

但他俩的绝对机会转化效率——分列英超六强锋线球员倒数第三和倒数第一。谁和他俩一起远远落后于其他前锋呢?莫拉塔。

创造机会到底是什么?

说完了锋线,我们再来聊聊中场。在评断进攻型中场的能力时,经常会看见这样的两个数据名词:创造机会(Chances Created)和关键传球(Key Passes)。单看字面意思,可能有些球迷会想到这样的画面:一记精妙直塞穿越对手防线,直接送到队友脚下形成绝对机会,也就是传说中的“烙饼”。

不过实际上,这两个词其实指的并不一定是多么精妙的传球,而是泛指形成射门前的最后一脚传球。Squawka等数据网站会把形成进球的最后一传列为助攻,没能形成进球的最后一传列为关键传球,两者相加为创造机会。Whoscored等数据网站则统称为关键传球,并没有创造机会的说法。

但不管采用哪种说法,反正关键传球并不一定真的很“关键”,创造机会也有可能根本就没有“创造”这一说。你在后场把球传给队友,他往前狂带30米重炮轰门,你都能在这项数据上+1。如果碰上某些神奇的队友,原地拨一下皮球都能变成创造机会或者关键传球,甚至还能“刷”出一次助攻。

当然,这个数据从微观上来说不一定能代表传球的质量,但从宏观角度还是可以说明顶级传球手的价值。2006年到2018年的12年间,欧洲五大联赛只有三名球员平均每90分钟创造机会的次数达到3次以上,分别是帕耶(3.06次)、托蒂(3.07次)和厄齐尔(3.5次)。

帕耶职业生涯始终没效力过太强的豪门,托蒂在统计开始的2006年都已经30岁了,各自有着让人佩服的地方。而厄齐尔遥遥领先的数据,足以说明谁才是真正的“欧洲饼王”。

但这个数据也有着一定的局限。比如球员A一脚精妙直塞打穿防线,两名队友反越位成功面对门将二打一,球员B轻松横传球员C破门。那么球员B会记上一次创造机会和助攻,真正重要的球员A那脚在常规数据统计只是普普通通的一次传球,没别的了。

因此,也有部分数据公司正在开发新的数据,比如射门前的倒数第二次和第三次传球。如果把射门前的最后1/2/3传加在一起除以出场时间,会有什么结果呢?2013年到2018年的5年间,英超这项复合数据的杠把子还是饼王厄齐尔,但还有一名球员以非常微弱的劣势紧随其后,两人遥遥领先其他球员。

大卫-席尔瓦。

不抢断也是好后卫

几个月之前,有一项非常受热捧的数据传遍足球圈:范戴克在2018-19赛季英超和欧冠联赛里没被人突破过。后来在利物浦和巴萨的首回合比赛里,虽然他依然没被任何人突破,但面对梅西等人带球基本只退守不上抢的防守风格,让部分好事球迷发出了“不抢断怎么被过”的评论,以及送上了一个“且战且退范戴克”的外号。

那么问题来了,不怎么抢断的后卫到底是不是好后卫?

先搬出两位传奇前辈来举个例子。在足球数据刚刚兴起的年代,分析师惊讶地发现了一个看似很不合理的数据:意大利后卫马尔蒂尼场均抢断只有0.5次。同样在那个年代,弗格森在数据狂助教麦克拉伦的建议下卖掉了斯塔姆,因为荷兰铁卫在脚踝手术之后场均抢断下降了几乎一半,俱乐部认为这代表着他再也回不到巅峰。

你说他俩算不算好后卫?

后来的分析师认为,这是因为他俩都有着丰富的经验和极其出色的选位,位置站好了别人根本就过不去,干嘛冒险去上抢?范戴克的“且战且退”也被认为是类似的道理,前锋们总是希望利用速度、盘带或者传球直接击败防守者,遇到跟随型反而会觉得更加棘手,随着时间的推移可以选择的处理球方式逐渐减少,心理素质不好的就会越来越焦急。

所以,才有了这种1V2的神级防守。

因此,当真不要太在意中后卫的抢断和拦截数据。有的中卫喜欢且擅长上抢,比如基耶利尼和德利赫特;也有的中卫属于拖后站位型,比如范戴克。这只是风格不同,并没有好坏之分。

更何况,按照足球战术的普遍发展方向,中卫作为门将身前的最后一道防线,除非万不得已一般不会被要求冒险上抢。不信你看下面这个英超2018-19赛季场均抢断次数的排行榜,前十不是后腰就是边后卫,没有任何中后卫的影子。

再举个例子,你猜谁是上赛季英超六强里数据最好看的中后卫?

答案是穆斯塔菲。这位阿森纳中卫在英超联赛里平均每90分钟有2.1次抢断,范戴克的1次还不到他的一半;有2次拦截,也接近于范戴克1.1次的两倍;有5.5次解围,超越范戴克的5.3次;还有0.6次封堵对方射门,依然力压范戴克的0.5次一头。

单纯从所有防守数据综合来看,穆斯塔菲的表现可以甩开范戴克好几条街,仿佛这才是堂堂正正的“世一位”。但是看过比赛的诸位,你们真的会这么觉得吗?

关于控球率的那些事儿

对于咱们这些中国球迷来说,看足球直播也真的是一件不容易的事儿。因为大部分比赛都在半夜,就算是铁杆粉丝,其实也很难要求他们绝不错过主队每一场比赛。更不用说五大联赛和欧冠的精彩对决这么多,必然会出现很多“一觉醒来”看看比分和新闻的情况。

在这种时候,也有很多人会扫一眼各项数据,从而对比赛场面有个大概的粗略了解。其中最重要的一个参考项目,就是控球率。

(图)巴萨无疑是高控球率的最杰出代表

那么,你知道控球率是怎么算出来的吗?

控球率=控球时间/双方控球总时间。所谓控球时间,指的是球在本方球员控制下,以及传球未被对方接触之前的时间。双方控球总时间为两者控球时间之和,也就是90分钟减去死球时间之后的净比赛时间。

实际操作里,有些数据公司使用了高速摄像机自动捕捉和计算控球时间、记录员剔除死球时间的“机器+人工”操作,也有些数据公司直接使用了纯手工录入每个起止点的传统方式,因此造成了同一场比赛不同数据网站显示控球率各不相同的现象。

而这个好不容易统计出来的控球率,就一定能概括场面上的谁优谁劣吗?

这个问题如果放在十几年前,答案是“能”。但放到今天,答案只会是“不一定”。

在控球率这一概念被数据公司推到舆论面前的初期,人们很快发现控球率越高的球队越有机会赢得比赛的胜利。这不难理解,你有更多的时间把球控制在自己脚下,自然会有更多的进攻机会去争取进球。2007-08赛季英超联赛里,控球率不超过40%的一方最终只赢下了19场比赛,可以说输掉控球权就约等于输掉了比赛。

但到了2015-16赛季,同样是控球率不超过40%的一方,其胜利场次已经达到了52场,比八年前的两倍还多。

那个赛季,莱斯特城以场均倒数第三的42.4%控球率和倒数第二的70.5%传球成功率,成为了反击制胜的最佳代言人。

国家队的大赛同样有着相近的趋势。2010年南非世界杯,控球率低于45%的球队赢下比赛的概率只有可怜的3%,西班牙式的传控足球达到了巅峰。但到了2016年欧洲杯,控球率低于45%的球队赢下比赛的概率已经疯涨到了30%,足足是六年前的十倍,葡萄牙改头换面的防反笑到了最后。

当然,我的意思并不是什么“传控已死反击当道”,控球率更高的球队一般情况下依然有着更好的场面和更大的胜率,尤其是在漫长的联赛里。但伴随着足球战术进一步走向多样化和复杂化、杯赛各队实力差距逐渐拉近,有更多的球队选择主动让出部分控球权,来换取更好的反击机会。这样的球队,进攻威胁未必就比主打控球的对手更少。

控球率的绝对意义,或许正在慢慢变淡。

写在最后

熟悉我的读者都知道,我大概是足球圈里最喜欢用数据的专栏作者(笑)。没错,作为一个曾经多年工作都在和财报打交道的人,我对“冷冰冰”的数字的信任程度,或许比知面不知心的活人还要更多一些。

但我个人在分析比赛时始终保持着一个原则,那就是:先看比赛得出观点,再去寻找数据来验证正确与否。因为水平有限和每个人的理解差异,可能有时我对一些数据的看法和部分读者所想的并不一致,但至少能说服自己。

数据不说谎,但千万不要迷信你看到的所有数据。

来源:知乎 www.zhihu.com

作者:羽则

【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。
点击下载