谁的作用大?渣团西甲联赛数据分析第二季!已加入权重建模-申精

赛季要过完了,只凭借印象,大伙都在说达尼洛是坑,贝尔效率高,巴斯克斯超级替补,哈梅斯虐菜防守软,还原后的数据究竟如何,各个球员参与球赛后对比赛结果的总体趋势影响是什么?我们来看看应用本赛季西甲数据做的统计分析吧
前言:自己是学理工的,突然想用纯理性的思维去分析下球员对球队的影响。所以收集了渣团本赛季至今所有联赛的进球及球员出场做模糊性的分析,类似于阿尔法狗的判断,是基于统计概率的,各位有兴趣可以继续看。另外,只有深爱皇马的球迷才会费劲来建模、搜集数据、计算、分析,请各位尊重我对皇马的热爱,有问题可以随意提出,我会随时根据大家的建议对某个球员或者数据进行计算,甚至更科学的引入建模的数据。不过最好不要撕逼和乱喷,这个帖子是个理论贴,不是引战贴。上一版我做了不带强弱队权重的数据分析,第一季的链接在这里,各位可以看看http://tieba.baidu.com/p/4536973245?pid=89342609657&cid=0#89342609657。第二季分析已经引入了加权建模,更加科学合理了
第一步:建模
我的思路是,抛弃杂质数据,直扑比赛结果。抢断、角球、跑动距离、控球率、射门次数等等等等,都是过程数据,过程数据维度众多,然而所有的过程数据,都是为比赛结果服务的,最终导向了比赛的进球以及失球。所以,我只用进球和失球来衡量某个阵容、队员对球队的贡献。无论球队的进球是谁进的,谁助攻的,无论失球是哪个后卫或者中场的锅,只看当时场上奔跑的10个人都有谁(卡西利亚出场较少且发挥也可以未纳入差异统计)。通过统计15-16西甲赛季至5月8日打巴伦西亚的比赛,精确计算每一个队员的上场时间,以及该队员在场时期新增的进球及失球。每一场比赛基本都被切成了4个阶段,首发阶段、第一替补上场、第二替补上场、第三替补上场四个阶段分别统计时间、阵容以及得失球。


第二步:加权
每场比赛对阵的队伍不同,对阵马竞的进球难度和对阵莱万特的肯定有所差异,而两套防线同样时长内各被巴萨和赫塔菲打入1个球的话,就认为被赫塔菲打入一球的防线相对更菜一些。有了这个思路,那么就要制定计算方法了。我的方法是统计本赛季西甲所有队伍的得/失球,再和联赛平均值相比计算进球权重和失球权重。例如隔壁赛季至今进球109,失球29,而西甲联赛平均进失球为50.55,那么我们可以看出来,隔壁攻击力强于西甲平均水平,防守能力高于西甲平均水平。对隔壁进球后加权的系数是50.55/29=1.74,也就是说进隔壁的球比进西甲平均水平难,进一个相当于进西甲平均水平球队1.74个;对隔壁失球后计算的加权系数是50.55/109=0.46。失球防守难度系数比较难理解,例如对隔壁失球后计算的加权系数是0.46,也就是说虽然有一个防守阵容对巴萨丢了1个球,但实际他的防守能力是对西甲平均球队丢0.46个球。由于欧冠球队不在西甲体系中,所以本次为了加权,舍弃了欧冠的数据,本次只统计西甲联赛。


第三步:计算统计
将建模后每名球员参与的所有比赛的在场时产生的比分加权后做西格玛累加,统计出每一名球员本赛季至今的上场时间,以及在场上时期球队的加权后进球及失球,再除以总时间*90分钟,计算场均加权数据。得出以下数据
1、出场时间:可以看出总裁真心是劳模,第二劳模克罗斯,伊斯科本赛季西甲联赛时间甚至比贝尔还长


2、场均进球数据:代表了各位队员在场上时候加权后的进球数,衡量每一名球员对进攻端的贡献。不用质疑C罗处在队内中游。因为C罗参与了基本全部西甲比赛,所以肯定会处在统计学的中游水平,将来对球员单体分析才会有明显差异。这个以后再说。需要注意的是有进攻属性的球员,巴斯克斯、卡瓦哈尔、本泽马数据都高于队内平均水平,说明有这几个队员参赛时,皇马的进攻打的会比较好。


3.场均失球数据
这个数据衡量了球员对防守端的贡献。失球从低向高依次排名,可以看到有大傻、巴斯克斯、伊斯科、魔笛的时候,场均失球加权后较少。这也与一般我们的概念一致,这几个队员都属于拼抢积极的队员。需要特别指出的后4名上场时间超过1000分钟的球员(小沙皇样本过小不予统计),场均失球均大于1,包括哈梅斯、佩佩、达尼洛、克罗斯,除去大师,基本与人们印象一样。对于哈梅斯,印象中防守就比较弱,这次加权后的统计印证了这一点,他的各项指标均处于队内下游位置。


至于佩大师的防守数据,可能有人会质疑这种统计的科学性。虽然我很认可佩大师的防守,然而确实数据如此,各位可以看一下佩佩失球的场次,上场时间都不多,从来没有打满90分钟就有失球。所以影响了数据,而且达尼洛在旁边和佩佩同时在场很多,怀疑达尼洛和佩佩会很坑。后续我将计算后防天团各种组合。


4、场均净胜球
这个数据代表了球队胜利的可能性。可以发现,大傻、巴斯克斯、卡塞米罗、本泽马、贝尔名列前茅,有他们就有净胜球的保障,而哈梅斯的数据在出场1000+时长的队员中垫底。


5、虐菜指数
这个数据比较有意思了。因为我上一季没有做强弱队的权重,计算了一次不加权的场均进球、失球。这次加权后发现数据排名确实变化较大。很多球员在的场次进球虽然多,然而进的都是防守弱的队,对阵强队无良好表现。如何体现这个感觉?我引入了虐菜指数。虐菜指数=未加权的场均进球/加权后的场均进球,同时做了一个排名。可以看到皇马全队基本都大于1,所以渣团确实是打防守弱的队进球比率更高,这也是正常的,估计隔壁也一样。看看C罗的指数处在队内中下游就知道了,C罗并没有虐菜,贝尔相对来讲打弱队进球比率更高。此外,上场时长超过1000分钟队员,虐菜指数最高的,还是哈梅斯。这就说明相对其他人来讲,哈梅斯在打弱队时更适宜上场,全队数据会更好,大概因为防守强度低的原因吧。


基本的统计信息到此结束。后续将上每一个球员上场和不上场,全队的数据对比。比这种平面化的统计更具备说服力,敬请关注!

楼主 yatail  发布于 2016-05-10 20:58:00 +0800 CST  
可能有人说我做的不科学,不合理。请不要着急,这只是最初阶段的整体数据展示,后续会有单体球员的数据分析,以及几种组合的分析。例如看看达尼洛加哈妹的组合是否是防守大坑,BBC组合是否强于C罗+巴斯克斯+赫塞等等,我都会一一计算

楼主 yatail  发布于 2016-05-10 21:03:00 +0800 CST  
@不想填用户名ok

楼主 yatail  发布于 2016-05-10 21:08:00 +0800 CST  
需要指出的是C罗的所有数据都属于中庸,而实际远非如此。这是由于C罗上场时间基本等同于全队导致的,C罗的数据就是全队的平均数据,或者可以说,全队的进攻数据或许因为C罗而上升了一个档次。这个不好计算,只能用C罗在场和缺席的两个样本进行比较,而C罗缺席的比赛样本过少,容易失真。不过我也会算一下的

楼主 yatail  发布于 2016-05-10 21:16:00 +0800 CST  
@xiao哀哀

楼主 yatail  发布于 2016-05-10 21:53:00 +0800 CST  
现在开始上猛药,准备一轮对位比较。看看谁的上场 下场对队伍的影响较大,更有说服力的数据来了

楼主 yatail  发布于 2016-05-10 22:45:00 +0800 CST  
一、锋线球员比较


通过上图我们就会发现谁是皇马锋线的真神。第一阶段整体统计发现C罗在队内数据中庸,然后那是C罗参赛时长较大,拉升全队数据的原因。本赛季C罗未出场的西甲场次有打巴列卡诺3:2,皇家社会1:0,巴伦西亚C罗下场后是0:1,根据数据分析,C罗未出场皇马的净胜球为0,出场的净胜球是1.84。这是很可怕的数据,也就是说C罗实质上是带有近乎2:0先天属性的。想想打曼城首场C罗未出场就是以0:0收场的吧。希望下赛季C罗轮换的场次稍微多点,这样样本大可能统计结果更为精确。
锋线上还计算了贝尔、本泽马、巴斯克斯,他们的出场均能提升攻击属性,此外,巴斯克斯的防守属性更为突出,这或许也就是曾经贝秃竟然让他打过后卫的原因。

楼主 yatail  发布于 2016-05-10 22:55:00 +0800 CST  
二、下面说说后卫线。皇马的后卫线功能很强大,除了防守,还有两翼齐飞助攻的作用。后卫线先看看各位关注的两个飞翼再加漏哥。


可见卡瓦哈尔和马塞洛上场都是正能量,尤其是大傻的数据,场均失球及进球在上场后均有进步。马塞洛不如大傻优势明显,也还可以。再看看达尼洛,由于他主要和大傻对位,两人互换,所以大傻的数据反过来基本就是达尼洛的数据,我不做任何评论,各位看看就好。

楼主 yatail  发布于 2016-05-10 23:02:00 +0800 CST  
三、中场球员
其实一直比较喜欢哈梅斯,做完这个数据,才发现哈梅斯这赛季的状态真是很不理想,目前卡塞米罗是中场的关键。哈梅斯上场以后,场均进球及失球数据均不如意,净胜球下降显著。卡塞米罗上场后对比优势明显。令我感到意外的是魔笛和克罗斯个人对比数据均不理想,我也在思考这套模型可能存在的问题。


楼主 yatail  发布于 2016-05-10 23:07:00 +0800 CST  
暂时对以上数据进行一下分析。按每个队员上场与否对比赛比分的关联来看,皇马阵中明显的正相关队员是C罗,大傻,卡塞米罗和巴斯克斯。其中如果上场,C罗对进失球数据都有显著改良,大傻对防守端作用相对更大,卡塞米罗和巴斯克斯对进球失球都有一定改善。再看看队中上场后对数据有负相关的几个队员,克罗斯,哈梅斯,达尼洛。这几个队员登场后,克罗斯对进攻防守数据均有大幅降低,尤其是按比例计算,克罗斯登场后球队的场均失球增加了一倍以上。哈梅斯的数据对比也不理想,上场后进攻防守两端场均数据下滑。达尼洛上场后进攻稍强,然而防守端增加0.43场均失球,按比例增长66%。因为皇马的进攻火力比较充足,主要考虑这三名球员对防守端的不足,可以得出统计概率,就是这三名球员在场的话,球队丢球概率很大,尤其是打进攻强的队伍更加明显,例如首回合打巴萨,主场打马竞,客场输塞维利亚。由此我计算了哈妹,漏哥和克罗斯同时在场的场均失球数据1.514,果然远大于皇马全队场均丢球0.91的数据。这个组合大于任何一人的场均失球数量。通过以上分析,可以得出来一个浅显的结论,重大比赛,一定要上C罗,大傻,小黑,不要上克罗斯,哈妹,达尼漏的组合,防守能力太捉急。至于克罗斯的个人数据,是皇马几名绝对主力中最差的,我也在怀疑我的统计体系,后续我会继续分析,研究出现这个现象的原因。

楼主 yatail  发布于 2016-05-11 10:28:00 +0800 CST  
已经通过数据分析,逐步找到了渣团防守端最大的坑是谁,各位可以凭借场上表现猜猜,绝对出乎意外。我只能套用一句话,没有最坑,只有更坑

楼主 yatail  发布于 2016-05-11 16:41:00 +0800 CST  
究竟谁是谁的锅,数据分析,稍晚给大家答案

楼主 yatail  发布于 2016-05-11 17:47:00 +0800 CST  
其实很想用这个方法给隔壁建模,看看隔壁的大腿到底是苏牙,球仙,还是教授或者小白。但是做隔壁的完全提不起热情,建模都懒得一点一点找数据

楼主 yatail  发布于 2016-05-11 19:54:00 +0800 CST  

楼主:yatail

字数:3221

发表时间:2016-05-11 04:58:00 +0800 CST

更新时间:2020-12-24 17:37:07 +0800 CST

评论数:218条评论

帖子来源:百度贴吧  访问原帖

 

热门帖子

随机列表

大家在看