【技术流】用统计学分析书豪薪资

大家稍等楼下会发过程和结果

楼主 我是DLZ  发布于 2015-06-21 10:57:00 +0800 CST  
下面正式开始说了啊

楼主 我是DLZ  发布于 2015-06-21 21:02:00 +0800 CST  
楼主是一只大学狗,不才学了点统计学知识,于是想用来看一下成为自由球员的林,下赛季从统计学角度来说最可能获得怎么样的薪酬,首先是研究设计,这部分可能比较枯燥,不过看完利于您对研究的理解

楼主 我是DLZ  发布于 2015-06-21 21:03:00 +0800 CST  
我使用的软件叫做spss。我将NBA官网上所有球员的最近三个赛季的数据,共21项指标,包括得分命中率,也包括出场时间,首发次数等等,做成表格输入进了这个软件中。我们打算通过全联盟的球员的各项数据的运算,来得出球员工资的回归方程。而数据量的扩大,表示联盟末尾的球员可以平衡联盟顶尖球员超出篮球场表现以外的收入(比如球队对明星票房的考虑),而换句话说,联盟顶尖的球员也可以平衡联盟末尾球员得不到的对薪资的影响。因此,我认为这些数据在内部有自我修正的过程。

楼主 我是DLZ  发布于 2015-06-21 21:07:00 +0800 CST  
首先,我们的研究以所有NBA为研究对象,既包括普通球员也包括明星球员。为保证数据的及时性和可研究性,我们根据NBA官方网站数据,人工选取了打满2012-2013、2013-2014、2014-2015这三个常规赛季的323名NBA球员,。

楼主 我是DLZ  发布于 2015-06-21 21:08:00 +0800 CST  
2、具体的数据收集过程:
根据NBA官方数据网站(http://stats.nba.com/)的Player Index一栏,我们人工逐个筛选,用SPSS录入了打满最近三个常规赛季的NBA球员数据。其中包括球员基本信息、竞技能力指标、工资三大类。
(1)根据Player Index下的基本数据及Career一栏,我们用SPSS录入了球员的姓名、位置、体重(单位:磅)、身高(单位:英寸)、球龄、年龄这6项基本个人信息。同时,录入出场次数、首发次数、场均时间、场均得分、命中次数、出手次数、命中率、三分命中次数、三分出手次数、三分命中率、罚球命中次数、罚球出手次数、罚球命中率、进攻篮板数、防守篮板数、总篮板数、助攻、抢断、盖帽、失误、犯规这21项球员竞技能力指标。其中,为区分球员位置的不同,我们将后卫记为0,前锋记为1,中锋记为2。当球员同时打两个位置的时候,按两个位置分别记为两个人次,最终样本共计383人次。对于球员竞技能力指标,我们将三个赛季的数据分别求平均数,再录入最终数据表。
(2)根据网易篮球的NBA薪资榜(http://nba.sports.163.com/salary/),我们按球员所在球队查找到球员目前的合同薪资(单位:万美元每年)。对于无当前合同薪资的个别完全自由球员,我们在百度和谷歌搜索其距今最近的薪资作为数据来源。

楼主 我是DLZ  发布于 2015-06-21 21:08:00 +0800 CST  
此为描述统计量

楼主 我是DLZ  发布于 2015-06-21 21:10:00 +0800 CST  


楼主 我是DLZ  发布于 2015-06-21 21:11:00 +0800 CST  
如上描述性统计结果所示,研究对象的工资最大值为2350万美元,最小值为12万美元,中值为367万美元,均值约541万美元,四分位差为540万美元;身高最大值为7英尺4英寸,最小值5英尺11英寸,中值6英尺8英寸,均值约6英尺10英寸,四分位差为5英寸;体重最大值为295磅,最小值为161磅,中值225磅,均值约226磅,四分位差约37磅;场均得分最大值为28.5次,最小值为1.33次,中值9.1次,均值约9.86次,四分位差约6.2次;命中次数最大值为9.7次,最小值为0.57次,中值3.50次,均值约3.74次,四分位差约2.7次;命中率最大值为67.63%,最小值为17.8%,中值44.4%,均值约45.17%,四分位差约6.53%。其余数据如图所示,不再赘述。由描述性统计结果可以看出,我们收集的数据覆盖面广,很好地囊扩了一般球员和顶级球员,研究对象具有广泛性。

楼主 我是DLZ  发布于 2015-06-21 21:11:00 +0800 CST  
首先,我们考虑到21项球员数据统计变量太多,且其中变量之间有相关性,所以我们先考虑对其进行因子分析。
下表给出了由SPSS得出的各变量之间的相关系数矩阵以及KMO检验和Bartlett球度检验,由于本研究涉及的变量较多,相关系数矩阵较大,只截取相关系数矩阵的一部分作为展示。

楼主 我是DLZ  发布于 2015-06-21 21:11:00 +0800 CST  
相关性矩阵
薪酬 体重 身高 球龄 年龄 出场次数
相关 薪酬 1.000 .108 .092 .276 .106 .216
体重 .108 1.000 .733 .058 .020 -.004
身高 .092 .733 1.000 .013 -.057 -.011
球龄 .276 .058 .013 1.000 .871 .066
年龄 .106 .020 -.057 .871 1.000 -.008
出场次数 .216 -.004 -.011 .066 -.008 1.000
首发次数 .569 .084 .102 .075 -.088 .540
场均时间 .665 -.090 -.035 .158 -.039 .556
场均得分 .700 -.068 -.017 .128 -.080 .413
命中次数 .684 .008 .018 .116 -.095 .396
出手次数 .462 -.050 -.142 .023 -.120 .197
命中率 .215 .372 .384 .077 .019 .310
三分命中次数 .169 -.492 -.388 .061 .015 .140
三分出手次数 .060 -.316 -.371 -.043 -.059 -.033
三分命中率 .105 -.522 -.425 .087 .065 .124
罚球命中个数 .663 -.030 -.005 .070 -.112 .328
罚球出手次数 .101 .051 -.123 -.088 -.114 -.072
罚球命中率 .180 -.305 -.177 .100 .107 .285
进攻篮板数 .267 .607 .486 -.061 -.143 .202
防守篮板数 .557 .483 .426 .155 -.027 .360
总篮板数 .499 .540 .497 .105 -.055 .352
助攻 .493 -.483 -.454 .128 .025 .274
抢断 .454 -.328 -.307 .058 -.084 .369
盖帽 .282 .499 .493 .004 -.106 .181
失误 .654 -.163 -.174 .100 -.081 .314
犯规 .366 .323 .290 .052 -.075 .470

楼主 我是DLZ  发布于 2015-06-21 21:12:00 +0800 CST  

由各变量之间的相关系数矩阵可知,各变量之间存在较强的相关关系;由KMO检验和Bartlett球度检验可知,Bartlett球度检验统计量为16004.157,检验的P值接近0,表明这26个变量之间有较强的相关关系;而KMO统计量为0.753,大于0.7,表明本研究数据适合作因子分析。

楼主 我是DLZ  发布于 2015-06-21 21:12:00 +0800 CST  
由各变量之间的相关系数矩阵可知,各变量之间存在较强的相关关系;由KMO检验和Bartlett球度检验可知,Bartlett球度检验统计量为16004.157,检验的P值接近0,表明这26个变量之间有较强的相关关系;而KMO统计量为0.753,大于0.7,表明本研究数据适合作因子分析。


楼主 我是DLZ  发布于 2015-06-21 21:13:00 +0800 CST  
经过旋转的因子分析结果为

楼主 我是DLZ  发布于 2015-06-21 21:14:00 +0800 CST  
因子1:与出场次数、首发次数、场均时间、场均得分、命中次数、出手次数、罚球命中个数、总篮板数、防守篮板数、助攻、抢断、失误、犯规的相关性都很高,而这些变量主要反映的是一名球员在球队中的地位(出场和首发次数、场均时间、场均得分、出手次数)和他打篮球的技术即攻防能力(场均得分、命中次数、罚球命中个数、总篮板数、防守篮板数、助攻、抢断、失误、犯规),于是我们将因子1命名为“球队地位和攻防能力”。
因子2:与体重、身高、命中率、三分命中次数、三分命中率、罚球命中率、进攻篮板数、防守篮板数、总篮板数、盖帽相关性高。而这些变量主要关系到评价一名球员在内线的能力,在内线身高和体重很重要,而内线的命中率也比外线时更被看重,在当今联盟中,出于一些战术的考虑,内线球员的三分水准很被看重,而内线作为犯规最容易发生的地方,罚球水平同样很重要。在内线篮板的重要性不言而喻,盖帽则反映了在内线的防守能力。所以我们最后把因子2命名为“内线能力”。
因子3:与出手数,命中率,三分出手次数,罚球出手次数相关性高。我们将因子3命名为“出手倾向和成功率”。
因子4:与年龄和球龄相关性高,对于一名球员来说,球龄越高意味着球场经验越丰富,而年龄越高则意味着球员的交易价值,健康程度,运动能力,出场时间,运动生涯剩余时间越短,受伤的可能性越大。我们将因子4命名为“经验和年龄”,当我们将这两项均与时间相关的变量放在一起作为因子代入方程时,我们会观察到二者对薪酬的正负向影响放在一起后正负号不定。
最后我们得到四个变量X1“球队地位和攻防能力”,X2“内线能力”,X3“出手倾向和成功率”,X4“经验和年龄”.

楼主 我是DLZ  发布于 2015-06-21 21:14:00 +0800 CST  
首先将因子分析得出的四个新因子与球员薪酬直接作简单线性回归,得到结果如下:




根据表9的结果,得到NBA球员薪酬与X1(球队地位和攻防能力),X2(内线能力),X3(三分和突破倾向),X4(经验和年龄)的多元线性回归方程为:



从模型的与调整来看,在球员薪酬取值的总变差中,球员的球队地位和攻防能力、内线能、三分和突破倾向、经验和年龄这四个变量所共同解释的比例为61.2%。多重相关系数R=0.785,表示球员薪酬同4个变量的总体相关程度为0.785,说明相关程度比较高。但我们注意到,在表9中,因子X3的检验统计量t的用于检验的显著水平Sig.=0.199>0.05,表明因子X3即三分和突破倾向这一因素对球员薪酬的影响不显著。

楼主 我是DLZ  发布于 2015-06-21 21:16:00 +0800 CST  
由于X3对薪酬影响不显著,因此小组决定剔除因子X3,将X1,X2,X4与球员薪酬作简单线性回归,所得结果如下:


由表10得出球员的球队地位和攻防能力、内线能、经验和年龄这三个变量对球员薪酬共同解释的比例为61.1%,与将X3(三分和突破倾向)纳入回归方程后所得的调整R方61.2%相差很小;多重相关系数R=0.784,与开始的0.785相差也很小;表12中三个因子的用于t检验的显著水平Sig.均接近于0,表明X1,X2,X4这三个因子都对球员薪酬有显著影响。以上表明,剔除因子X3后,模型总体的解释度变好了。
对于剔除因子3后出现的这种情况,小组成员经讨论与资料查阅后,给出了我们的解释:因子3主要与出手数、命中率、三分出手数、罚球命中数相关,大部分球员这几项的差别都不大,而对于个别球员在这几项上不同于其他球员的或者在这几项指标上更受关注的情况,其他因子都足以同步地反映出来,因此这一项对球员薪酬的影响便不那么显著。

楼主 我是DLZ  发布于 2015-06-21 21:18:00 +0800 CST  
以上的分析很好的解释了球员场上表现指标与其薪酬之间的关系。但是考虑到,由同位置的球员对一个球队的重要性不同,而且位置很大程度上会影响球员在场上表现指标的得分,所以我们又将位置作为哑变量引入到回归方程中。
引进哑变量表示为:
1,后卫 1,前锋
Z1= Z2=
0,不是后卫 0,不是前锋
将Z1和Z2作为哑变量引入回归方程得下表:





楼主 我是DLZ  发布于 2015-06-21 21:21:00 +0800 CST  

在加入交互项Z1*X1,Z2*X1, Z1*X2,Z2*X2的情况下,我们得到方程:




楼主 我是DLZ  发布于 2015-06-21 21:24:00 +0800 CST  
所以我们将Z1*X1,Z2*X1, Z1*X2,Z2*X2从回归方程中剔除后,又做了一次回归分析。结果如下:

通过以上结果我们发现Z1(哑变量后卫),Z2(哑变量前锋),X1(球队地位和攻防能力),X2(内线能力),X4(经验和年龄),Z1*X4,Z2*X4(位置与经验和年龄的交互项)的Sig.系数分别为0.017, 0.079, 0.000, 0.127, 0.834, 0.054, 0.056,经验和年龄由于有交互项做进一步解释,所以我们认为他没有通过t检验是可以接受的结果,所以我们认为这个回归方程式中各变量与薪酬的线性相关性明显,方程拟合度较好,反应了各变量与薪酬之间的关系。

楼主 我是DLZ  发布于 2015-06-21 21:25:00 +0800 CST  

楼主:我是DLZ

字数:4006

发表时间:2015-06-21 18:57:00 +0800 CST

更新时间:2020-05-31 08:59:09 +0800 CST

评论数:303条评论

帖子来源:百度贴吧  访问原帖

 

热门帖子

随机列表

大家在看