2018-2019 NBA赛季揭幕日比赛将于北京时间10月17日开始,NBA常规赛收官战将于2019年4月11日结束,一共历时176天。除去观赏精彩的比赛过程,我们也同样好奇比赛的结果会是如何,球队的排名是多少。
随着信息技术的发展,NBA赛场上的数据分析已经达到很高的水平,球员、球队的各项数据都会被记录下来,衡量球队球员的水平有了更加客观的指标,使得准确预测赛事结果更有可能。
新赛季盘点
今天我们就将使用历史数据来对新赛季的NBA球队排名作出预测,我们收集的数据包括:
新赛季的赛程安排、球队球员和教练配置、2000年以来历史各赛季球队基本数据和排名。数据来源于basketball-reference、nba官方网站、stat-nba网站和hoopshype。basketball-reference、nba官方网站、stat-nba网站包含丰富的球队基本数据和高阶数据,hoopshype包含各赛季球队球员的薪水情况。
一赛程
从2018-19赛季的赛程来看,球队背靠背比赛的场次是连续第四年创下历史新低。新赛季,每支球队平均只打13.3个背靠背,自从2014,15赛季(每支球队平均打19.3个背靠背)以来,已经减少了31%。
二薪资情况
各球队薪资整体上呈逐年上升趋势,2000-2001赛季,球队薪资最高的是波特兰开拓者队,薪金为87395140美元,薪金最低的是洛杉矶快船队,薪金为29606189美元。根据新赛季目前公布的数据,球队薪资最高的是迈阿密热火队,薪金为164443961美元,薪金最低的是纽约尼克斯队,薪金为94246963美元。
三年龄情况
各球队的平均年龄均在24岁到27岁之间,说明新的赛季各球队球员比较年轻。年龄方差最大的球队是达拉斯独行侠队,最小的是多伦多猛龙队。
四教练情况
经过休赛季的调整,有9支球队进行了主教练的更换,为新的赛季成绩预测带来了新的变数。这9支球队分别为:奥兰多魔术、底特律活塞、多伦多猛龙、菲尼克斯太阳、孟菲斯灰熊、密尔沃基雄鹿、纽约尼克斯、夏洛特黄蜂、亚特兰大老鹰。
东西部排名大预测
接下来我们根据2000年以来的历史数据来进行新赛季球队的排名预测,获取20年来每个赛季开始时球队的各项数据指标。主要包含三类:
球员:球员的平均年龄,球员年龄的方差,全明星数量。
变量分析:众所周知,球员的平均年龄是衡量一个球队球员运动能力的重要指标,平均年龄太小的球队往往经验不足,平均年龄过大又缺乏活力。同时,可以采用球队年龄的方差来衡量一个球队的年龄结构是否合理,最合理的球员结构肯定是包含老中青三代球员,既有老将又有年轻球员,这样的球队往往战斗力很强。另外,NBA毕竟是巨星的舞台,因此每个球队的全明星数量决定了球队上限。
教练:教练常规赛胜率、教练季后赛胜率、教练总冠军次数、最佳教练次数。
变量分析:一个好的球队必定需要一个好的教练,马刺之所以能长盛不衰,离不开波波维奇的伟大,因此我们将教练作为一个重要的维度来参考。教练的经验和履历是一个球队在漫长的赛季中能保持竞争力的重要条件。
球队:球队所在城市是否为大城市,球队总薪资和薪资占联盟总薪资比例,球队上个赛季的排名,球队近三个赛季的平均排名,总冠军数量,总决赛次数。
变量说明:球队本身的文化和底蕴和所在的城市对球队的成绩也有重要影响,球队的总薪资和最近几个赛季的表现也对新赛季球队的成绩有着重要的预测作用。
二预测模型
我们采用的方法是随机森林,这是一种利用多棵树对样本进行训练并预测的一种分类器,准确率很高,且对于缺省值也能取得很好的效果。在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。决策树相当于一个大师,通过自己在数据集中学到的知识对于新的数据进行预测。但是俗话说得好,一个诸葛亮,玩不过三个臭皮匠。随机森林就是希望构建多个臭皮匠,希望最终的分类效果能够超过单个大师的一种算法。
随机森林的优点:
(1)可以得到产生高准确度的预测结果。
(2)它可以处理大量的输入变量。
(3)自动判断各个变量的重要性。
(4)在建造森林时,它可以在内部对于一般化后的误差产生不偏差的估计。
(5)对于不平衡的分类数据集来说,它可以平衡误差。
(6)可以被延伸应用在未标记的数据上,这类数据通常是使用非监督式聚类。
(7)学习过程快速。
预测结果
通过构建一个200棵决策树的随机森林,我们得到了如下的一个预测结果。
东部球队排名预测
西部球队排名预测
从预测结果来看,最终的预测排名和主流的大致预期还是比较一致的,根据历史数据来看,勇士队和凯尔特人队极有可能会登顶东西部,这和我们大部分人的预期是一致的。值得注意的是,洛杉矶湖人队在预测结果里面很遗憾的垫底,克利夫兰骑士队高居第三,这显然和大部分人的预期不相符合,这是因为数据分析只能从数据得出结论,更多的是根据历史数据的一种统计学上的推断,我们的模型没有考虑到“小皇帝”詹姆斯的巨大影响力,这也是数据分析中最大的难点。
但是,我们也得到一些眼前一亮的结果,太阳队虽然17-18赛季的成绩不是很理想,但是新赛季的预测中,太阳队的进步还是很明显的,这得益于太阳队有很多年轻球员,存在巨大的潜力。另外,也有一些球队的预测结果和实际预期相差比较大,说明我们的模型还需要进一步优化。
另外,我们也得出了一些有意思的结论,东西部球队都是通过统一的模型进行预测,但是从结果来看,东部球队的排名权重相比于西部球队更加大。我们用东部球队的排名权重减去西部球队的排名权重(权重越低,排名越靠前),发现从第一到第十五名,大多数都是大于0的,说明西部球队的总体成绩更好,竞争也会更加激烈,这也符合NBA联盟西强东弱的主流观点。
模型改进:我们在新模型中加大了球队在近几个赛季的成绩的权重,另外考虑到詹姆斯这类巨星的影响,以及各个球队换教练,交易等因素,统计了这些因素对排名权重的影响,对模型进行了修正。
修正后的预测结果
东部球队排名预测
西部球队排名预测
预测结果毕竟是基于历史数据,体育竞技的魅力在于不确定性,伤病因素,球队的磨合情况,球队的更衣室文化,年轻球员的成长也是重要的影响条件,但是这些很难使用数据去量化,因此我们的预测也仅仅只是一个参考。
没想到吧,数据分析居然这么有意思?
扫描二维码,关注指南者学院
打开数据分析新世界!