通过数据科学改善NCAA选拔赛的预测 - 彭博社
Eric Chemi
路易斯维尔红雀队在2013年4月8日于亚特兰大举行的2013年NCAA男子四强锦标赛中击败密歇根狼獾队后庆祝摄影:安迪·莱昂斯/盖蒂图片社为NCAA篮球锦标赛准备三月疯狂的赛程已成为一种年度仪式,人们尝试各种荒谬的方法:选择你最喜欢的学校或最喜欢的会议;关注球队吉祥物甚至队服颜色。数据科学家有不同的方法。
查看“Kaggle上的‘三月机器学习狂热’比赛,这是一个用于预测建模和分析比赛的在线平台。作为大数据领域的重要参与者,Kaggle正在举办由英特尔赞助的比赛,以查看机器学习和统计技术在预测NCAA锦标赛获胜者方面的效果。已有超过200个不同的团队参与,更多团队将加入。比赛分为两个部分:
1)创建一个算法模型来预测过去五年锦标赛的结果。 2)在2014年3月18日开始的锦标赛中实时尝试该模型以预测结果。
想出一个可靠的预测模型来筛选和加权各种篮球统计数据,以预测哪支球队将在4月7日在AT&T体育场(德克萨斯州阿灵顿)上剪彩,确实是一件困难的事情。根据威尔·库基尔斯基和杰夫·索纳斯,两位比赛管理员,自一月以来,竞争者们一直在分析之前的锦标赛以进行回测、调整和优化他们的软件。
真正的64支球队NCAA锦标赛有63场比赛,在正常的赛程比赛中,你需要做出63场比赛的胜利选择。(是的,实际上有68支球队,但大多数赛程忽略了几年前NCAA增加的四场“第一轮”比赛。)一个问题是:假设你选择了UCLA在第一轮获胜,但布鲁因队实际上输了;那么你的第二轮比赛将不会出现预期的对决,这使得评估这对球队的配对变得不可能。
Kaggle的比赛不是关于赢得办公室池,而是关于开发一个可以分析大量数据并在各种场景中进行预测的模型。这就是为什么这个在线平台要求其竞争者提交整个可能比赛矩阵的预测。理论上,64支球队中的任何一支都可能在锦标赛的某个时刻与其他任何球队比赛,因此Kaggle希望对每一个可能的对决进行预测——总共2,016个预测(64乘以63除以2)。
此外,Kaggle不仅仅问“谁会赢?”它还要求对你的选择进行信心度的衡量:一个代表球队获胜可能性或赔率的百分比。竞争者不能说“弗吉尼亚会击败特拉华州”,而是说“我认为弗吉尼亚有78%的机会击败特拉华州。”重要的是这个78%。这是他们根据你的信心和准确性来评分的方式:如果你说一支球队有100%的获胜机会,但最终结果错误,评分系统会对你进行严厉扣分。你高度自信的错误答案将会让你受损。索纳斯表示,这是一种“更科学的方法”来观察锦标赛。
把这看作是投资组合分配和风险多样化,就像在股票市场一样。90%信心的选择在你可以获得或失去的积分方面是高风险/高回报的。选择51%的选项意味着你对自己的选择没有信心:你实际上是在猜测,并且你承认这一点。你不会因为正确而获得很多信用,也不会因为错误而失去太多。评分系统专注于将你的信心与准确性匹配。当你确信自己会正确时,你真的正确吗?正是这种策略让竞争者们试图优化。哪些因素会重要,你愿意在你的信心上下注多少?
在设计一个强大的预测模型时,Cukierski表示,最好的技术是“堆叠”——将几种技术结合在一起。一个竞争者可能有一个模型专注于给更好的种子提供更高的胜率。他可能有第二个模型考虑防守指标,例如篮板球。他可能还有第三个模型根据两支球队的非会议赛程强度加权概率。这些模型单独使用时不会像将它们结合成一个堆叠模型那样有帮助。
最重要的后续问题是找到这三个模型之间的正确平衡:是50-30-20还是80-10-10?这就是数据科学的作用:获得因素的正确组合。这也是Kaggle允许竞争者在过去五年的比赛结果上测试他们的模型的原因,以查看他们在下周比赛开始之前需要做哪些调整。Sonas表示,他们为竞争者提供了18年的历史数据,让人们能够提出自己的球队排名,试图超越更成熟的概念,例如评分百分比指数,或RPI。
在比赛的第一部分——分析过去五场比赛——Kaggle 一直在发布结果,但这些结果并没有太大意义。Cukierski 相信,所有顶尖选手都在作弊,无论是故意还是无意。他指出,创建一个过拟合过去数据的模型很容易,或者使用在比赛结束后才存在的数据,这些数据在比赛前是无法用来进行预测的。之后 NCAA 锦标赛的选拔结果将在 3 月 16 日公布,真正的竞争才开始。Kaggle 竞赛参与者将启动他们的模型并进行预测。Cukierski 说,一旦最终提交完成并开始比赛,竞争者们将开始讨论他们采取的策略类型。
他说,你可能会看到多种方法的结合:那些具有“领域专业知识”(或对篮球本身的了解)的人,以及那些“抽象于现实”的策略(专注于优化百分比、平衡风险/回报,并处理高信心的波动性)。Sonas 说,根据他在其他领域举办比赛的过去经验,他认为获胜者更可能是分析数学家,而不是对篮球有深入了解的人。
Cukierski 认为,最终的赢家可能必须采用高信心的方法。这与选择股票的高波动性方法相同。最有可能的是,高波动性投资组合在长期内无法维持,但对于一个试图赢得单场比赛的个人来说,高回报的可能性是值得冒险的。低信心的方法(如低波动性股票投资组合)可能更稳定,并能在多年内保持,但这可能不是 2014 年的最佳获胜策略。
Sonas 和 Cukierski 都指出,由于 Kaggle 竞赛对每场比赛的评分是相同的,因此在早期轮次中表现不佳的竞争者仍然可以在后期反击并获胜。这意味着对于早期失败者来说,应该会有很多机会,这与真实的比赛不同。随着 Kaggle 策略的公开揭示以及比赛结果的变化,我们将能够跟进那些最成功的方法。
在我们的三月疯狂数据系列中,接下来我们将看看一些该领域更知名的专家如何相对其他团队对团队进行排名。