谈及数据,有时少即是多——《华尔街日报》
Josh Zumbrun
图片示例:盖蒂图片社世界正朝着收集我们生活几乎每个方面更多数据的方向发展。
这些数据通常提高了我们分析周围世界的能力,但在某些情况下,更多的数据反而会让我们对世界的决策和理解变得更糟,而不是更好。
这一见解是一个日益增长且有些反直觉的研究领域的焦点,该领域研究所有那些数据较少却能带来更好统计模型或更佳决策的情景。在实际用数据做决策时,往往是“少即是多”。
“在一个理想的世界里,由一个理想的人或算法处理数据,更多的数据会更好,”华威大学战略与决策教授杰尔克·登雷尔说,“然而,我们并不总是处于那样的世界。”
“少即是多”这一关于决策的短语由德国心理学家格尔德·吉仁泽推广,他的职业生涯围绕着识别那些数据较少却能带来更好决策的情景。这些结论对人类决策者和算法都适用。
这一领域发现,通常少量的数据点非常有用,而随着数据点的增加,它们的效用会逐渐降低。除非谨慎使用,否则它们可能会混淆情况,而不是改善它。
该领域最近的一篇论文问道:“为了预测谁会在特定工作中表现良好,雇主总是使用尽可能多的关于求职者的信息会更好吗?”
密歇根大学罗斯商学院的作者费利佩·卡萨扎尔、戴安娜·朱-拉贾辛和迈克尔·詹森给出的答案是否定的。
他们的论文模拟了统计歧视问题,这一源自1970年代的经济理论认为,歧视持续存在的原因之一是,以利润最大化为唯一目标的公司会利用所有可用信息(如求职者数据)进行决策。招聘经理在追求这一目标时,可能会潜意识地利用种族或性别因素来做出最佳预测。
作者指出,与技能相比,种族和性别对工作表现的预测性较差。但这些特征更易被观察,可能导致招聘经理过度重视这些因素。在这种情况下,原本建议综合两类信息以获得最佳预测的统计歧视理论反而适得其反。
研究表明人类决策很少100%理性,这促使人们越来越依赖试图吸收尽可能多数据的算法系统。某些情况下,这些算法在消除情感偏见方面效果显著;但另一些时候,它们会固化错误。数学家凯西·奥尼尔在《数学杀伤性武器》一书中列举了无情感算法产生歧视性或无用结果的案例。
大量实例证明,更少的数据反而能带来更好效果。1990年代初,吉仁泽博士对比了德国两座大城市——一座拥有职业足球队,另一座没有。87%的情况下,拥有球队的城市规模更大。依赖这个简单技巧的人,比那些试图回忆复杂城市细节的人更能准确判断城市规模。事实证明,体育团队与人口规模的相关性,远超过人们可能了解的其他因素(如是否为州首府或位于主干道)。
(这里有一个美国版的例子:统计一个城市中职业橄榄球、棒球、篮球和冰球队的数量。在50个最大城市的配对比较中,89%的情况下,拥有更多球队的城市规模也更大。如果你需要猜测匹兹堡是否比纳什维尔大,这是一个实用的小技巧。)
或者以一家公司为例,它试图预测哪些客户仍然活跃——即有兴趣并可能继续从该公司购买产品——以及哪些客户对公司的产品失去了兴趣。研究人员发现,[一个极其简单的经验法则](https://wuebben.net/members/markus/Home/Publications_files/wuebben wangenheim JM 2008 instant customer base analysis.pdf)——即客户是否在过去九个月内从公司购买过产品——比尖端的复杂模型更能预测客户的活跃度。
投资中的一个例子是1/N规则,该规则指出,如果你想购买12只股票,你应该在投资组合中为每只股票分配1/12的份额。伦敦商学院的一个团队将这种方法与14种使用大量数据试图找到更优分配比例的模型进行了比较,结果发现这14种模型中没有一种能胜过1/N规则。
当然,识别哪些数据点可以剔除并不总是那么容易。在疫情早期,麻省理工学院取消了要求申请者提交SAT(或ACT)成绩的规定。批评者长期以来一直认为,这些考试对学术成功的预测能力较差,并且对来自弱势背景的人构成了障碍。
但两年后,麻省理工学院在今年春天重新启用了SAT考试。招生办主任表示,麻省理工学院发现SAT在评估"这些群体学生相对于其他考量因素时表现更优"。原因在于教育不平等会影响准学生准备和申请材料的所有方面,而不仅仅是应试能力。“事实证明,这项考试比拥有合适的课外活动、推荐信或高级课程更能公平评估,后者往往更有利于条件优越的学生。
虽然确定哪些数据应该舍弃并非易事,但随着收集的生活数据不断增长,这已成为重要的研究领域。
“我们展示的成果堪称三赢,“恰萨尔博士说,“采用更简单的决策流程不仅能提高预测准确性,还能增强公平性——因为你无需考虑种族等歧视性因素。简洁、公平与准确三者之间存在一致性。”
联系作者乔什·祖姆布伦,邮箱:[email protected]
本文发表于2022年11月5日印刷版,标题为《数据取舍的艺术:少即是多》。