谷歌如何让篮球迷与流感患者感到困惑 - 彭博社
Drake Bennett
大数据传播者喜欢 谷歌流感趋势 的故事。2008年,这家搜索引擎公司创建了一个功能,可以随着时间的推移地理跟踪与流感相关的搜索词——大概是像咳嗽或发烧这样的词(谷歌并没有发布确切的词)。他们的想法是,出现流感症状的人会转向谷歌进行自我诊断,而查看人们在哪里进行这种搜索将创建一个流感疫情的实时地图。相比之下,疾病控制和预防中心及其他公共卫生机构需要长达两周的时间才能发布他们的数据。这是一个完美的例子,说明人们在网络上留下的庞大数字足迹如何被筛选出有用的信息——在这种情况下,可能是拯救生命的信息。谷歌的数据专家能够超越CDC的杰出流行病学家,只增加了这个故事的吸引力。
然而,事实证明,谷歌流感趋势实际上并不擅长追踪流感趋势。一年前,期刊 自然 上的一篇新闻 文章 发现,谷歌的流感追踪器发现的病例数是实验室向CDC报告的病例数的两倍——CDC的数据也并不完美,但由于谷歌流感趋势是为了提前预测CDC的数据,因此这种差异在定义上就是一个失败。最近在期刊 科学 上发表的一篇 论文 发现,过高估计的情况普遍存在。“GFT在2011-2012流感季节也错得很离谱,并且自2011年8月以来的108周中有100周都高估了,”新论文的作者写道。该程序还完全错过了非季节性的2009年A-H1N1疫情。这篇 科学 论文试图弄清楚为什么会发生这种情况。
问题的一部分,科学研究人员认为,是统计学中所称的“过拟合”——本质上是虚假的相关性。谷歌流感追踪器是通过将5000万种不同搜索词的发生率与已知的流感发生率进行比较,并查看哪些匹配而创建的。如果某些术语的搜索在流感病例高峰时达到顶峰,那么在未来,当谷歌发现这些搜索词的上升时,它认为可以假设流感病例也在上升。但是,考虑到5000万候选词,必然会有一些匹配,即使它们与流感无关——这就像是百万只猴子在百万台打字机上打字的情景。
谷歌自己的开发人员报告的一个例子是与高中篮球相关的搜索词。高中篮球会导致流感吗?不会。但是它们大多发生在冬季,因此与篮球和流感相关的搜索频率和时间曲线恰好对齐。
意识到这一点,谷歌的开发人员将高中篮球术语和其他一些术语排除在流感追踪器的设置之外,但随着时间的推移,该程序的预测仍然很高。 科学论文认为,这是由于第二个问题,这源于谷歌搜索的性质。谷歌不断调整和完善其搜索算法。2008年搜索“发烧”或“流感症状”会返回与今天非常不同的结果页面。特别是,今天的谷歌在进行搜索时更可能建议额外的相关搜索词——除了任何公共卫生考虑外,对于谷歌来说,还有一个动机是让人们尽可能多地进行搜索(并查看尽可能多的广告)。这可能会增加与流感相关的谷歌搜索数量,并使流感追踪器看起来像是实际病例更多。
根据 科学 研究人员的说法,流感追踪器的程序员未能将其算法调整为适应向其提供信息的谷歌搜索引擎算法的变化。东北大学的政治科学家、大论文的作者之一大卫·拉泽称之为“模型漂移”。
“谷歌流感团队在某种程度上忽视了一些我们对数据的基本认识,比如流感相关搜索与流感流行之间的关系可能会随着时间而变化,”他说。拉泽和他的合著者未能联系到他们所批评的谷歌程序员,他说。当我联系谷歌时,一位发言人发来了这样的回应:“我们每年都会审查流感趋势模型,以确定如何改进——我们上次更新是在2013年10月,以便为2013-2014流感季节做好准备。我们欢迎关于如何继续完善流感趋势以帮助估计流感水平的反馈。”
拉泽认为,故障流感追踪器的案例中有更广泛的教训。其中之一是,使用谷歌、推特或脸书等并非专为研究工具设计的东西进行科学研究存在风险,这些工具不断发展,其内部运作远非透明。另一个是,拥有大量数据并不等同于拥有良好的数据。
(第七段更新了谷歌的评论。)