流感欺骗了谷歌维基百科能做得更好吗? - 彭博社
Joshua Brustein
每年在美国,流感导致的死亡人数从3000到50000人不等。公共卫生官员面临的主要挑战之一是尽早识别流感季节的独特形态。波士顿儿童医院的两位研究人员周四发表的一项新研究为他们提供了一条捷径:维基百科。通过分析该网站上35个与流感相关页面的流量,David McIver和John Brownstein表示,他们可以比疾病控制与预防中心提前两周确定流感水平。
这项研究不可避免地会与谷歌流感趋势进行比较,后者在过去七年中利用与流感相关的搜索词数据在地图上绘制疫情。(Brownstein和McIver曾担任该项目的顾问。)这两个项目都声称比传统公共卫生机构(如CDC)更快,基于的假设是,关于流感症状的网络搜索会在就医之前进行。谷歌流感趋势的结果被视为大数据分析的胜利——直到结果被证明不如最初认为的那样具有前瞻性。上个月发表在科学上的一篇论文显示,谷歌在2011-12流感季节的108周中高估了100周的流感流行率。
谷歌的技术结果显示,容易受到所谓的过拟合影响,这意味着搜索引擎倾向于将无关的搜索计为匹配。该公司首先寻找与流感病例同时激增的搜索词,然后跟踪这些词的未来实例。在这样做的过程中,它捕捉到了一些与无关现象相关的搜索,例如高中篮球,其赛季与流感季节相对应。谷歌也低估了自己的说服力。2012年搜索一个流感相关词的人,往往比早些年的人更频繁地查找其他流感相关词,因为谷歌在建议相关搜索方面变得更好。但流感趋势并没有调整其模型来考虑这一点——根据发表在科学上的研究,它只是看到了更多的搜索。
麦克艾弗和布朗斯坦打赌维基百科不太容易受到疑病症的影响。他们表示,他们的模型在识别流感相关活动最多的一周时,比谷歌的准确率高出17%,并且在任何给定周内更有可能正确判断流感水平的强度。在线百科全书也更容易研究:谷歌的数据实际上只对公司可用,而维基百科则向无关研究人员提供更广泛的访问权限。
谷歌仍然有一些优势。维基百科的数据不包括位置信息,因此模型仅说明流感在全国范围内的情况,而流感趋势实际上在地图上绘制了年度疫情。此外,麦克艾弗和布朗斯坦的研究查看了旧数据,并根据他们已知发生的情况进行了测试。他们的研究尚未在流感季节的实时中进行测试。
不过,这不仅仅是一个竞争,旨在找出哪个参考网站是最好的流行病学罗塞塔石。McIver 和 Brownstein 是贪婪的数据分析者。他们所做的其他研究包括检查 Facebook 点赞以追踪肥胖趋势,观察 OpenTable 的取消情况以寻找疾病爆发的证据,以及通过爬取 Yelp 评论来研究食物中毒。
所有这些研究至少有一个共同的问题:它们只能确定相关性,而不能确定因果关系。研究人员正在努力将他们的在线大数据发现与小数据技术结合起来,例如一个名为 Flu Near You 的在线投票网站。愿意告诉该网站他们感觉如何的用户可以看到汇总数据,显示附近有多少人感到生病的趋势。Brownstein 说,大约有 100,000 人注册了 Flu Near You,他和 McIver 正在尝试通过激励措施吸引更多用户。
前进的道路可能是所有这些技术的某种组合。McIver 说,每种数据收集和分析形式都有其缺陷。问题不在于维基百科或谷歌是否比 CDC 更好,而在于每个网站可以添加什么信息。“也许一个更及时,一个更敏感,”McIver 说。“最终将是不同数据流的结合。”