美媒:谷歌流感趋势预测频出错 引研究者思考
作者:赵小侠
【环球网综合报道】据美国《商业周刊》网站3月14日报道,谷歌于2008年开发的谷歌流感趋势(Google Flu Trends)---跟踪分析流感关键词搜索数据,创建流感趋势实时地图,其预测效率远优于美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)。然而,近来谷歌流感趋势的预测频频出错,引发了研究者的思考。
据报道,去年,《自然》杂志刊文称,谷歌流感趋势预测的流感病例数几乎是CDC统计数据的两倍。《科学》杂志最新论文也指出,谷歌流感趋势高估流感峰值的情况屡见不鲜。而两大重要原因--数据过拟合和算法变化影响了其预测结果。
一方面,谷歌流感趋势容易出现数据过拟合:很多关键词看似与流感相关,但实际并无关联,即伪相关。谷歌流感趋势需对比5000万个词条的搜索率和已知流感发病率,统计其匹配情况,难免出现毫无关联却完成匹配的案例。以高中篮球为例,谷歌开发人员称,高中篮球和流感通常发生在冬天,因此篮球和流感相关搜索频率和时间分布十分匹配,导致篮球粉丝容易被当作流感患者。
另一方面,由于谷歌不断调整和完善搜索算法,不同时期搜索相同的流感关键词,得出的结果可能完全不同。此外,谷歌的相关搜索功能可能增加流感关键词的搜索次数,从而影响了预测结果。据研究报道,谷歌流感趋势的程序员无法提供适应谷歌算法变化的研究算法。美国东北大学政治学家、论文作者之一大卫·拉泽(David Lazer)称之为“模型偏离”(model drift)。
报道指出,拉泽表示,“流感相关搜索和流感发病率之间的关系可能随时改变,而谷歌流感趋势忽略了这一点”。此外,他认为,谷歌流感趋势预测出错提供了更多经验教训:首先,谷歌、Twitter和Facebook的设计初衷并非用于研究,它们常常发生变化,并且内部运作情况不透明,因此将其用于科学研究存在风险。另外,掌握大数据不等同于拥有良好的数据。(实习编译:余顺遂 审稿:赵小侠)