Kaggle的威廉·库基尔斯基谈数据共享与竞赛 - 彭博社
Joshua Brustein
威廉·库基尔斯基,数据科学家,Kaggle Kaggle的威廉·库基尔斯基与我们的专家讨论数据分析在医学、教育等领域未被开发的潜力,以及可能面临的陷阱。
**Kaggle背后的理念是什么?**大数据正在逐渐兴起,许多组织都在说:“哦,这个数据的事情将会变得如此重要和庞大。我们收集了这么多东西,但我们并没有使用它。”与此同时,有些人非常擅长处理数据,但他们都被隔离在各自的工作中。你知道的,“我是保险行业的人;我只处理保险问题。我从来不接触杂货店购物数据集。”所以Kaggle意识到了这一点,并试图通过比赛来进行匹配。
**哪些比赛产生了最令人兴奋的结果?**我最喜欢的比赛之一叫做鲸鱼检测挑战。右鲸是一种生活在大西洋的濒危鲸鱼。这些研究人员有一些浮标网络,持续记录鲸鱼的声音,他们有一个算法,效果还不错。他们说:“让我们把它交给Kaggle,看看他们能否做得更好。”结果人们在这方面表现得非常出色。现在这些浮标以99%的准确率检测鲸鱼的声音。我觉得这真的很酷,坐在纽约办公室的人可以解决这样一个遥远且与日常工作完全无关的问题,并且实际上提供帮助,为现实案例带来一些好处。
**你也考虑过使用数据分析进行一些癌症研究工作。Kaggle在医疗相关领域举办很多比赛吗?**我们在Kaggle的医疗方面没有获得太多关注。这在很大程度上是因为提供患者数据的问题。获得HIPAA合规性和所有批准非常困难。
另一个问题是拥有这些数据的人和机构会囤积这些数据。制药公司对药物试验的数据保持在孤岛中。有一些笨拙的努力来共享数据,一些地方承诺他们会一起合作,但最终仍然有一种想要保留数据的愿望。
隐私问题在某种程度上是合理的。你不想泄露某人的基因组,然后让每个人都发现这是位于232 Main Street的Sally Smith。但与此同时,这些担忧被扩展得太远了。人们真的在玩一个游戏,声称除非数据是专门为你提取并提供给你的,否则你不能拥有任何即使是稍微有用的数据来解决问题。如果你能消除这一点,你就可以取得一些真正不错的进展。
你正在举办开放的比赛,任何人都可以参与,但似乎拥有这些数据的组织可能想要保留这些数据。这里是否存在紧张关系? 我面临的最大日常挑战之一是说服人们,他们可以发布数据,而这不会威胁到他们组织的生存;往往并不是你拥有数据,数据本身就有价值,而是能够对其采取行动。如果我们从一个组织获得一个数据集并且它是公开的,而解决问题的方法也是公开的,这仍然没有关系,因为没有其他人拥有相同的数据,也没有其他人能够继续获取这些数据并对其采取行动。
**你们确实已经开始将更多的比赛设为私密,对吧?**是的,这一直是我们解决当一个组织太大、内部律师太多而只会说“没有,任何东西都无法通过防火墙”的问题的方案。
**你认为关于大数据的喧嚣在哪里最失控?**我得重新表述你的问题,问一下,哪里没有失控?与人交谈时,真的很难不让这个话题成为主导,不让某人的老板插话说,“好吧,我们来做大数据。”
我认为人们在数据量方面特别失控。他们会说,“哦,我们有PB级的数据,我们有TB级的数据。”
大多数问题可以在更小的规模上解决。一个例子是豇豆在传送带上经过。出售这些豇豆的公司想用相机将坏掉的豇豆从传送带上剔除。你可以想象,一旦你看到一个棕色的豇豆,你就见过所有的豇豆。你不需要有万亿TB的数据来解决这个问题。
我会说95%的问题都适合这个模型。还有5%的问题,算法非常“贪吃”,你输入越来越多的数据,它们可以很好地利用这些数据。Netflix的电影推荐就是一个例子。
**你如何在个人生活中应对信息过载?**我想我是世界上为数不多的人之一,早上处理一个数据集以识别鸟类,然后下午处理一个信用违约建模问题。所以在某种意义上,我每天都是在不同领域里一个全新的傻瓜。这是我已经开始接受的事情。
欲获取更多对话和视频,请访问:www.businessweek.com/fix-this/big-data。