傻瓜版大数据——或者至少是产品经理的指南 - 彭博社
Ashlee Vance
几年前,数据科学家并不存在。现在,似乎硅谷的每个人要么是数据科学家,要么声称自己是,要么想成为数据科学家。为什么不呢?这些人每年赚取超过20万美元的薪水,因为他们被视为真正知道如何处理公司积累的所有信息的巫师。他们是数据处理和分析软件的统治者,如Hadoop、Pig和Hive,这些软件仅凭其荒谬的名称就让普通人望而却步。
老实说,贝恩·维尔瑟(Ben Werther)说,作为一名资深的数据分析专家,他创办了一家公司叫Platfora,旨在使数据分析变得简单——或者至少更简单——以便那些拥有产品经理、市场经理和业务分析师等职位的人能够像数据科学家一样有效。
在某种程度上,你可以将Platfora视为命令行和图形用户界面之间的区别。你不需要在像Hadoop这样的软件中输入复杂查询的字符串,而是打开Platfora,点击各种菜单来确定你想要处理的数据集以及你想如何处理它们。因此,你不再需要软件工程师去数据库中查找,你基本上可以用鼠标点击并开始操作。
为了证明 Platfora 的有效性,维尔瑟(或者更确切地说是他的演示助手)在互联网上找到了一份来自芝加哥市的公开数据集。它涵盖了数十年的许可证申请,基本上是一个巨大的电子表格。助手将数据库导入Hadoop数据分析系统,但随后启动Platfora开始处理这些信息。
一开始,Platfora 就会通过数据库对信息进行分类——许可申请人、地址、日期——然后显示一个可点击的菜单。从那里你可以请求查看,比如说,过去 20 年按类型和成本比较的许可证。几秒钟后,你会收到一张图表,绘制所有这些信息,并显示,例如,平均许可证费用为 965 美元,而申请在 2008 年经济衰退开始时大幅下降。
如果你想将这张图表发送给同事,你只需点击另一个按钮,它就会发送出去。你的同事可以对聊天进行注释,并将其带着评论发送回你,或者查看数据的来源并进行另一个分析工作。到那时,你就正式成为一名数据科学家,可以要求加薪。
在幕后,Platfora 正在解决一个相当有趣的问题。较旧的数据分析系统试图通过要求公司设定严格的指南来加快工作速度,以便明确他们在寻找什么。较新的选项则更加灵活,因为它们几乎收集所有内容,并允许人们搜索几乎所有内容,但它们吸收的数据量太大,以至于处理新查询需要一些时间。相比之下,Platfora 作为这两种方法之间的中间地带。它确定你在特定查询中需要哪些数据集,并将它们从总数据池中分离出来,以便分析工作可以在有限的数据池上更快地运行。
该公司成立于 2011 年 6 月,自 3 月以来一直在销售其产品。它还从 In-Q-Tel(中央情报局的风险投资部门)、Battery Ventures、Andreessen Horowitz 等处筹集了近 3000 万美元的资金。(拥有 Businessweek.com 的彭博社是 Andreessen Horowitz 的投资者。)
你可以期待看到越来越多像这样的公司出现,并承诺让大数据变得简单。整个大数据的事情似乎已经到了人们厌倦听到技术承诺的阶段,他们希望看到更多实际的结果。
“人们只是做错了,”维尔瑟说。也许吧。