谷歌刚刚让大数据专业知识更难伪造 - 彭博社
Ashlee Vance
2014年谷歌I/O大会在旧金山摄影:Jeff Chiu/AP照片在过去五年左右的时间里,假装你对大数据有所了解是相当容易的。你参加了鸡尾酒会——那个有很多男士的——拿了一杯饮料,然后一次又一次地说“哈杜普”。人们点头。荒谬的高薪工作邀请第二天就来了。简单。
好吧,谷歌本周正式结束了这段美好时光。在公司年度开发者大会的一些演讲中,谷歌高管宣称他们已经不再关注哈杜普。这是昨天的流行词。任何想要成为真正的大数据专家的人现在都需要熟悉Flume、MillWheel、谷歌云数据流和Spurch。(好吧,我最后一个是编的。)
事情是这样的。大约十年前,谷歌的工程师们写了一些论文,详细描述了一种分析大量数据的新方法。他们将这种方法称为MapReduce:数据被分散在数千台服务器上;人们对信息提出问题;然后他们在几分钟或几小时后得到了答案。雅虎!率先将这种基础技术转变为一个名为哈杜普的开源产品。自那时以来,数百家公司帮助确立了哈杜普作为现代数据分析工作的标准。(关于这个话题已经有很多书写。)像Cloudera、Hortonworks和MapR这样的初创公司都有自己的哈杜普版本,供公司使用,几乎每个需要分析大量信息的公司都有自己的哈杜普团队。
谷歌可能处理的信息量超过地球上任何公司,并且往往需要发明工具来应对这些数据。因此,它的技术领先竞争对手五到十年。这周,它 揭示它在一段时间前放弃了MapReduce/Hadoop方法,转而采用一些更灵活的数据分析系统。
Hadoop的一个大限制是你往往需要进行“批处理”操作,这意味着命令计算机以批量方式执行操作,然后等待结果。你可能会要求大型机将公司的工资单作为批处理作业进行处理,或者在一个更现代的例子中,分析上周二德克萨斯州人们在谷歌上输入的所有搜索词。
根据谷歌的说法,它的Cloud Dataflow服务可以在信息流入数据库时,同时运行数据分析作业。谷歌在其会议上 演示的一个例子是对世界杯比赛相关推文的即时分析。你知道的,生死攸关的事情。
谷歌将内部工具——那些名字奇怪的工具,如Flume和MillWheel——整合到Cloud Dataflow服务中,并计划将其作为云服务提供给开发者和客户。承诺是其他公司将能够比以往更轻松、更快速地处理更多信息。
虽然谷歌历来是一家非常保密的公司,但它正在将其内部技术作为一种竞争手段开放。谷歌比例如 亚马逊 更愿意将其工程师构建的聪明东西交给他人。这是一个可以理解的举动,考虑到亚马逊在云计算领域的显著领先。
至于Hadoop家族?你可能会认为谷歌直言不讳地称其为过时的东西,会使得继续推销Hadoop作为你公司无法缺少的热门事物变得困难。对此确实有一些道理。
也就是说,即使是最大的Hadoop粉丝如Cloudera也已经在一段时间内超越了这项技术。Cloudera依赖于一些超级快速的数据分析引擎,如Spark和Impala,这些引擎可以从基于Hadoop的存储系统中获取数据,并以类似于谷歌的方式进行处理。
然而,痛苦的结果是,从现在开始,假装在大数据领域游刃有余将变得更加困难。试着在喝了几杯金汤力后保持你的Flume和Impala的清晰。