Hadoop数据软件在硅谷之外传播 - 彭博社
Jack Clark
两年前,当底特律犯罪委员会开始收集和分析涉嫌犯罪者的社交媒体帖子时,发现Excel无法胜任这项任务。这个11人的机构开始使用Hadoop,这是一套在2000年代初开发的软件,旨在帮助谷歌和雅虎等网络巨头存储和分析大量数据。“几百万条内容是很多,无法在任何Excel电子表格中轻松分析,因此我们需要做一些更强大的事情,”底特律犯罪委员会的情报主任莱尔·邓吉说。这款软件已经帮助揭示了两个涉嫌犯罪组织之间的关系。“有这么多数字证据在外面。大多数机构并没有利用它,”邓吉说。
许多技术从未走出硅谷,更不用说渗透到一个小城市机构。然而,自Hadoop开发以来的十年间,围绕这款开源软件出现了一个小型产业。农业巨头孟山都依赖Hadoop来分析和预测天气模式,而印度政府则使用它来存储超过5亿公民的国家身份注册信息。印度的生物识别数据库被称为世界上最大的,强大到可以处理每分钟多达400万次登录。

数十家公司销售某种变体的Hadoop——一些公司免费提供,但对咨询和支持服务收费。根据Allied Market Research在3月发布的报告,全球Hadoop市场在2012年的估值为15亿美元,预计到2020年将扩大到502亿美元。其领导者——Cloudera、Hortonworks和MapR——各自吸引了数亿美元的风险投资。
Hadoop的创造者道格·卡廷担任Cloudera的首席架构师。这位程序员在雅虎工作时开始编写该软件的第一段代码,并以他孩子的玩具大象命名。“对我来说,诀窍是不让它冲昏我的头脑,”他开玩笑说。
由于Hadoop是开源的,企业不需要担心依赖于单一的软件供应商。“没有人会拥有超过15%或20%的提交者,因此你无法主导社区,”MapR首席执行官约翰·施罗德说,他使用了行业术语来指代有权限修改程序源代码的程序员。
Hadoop让公司处理比传统企业系统更大的数据集,咨询公司Capgemini北美大数据实践负责人斯特芬·哈里斯表示。该软件的成本也低于像甲骨文和SAP这样的巨头提供的替代品。TrueCar的平台运营高级副总裁约翰·威廉姆斯表示,自2013年将其数据分析软件从一家大型企业供应商更换为Hortonworks的Hadoop版本以来,在线购车服务节省了“巨额资金”。根据威廉姆斯的说法,TrueCar的软件和运行设备的前期成本从每千兆字节19美元降至每千兆字节23美分,节省了近2000万美元。
“每个组织,无论是IBM、Teradata、甲骨文、SAP,现在都在他们的架构中拥有Hadoop,”Cloudera首席执行官汤姆·瑞利说,英特尔在其中拥有18%的股份。惠普已向Hortonworks投资5000万美元,惠普的首席技术官马丁·芬克在公司的董事会中任职。
尽管他们是竞争对手,但所有Hadoop提供商都有一个共同的目标,Hortonworks首席执行官Rob Bearden表示:使技术“简单到令人发疯且可靠。”Hadoop的早期采用者对“实际实施和实际稳健性”感到“非常不满,”Patterns & Predictions的首席合伙人Chris Poulin说,该公司自2007年以来一直在使用某种形式的软件。该公司位于新罕布什尔州的朴茨茅斯,正在为国防部的达尔帕(Darpa)项目使用Cloudera的版本,以识别有自杀风险的军事人员。Poulin说:“我们现在才刚刚达到基础设施足够稳定和可管理的程度。”
Cutting表示,该软件已经发展到他现在可以将大部分时间投入到Cloudera的其他项目上。他说:“如今,我只是修复错误和添加功能。”