Databricks将把核心数据存储技术升级成果开源——华尔街日报
Angus Loten
Databricks提供分析、人工智能及其他基于云的软件租赁服务,旨在帮助企业从业务数据中挖掘洞察。图片来源:Gabby Jones/彭博新闻数据分析公司Databricks Inc.计划将其旗舰云数据存储技术Delta Lake的所有功能与升级版本开源化,实质上意味着这些资源将在网络上免费开放。
此举将使外部企业的信息技术团队能够构建并运营自己的定制化数据湖仓——这是一种云端数字存储库,软件开发人员可在其中构建基于海量数据获取商业洞察的人工智能应用。
Delta Lake技术是湖仓架构的关键组件,旨在确保AI就绪数据的质量与可靠性。Databricks最初于2019年将Delta Lake作为开源项目发布,但此前新增的许多功能均为专有技术,仅面向其客户开放。
总部位于旧金山的Databricks通过租赁分析工具、AI及其他云端软件盈利,这些产品帮助企业从业务数据中提取价值。其服务基于2009年加州大学伯克利分校研发的实时数据分析技术——开源项目Apache Spark。开源开发者免费提供软件,允许程序员修改共享底层源代码,并创建自己的应用程序。
Databricks首席执行官阿里·戈德西。图片来源:Databricks Inc.Databricks联合创始人兼首席执行官阿里·戈德西表示,免费开放该技术的决定旨在吸引那些担心被单一数据管理供应商锁定并限制使用其分析工具的商业客户。
戈德西称,更多数据湖仓将推动对Databricks分析软件及其他服务的需求。他表示,对于在自有数据湖仓中部署其工具的客户,公司还将继续处理安全、维护等软件问题。
戈德西指出,传统数据存储系统中的数据需要复制、重新格式化并转移到单独存储库中,软件开发人员才能访问这些数据来创建AI应用。而数据湖仓省去了这一步骤。“湖仓将这两个世界合二为一,您可以在一个地方拥有所有数据并应用AI,“他说,“一套系统,一份数据。”
随着严峻的经济形势促使更多公司采用承诺能推动更好商业决策或改进从供应链到客户服务等各方面的软件,对AI和数据分析的需求持续高涨。
Databricks客户、农用及工程设备制造商迪尔公司(Deere & Co.)首席信息官加内什·贾亚拉姆表示,Databricks的开源举措将使该公司能够开发自己的定制数据湖仓。
“它让我们能够以前所未有的规模扩展分析能力,”贾亚拉姆先生在谈到数据湖仓技术时表示。
该公司将人工智能驱动的数据分析应用于多项业务,包括为配备数据采集传感器的拖拉机、反铲装载机等工程车辆提供预测性维护系统支持。今年1月还推出了全自动拖拉机。
但贾亚拉姆称,他还计划在优化供应链、市场营销、财务等内部业务职能中加大人工智能应用力度。
“工程师使用开源技术时,可以访问源代码并创建自定义版本,”IT研究机构Forrester首席分析师克里斯托弗·康多表示,“至少用户能查看开源软件的运行原理。”
迪尔公司运用人工智能数据分析为拖拉机、反铲装载机等车辆提供预测性维护系统支持。图片来源:里克·威尔金/路透社开源软件商业模式日益普及。IT研究与咨询公司高德纳副总裁分析师马克·德赖弗表示,新软件项目中高达80%的代码由第三方组件构成,其中大部分为开源代码。
德赖弗指出,开发者通过开源工具盈利最常见的方式是采用"免费增值"策略——技术供应商免费开放应用底层代码,再通过提供高级功能和服务将部分用户转化为付费客户。
Databricks是一家成立九年的公司,其自身部分建立在开源软件基础上,目前私募市场估值为380亿美元。今年早些时候,该公司报告2021年年度经常性收入达8亿美元,但尚未披露净利润。
在今年科技股估值开始下跌之前,Databricks曾是初创企业市场最受期待的首次公开募股之一——Ghodsi先生现在表示这已非优先事项。“未来十年我们都不必担心资金耗尽,“他说。
致信 Angus Loten,邮箱:[email protected]