世间可有“最低订单IT成本”?独家专访京东集团副总裁颜伟鹏_风闻
谭婧在充电-谭婧在充电官方账号-偏爱人工智能(数据、算法、算力、场景)。-2020-12-15 10:03
原创:谭婧
颜伟鹏博士的名片上写着:
京东集团副总裁、京东零售技术委员会主席、商业提升事业部总裁、技术与数据中心负责人。
少有人知,他2004年1月1日就加入谷歌,曾任谷歌中国高管。
少有人知,他还有一个身份:京东2020双十一大促技术指挥官。
在我们今天的世界里,很少有人会像战争中的军人那样直面生死,但是对于大型平台电商来说,大促,就是生死。
古语道,兵马未动粮草先行。大战事,就有大补给。一位头部品牌厂商、双十一销量达1.7亿元的美式家具企业创始人曾对我说:“一年只干两件事,双十一,和备战双十一”。
这个说法告诉我们,为了双十一,小企业可以倾尽一切。而大电商平台投入的资源,更是天文数字。
轮战、补充兵源、武器损失……大战,离不开消耗。理论上,谁也不想在生死之事上考虑如何省钱。
但是,善战者反其道行之。
用颜伟鹏的话说,就是:“在企业发展到需要向技术倾斜资源的时候,不能大搞大水漫灌式IT投入。”
企业资源,全靠“组织”。可见,颜伟鹏对“组织”二字,有独特的理解:
组织人力。 组织中台。 组织纪律。组织未来。
一、组织人力
颜伟鹏说:“2020年是我第一次、第一年负责‘618’和‘双11’大促。放眼长期,希望把大促备战常态化。做到这一步,大促就不是个事儿,就不用费很大的劲儿。”
但是,京东现状是,备战压力很大。目前的总体备战投入:每年两次大促,约花费40%人力,备战周期4个月,总计一年1.6个月的全部研发人力投入。
颜伟鹏继续说道:“有关大促战备投入的数字,到2023年会被大幅优化。希望能变成:两次大促备战,只需2个月的人力投入时长,且只需投入10%的人力。做一下乘法,相当于人力只投入从1.6个月变为0.2个月的研发人力。”
他多次提到“只投入”。
“这样,每年可以从备战中节省出1.4个月的研发人力,可用于投入日常业务开发。”
《人月神话》是IT研发经久不衰的老故事,人月是衡量研发效率的事实工业标准。这笔账,颜伟鹏已经算得很清楚。
人月神话The Mythical Man Month Essays on Software Engineering丨 Frederick Brooks
颜伟鹏用“备战常态化”来降低大型战事对大型企业人力资源的集中消耗。同样是灌溉,一种是,短时间的中到暴雨,一种是,春风化雨,润物细无声。
站在全行业视角,颜伟鹏的目标,也是严苛的。
整个研发团队努力的方向,是2020年之后的每年都能够持续地降低单位订单IT成本。
“单位订单IT成本”的定义和计算方法颇为复杂。
颜伟鹏说:“想理解得简单些,那就参考京东的物流业务,物流跟踪的最重要的指标是单位订单的物流成本,我这里,是单位订单的IT成本。”
高能物理学家凝视深渊,就是凝视每一个粒子。
技术指挥官凝视深渊,就是凝视每一分钱背后的IT消耗。
一场几乎所有IT资源都参与的抗战,数万人,头束红带,澎湃动员,高呼口号,日夜加班,为的就是——保障稳定。
双十一,稳如泰山,几十万台服务器,稳如泰山。
京东研发团队的资深架构师谈道:
“2020年,通过对系统全方位、全链路的架构优化和更精细化的资源管理,大幅提高了服务器使用率。比如,CPU利用率同比2019年增长了20.7%,机房之间的专线流量同比2019年双十一下降了13%。节省了大量的IT资源成本。此外架构不合理,也不利于系统的稳定性,我们做的这些优化,一石二鸟,既稳定,又经济。”
这件事情的本质,既是技术,又是高水平的组织。
组织,是一个动词,也是一个名词。
京东全集团有几十个“一级研发部门”,整个研发部门各个团队之间的节奏感是十分重要的。
这意味着无数次地协调,最终目的是步调一致,整齐划一。
2020年,京东大幅加强了各个团队的协调机制,“大促架构师委员会”应运而生。整个大促期间通过它协调集团各个研发团队。
架构师是IT技术工种的顶层配置,是技术金字塔不倒的旗帜,他们的工作并不会因为大促结束而停止,他们在大促战场上建立的互相信任会沉淀下来,促进各团队日常的持续架构优化。
有诗云:“三军受号令,千里肃雷霆。”
二、组织中台
很多人都知道“中台”一词,是大型互联网企业技术实力的屠龙刀。但是,只有翻越IT、大数据、AI术语的墙,才能看见墙后的人,目睹屠龙刀的威力。
颜伟鹏说:“京东零售正在进行技术中台、数据中台和业务中台的建设,令整个零售业务体系可共用一套技术服务,大幅提升研发效率,降低研发成本。”
“一套服务”说起来轻松,身后藏了一万点暴击。中台“牵一发动全身”,是一场战略、业务、架构、流程、人员的变革,这些很难被外人看见。
多位京东数据科学家和算法工程师私下向我透露,自颜伟鹏担任零售中台“首席设计师”一职,中台的细颗粒度优化与整改就一刻没有停止。还据说,颜伟鹏一开始仅带领几十个人的团队,后来迅速扩张为集团内部规模最大的算法工程师团队,数量好几百人。
算法工程师,是当今世上最昂贵的智力工种,智商最高的IT研发力量。
这些细节在双十一前后仅有的两次采访中,我都没有找到合适的机会和他确认。因为理解其复杂的组织理念,就非常的费事费力。
在我看来,整个京东零售的技术核心,总结成几个中台。
技术中台,是跟业务逻辑无关的技术基础设施。技术中台往上是数据中台,数据中台把各种数据都整合到一起,用统一的口径去看经营问题,提升经营效率、效果,比如让运营人员做实时的数据分析等等。数据中台把数据收集、集中起来,让数据产生价值,就像集邮,集齐集全面,价值更大。
数据流入水池、湖泊、海洋,人人想用即可用,取之不尽用之不竭。不用等到要起航出海,才去造船。
数据中台上面还有算法中台支持多种算法,可以便捷地进行各种排列组合式的使用,工具齐全,不用等到要杀猪,把猪按翻在地了,才开始铸铁。
再往上是业务中台,京东业务中台必然包含了京东所有的业务逻辑。无论是根据用户的行为、兴趣、购物习惯、偏好,进行择优推荐,还是用户下单、加购、支付及后续一系列购物动作,甚至包括库存、物流等供应链管理,均是业务中台中的一个个模块。
比如,商品交易能力,商品管理能力,商家管理能力等等,都由业务中台提供支持。用户中台提供了用户资产管理和用户增长的能力。用户增长是业务增长的主要抓手之一。
技术中台是T-PaaS(technology)数据中台是D-PaaS(data)业务中台是B-PaaS(business)用户中台是C-PaaS(consumer)
这是BCD的意义,它们是整个中台的底座。
BCD在全景图中的位置
一切“应用”枝繁叶茂、百花齐放的根基。一切“应用”皆由此地生长,滋润。
颜伟鹏强调,用户中台会单独拿出来,是因为对于整个生态太关键了。这里“用户”一词在英文指的是consumer。比如,怎么把一个跟某个品牌完全没有关系的用户,逐步变成对该品牌有兴趣的用户,最后变成该品牌的忠实用户。
所以,用户中台有用户引入、用户运营、广告监测、搜索推荐,以及用户资产管理等能力。
用户流失,怎么再拉回来,工具和方法论都在用户中台上。
在这个中台上面,再去打造各个业务形态,京东内部叫前台业务。好比说京东商城APP是一个前台,还有很多APP,一号会员店、京东健康、京喜、7FRESH生鲜超市……
这些前台有各个端口对接中台,现在有几十个前台,每个前台都有很多个性化的需求,它们都是建立在统一的中台之上。
中台的职能,是让前台的业务可以快速敏捷的跑起来,我们希望能让中台技术成为前台业务快速发展的核心竞争力。
编辑京东零售技术,都跑在提供服务器、存储、网络,和中间件的技术底座——京东智联云上。“三驾马车”前台、中台、后台变成了:前台、BCD-PaaS+T-PaaS+智联云。
- 有了屠龙刀,怎么操练呢?-“2020年,我们重点抓的是,全链路高保真极限压测。”
这意味着京东平台系统在备战期间会模拟双十一大促的真实流量及场景,从而发现大量潜在系统问题,将问题提前暴露出来,并随之做好预案。
颜伟鹏说道:“压测,一定要模拟用户流量从京东健康,从京东商城、京喜冲进来,从头到尾,全部模拟出,全部压下来,这个过程,得把它叫军演,更技术的方式叫压测。压测一定要高保真才行,如果不保真,压出来之后大家觉得流量很大,系统服务貌似能扛得住。
但是,实际上,由于没有把系统的薄弱环节给压出来,到了大促当天,大概率会出大问题。”
京东研发团队的资深架构师告诉我,京东的整个平台听“数据”指挥。
前期业务级别的数据和系统级别的数据,在系统内部有一个比较完整的数据检测和分析管理平台,在所有的大促决策、备战的时候,一举一动,都以数据为基础。
把之前的经验数据,业务上给的业务量的预估,再加上用户行为等变化数据,结合起来,汇总起来,对大促零点高光时刻的用户实际行为,做一个尽量贴近真实的仿真预判。
这比之前拿着总量去做预估要准了很多。
越逼近真实,越能练就强兵。参加过高考模拟考试的朋友,听懂掌声。
双十一年年玩法翻新,玩法越新鲜,挑战越大。
2020年有股超大预售量的暴风雨,暴风雨会产生一个洪峰。在几分钟内,巨高的流量。
时钟拨回到前几年,0点秒杀时就抢优惠券、抢少量商品。然而,2020年庞大的预售量意味着,预售商品集中付款。消费者点击加购,商品到了购物车里,这事没完,消费者得拍下来才算结束。牵扯订单后续环节越多,压力越多。
这相当于第七套广播体操原来只有三个动作,现在非让你在同样的时间里做六个动作。
一百万预售量,那你就把六个动作的广播体操做一百万遍,且在流量洪峰的时候。
有诗云:“函谷绝飞鸟,武关拥连营。”
三、组织纪律
科技企业的纪律和一般企业不同,因为僵化死板的纪律,是创新的死敌。创新者在复杂环境下,本就已面对尴尬窘境,如何破解纪律与创新的困局,给创新者喘息的机会?
编辑颜伟鹏给出了下面的回答。
我们是有一些惩罚,但是核心还是希望大家不要犯错,希望营造一个相对宽松的创新环境,允许犯错。但是,如果同一个错误,犯了两次,那我就会很愤怒,可能就会罚。要格外注意的是,技术毕竟很复杂,如果你是第一次犯这个错,会尽量理解,所以,我们更多的是用一些好的机制和流程,推动整个架构的升级,改进错误,减少出错机会。
好比这次“双11”,我们也有一些系统出了不少问题,只是这些问题还好,因为我们系统是有容灾的。我的要求是系统可以死,服务器可以挂,内存、硬盘可以坏,网线可以断,电源也可以被拔了……但是,业务不能受影响。
备战要按照这个要求来做,这也是备战常态化的一部分。
“双11”我们发现了不少问题,虽然业务是照常运转,但是这种情况我还是不希望发生,因为我们不可能有那么多备份,如果两个备份或者三个备份一起挂了,那我们就死定了。如果违反一些很明显的规定,处罚是必要的。
我带了一年的京东零售的研发,理念还是希望大家不要重复犯错。重复犯错,肯定罚。但是,还是要允许大家犯错,不能每错必罚。
今天的京东,非常庞大的业务体量,供应链管理能力达到了世界级水平,管理500多万自营商品单品(SKU),2000多万平米物流仓储面积,库存周转天数低至34天。这背后需要强大而复杂的技术支持。
一个新的错误出现,要去挖掘更深层次的原因,而不是简单粗暴的惩罚。
在指挥大促的时候,颜伟鹏喊出来:“大促,但凡出了问题都是我的问题,跟你们没关系。”
战士冲在硝烟战场的最前线,指挥官冲在责任的最前线。
态度就像撒落在地上的钢珠,颗颗有力,粒粒分明。
他说:“你把问题说出来了,要是解决不了,跟你没关系,不是你的错,是我颜伟鹏的错,因为我没有本事帮你想出好的解决方案,是我没本事带领团队去想出好的解决方案,那是我的管理问题。”
此话一出,研发团队的氛围变化了,有了开放的氛围,争相着把问题说出来。
颜伟鹏说:“我非常看重这种做技术的氛围。有些同事甚至一口气把四五个严重问题都说出来了,每个都说得特别诚恳。问题说出来了,大家群策群力,一般都能找到好的解决方案。这样,大促就稳了。”
自古真诚藏不住,唯有套路失人心。
四、组织未来
2020年双十一过后,“泰山”项目浮出水面。“泰山”是什么,“泰山”的目标是什么?
希望备战常态化,希望将备战理念贯穿到每日的工作中,平日里开展上线流程和自动化军演,不断暴露出系统的弱点。
“泰山”项目,将京东大促备战的方法论,将备战的工作重心,转向日常管理。
颜伟鹏说:“‘泰山’项目来自大促,从‘618’ ‘双11’演化而来,我希望备战常态化,项目是2020年启动的。希望从大促开始,把整个备战理念贯穿到每天的工作。通过平时严格的上线流程和常态化的军演,希望军演越来越轻松,而不是等到大促前才来耗费大量人力搞军演。”
用一句话就是:用大促的技术标准,拔高日常技术标准。
对于研发与技术团队来说,京东军演的号声变了,从一年两次,从大促前才能听见,变成日常配乐,就像舞蹈时伴奏一样,那些听不见音乐的人,以为那些跳舞的人疯了。
颜伟鹏的目标是:“我们预计到2023年,京东大促的单位订单IT资源成本累计下降60%,或者说资源效率提升150%。”
古诗云:“拂剑照严霜,雕戈鬘胡缨。”
严苛,是颜伟鹏的关键词,他给自己和团队定了一个并不容易完成的目标。
京东办公大楼内景
颜伟鹏曾对我说:
“我特别喜欢竞争。对我来说,如果没有做好一个业务,是我没有做好,并不是因为竞争者太强大了。良性竞争可以促进竞争各方共同强大,一个行业如果只有一个人做,这行业肯定不能做了,因为没人看好。一定是大家都看好的行业,竞争才激烈,水涨船才高。之前我在谷歌做搜索引擎,微软的操作系统是很大的威胁,每次Windows发布新版本,谷歌拥有的默认搜索引擎设置都可能丢失,要去死磕。死磕,互相竞争,但也互相促进。
所以,我每一天都思考——我的威胁在哪里,什么样的行业变化会让我的业务死掉,又是怎么样的死法?为了持续发展,为了保持竞争力,我该怎么做?”
(完)
《亲爱的数据》出品
