美国航空从CrowdStrike故障中学到了什么 - 彭博社
Drake Bennett, Mary Schlangenstein
美国航空在沃斯堡的运营神经中心内部。
摄影师:马修·约翰逊为《彭博商业周刊》拍摄
在7月19日凌晨12:30左右,杰西卡·泰勒接到了来自工作的电话,这本身并不奇怪。泰勒负责美国航空集团公司的综合运营中心,该中心位于达拉斯沃斯堡国际机场附近。IOC是美国航空的神经中心,管理着该航空公司每天超过6000个航班。
IOC必须处理的问题范围令人眼花缭乱:冬季风暴和夏季飓风、机械故障以及偶尔的火山灰云。那里的每一个决策都必须考虑到一长串因素,包括机队中每架飞机的各种部件的维护和更换计划,以及为其提供服务的人员的集体谈判时间限制。如果空军一号飞入美国航空的一个枢纽,导致那里的一切停滞几个小时,那就是一个IOC的问题。如果城里有泰勒·斯威夫特的音乐会,而没有酒店房间可供美国航班机组人员过夜,那又是另一个问题。正如泰勒所说,“这是一种管理混乱。”
一名员工监控可能会干扰航班的火山。摄影师:马修·约翰逊为《彭博商业周刊》拍摄那晚发生的事情威胁到了另一个层面的混乱:操作中心依赖的计算机系统用于从头到尾管理航班——并向飞行员传递信息、跟踪天气、监控延误和发现机场问题——竟然完全停止工作。结果发现,所有这些系统都在运行来自于德克萨斯州网络安全公司CrowdStrike Holdings Inc.的软件。
彭博社商业周刊现在飞行的32条规则不要退出积分游戏,积分达人说波音737 Max和其他飞机型号仍然非常安全一家航空公司的佛罗里达度假梦想看起来更像是一场噩梦泰勒迅速开车从她家到美国校园,车程约20分钟。IOC前面的停车场,一个低矮的建筑外面覆盖着闪亮的防龙卷风玻璃,开始填满了接到类似电话的同事们。他们都朝二楼走去,那里是一个满是工作站的灰色地毯的开放式办公室。
泰勒。摄影师:马修·约翰逊为《彭博商业周刊》拍摄迎接他们的景象有一种令人不安的游乐场般的感觉。昏暗的空间里满是屏幕——每个桌子上都有显示器,头顶上有数十个82英寸的监视器。那晚,显示的不是航线和机场地图、天气系统或实时调度直方图,而是一片监视器无意识地闪烁着,蓝色然后变暗,反复循环。“这非常诡异,”泰勒回忆道。
很快就清楚了,美国 并不孤单。通过机组管理的报告显示,航班乘务员和飞行员在酒店办理夜间入住时,系统也出现了故障。一些美国燃料供应商的计算机也出现了所谓的蓝屏死机,陷入了无尽的重启循环。
这次 CrowdStrike 故障,是由于该公司的一次软件更新故障,最终影响了全球850万台计算机,成为头条新闻,并提醒人们现代生活依赖的许多数字平台的脆弱性。对于一家航空公司来说,这个问题具有特殊的紧迫性——在其系统崩溃的那一刻,美国航空有大约200个航班在空中。当天早些时候,还有数千个航班计划起飞,形成了一张复杂的转机和计划连接的网络,如果不加以控制,随着一天的推移只会变得更加错综复杂。
即使在顺利的日子里,运营一家航空公司也需要处理大量的数据。决策可能以各种方式出错。和其他行业一样,航空公司也在努力弄清楚技术进步如何能为他们带来好处。但在这样做的过程中,他们必须应对一系列独特的相互制约的压力:微薄的利润率、联邦监管机构的要求以及在当代标准下高度工会化的劳动力。此外,还有一个额外的挑战,就是找到一种方法来改造一个永远不能停下的机器。
生存航空旅行的基本手册,涵盖假期及以后,来自彭博商业周刊。在正常操作中,美国的IOC由一名在桥上工作12小时的主任监督,桥是位于工作区中心的稍微抬高的工作站集合。桥上还坐着来自航班调度、维护、机组安排、客户服务、信息技术、安全、机上操作和飞行员的代表。
在IOC楼层的一端,通过一个大窗户可见,但需要特别许可才能进入的是一个大型房间,房间里有一排排桌子,计算机显示器可以通过按下按钮升起。两幅巨大的梅卡托世界地图覆盖了前墙。这是指挥中心。大多数时候这里是空的或用于培训课程。但在极端事件期间,来自航空公司各个角落的代表会聚集在这里协调响应。当美国国防部要求美国航空和其他航空公司在混乱的2021年从阿富汗撤离中将数千名美国人员和撤离者送回家时,航空公司启动了指挥中心。
美国航空的高管们首次详细讲述了他们如何应对CrowdStrike危机,他们表示他们几乎立即决定启动指挥中心。泰勒到达时直接去了那里。航空公司的首席运营官大卫·西摩也加入了她。
西摩,美国航空的首席运营官。摄影师:马修·约翰逊,彭博商业周刊几分钟内,美国航空的信息技术团队通过技术讨论板上的网络帖子和与商业伙伴的对话拼凑出发生了什么。但首要任务是确保国际运营中心的调度员能够与空中的飞行员保持联系——深夜的国内航班飞往西部,以及前往亚洲或从欧洲抵达的过夜航班。飞行团队意识到,故障已经影响了他们用来与空中飞机保持持续联系的通信链接。作为应急措施,他们请求位于弗吉尼亚州沃伦顿的 联邦航空管理局的空中交通控制指挥中心转发信息给美国航空的飞行员——这一能力并未受到软件崩溃的影响。在一切恢复在线之前,这就足够了。
然而,这只是其中一个功能出现故障。允许机组人员刷卡进入登机桥的机场安全系统也无法工作。追踪托运行李的软件同样失效。为美国航空航班提供餐饮服务的承包商陷入瘫痪。恢复系统或开发应急方案需要时间。而且问题只会加重。泰勒提到著名的 我爱露西小品,其中露西在一家巧克力工厂工作,试图跟上无情加速的巧克力传送带。“你必须停止传送带,”泰勒说。
在凌晨12:45,应美国航空的请求,FAA对该公司的所有航班发布了停飞令,冻结了所有未在空中的飞机。但很快就清楚,这只是延迟了决断。国际运营中心(IOC)将不得不制定一个取消计划。
航空公司讨厌取消航班。这部分是因为旅客讨厌这样。但他们还有其他原因。取消航班不仅使乘客滞留,还使需要从到达城市飞往其他地方的飞机和机组人员滞留。这些干扰会向外扩散,影响整个网络。还有其他连锁反应:航空公司使用他们的飞机进行送货到维修车间,因此取消航班可能意味着特定机场上特定飞机所需的替换零件无法到达。
国际运营中心的众多屏幕之一。摄影师:Matthew Johnson为《彭博商业周刊》拍摄尽管如此,国际运营中心的领导们在指挥中心,与一组不规则运营经理合作,决定别无选择。(除此之外,航空公司还在其夏洛特枢纽处理雷暴。)像往常一样,规划者们试图将损失降到最低,尽可能选择往返航班,并确保在取消航班暂时滞留的机场有登机口容量。在凌晨4点到5点之间,美国航空取消了114个航班。在接下来的一个小时内,又取消了148个航班。
随着取消航班的生效,IT专家团队正在国际奥委会的大厅中穿梭。修复计算机是简单的:必须删除有问题的文件,然后重启计算机。但这必须逐台进行。到中午,航空公司基本上恢复了正常运营,尽管仍有一些延误。“到下午3点,我们绝大多数的商业合作伙伴也恢复了,”作为国际奥委会运营的常务董事,苏珊·威廉姆森(Suzanne Williamson)向泰勒(Tyler)汇报。第二天,7月20日,美国航空的完成率——成功完成航程的航班百分比——回升至98.9%。
这种决策机制并不总是完美运作。达美航空公司(Delta Air Lines Inc.)在过去几年中可能拥有美国最佳的运营记录,但在7月19日的早些时候决定暂时不取消大量航班。几乎一周后,它仍在处理滞留乘客和错误转运的行李,并被迫取消了7000个航班。达美拒绝对其CrowdStrike的回应发表评论,指向其首席执行官埃德·巴斯蒂安(Ed Bastian)之前对《华尔街日报》所说:“我们不想太快取消,因为那是一个流动的环境。”该航空公司已起诉CrowdStrike,将这场灾难的成本估计为5亿美元,而CrowdStrike则反诉,指控达美试图转移责任。
日常运营的管理,无论是常规还是非常规,都是美国航空非常仔细地尝试现代化的事情。在11月初,美国航空终于完成了其飞行计划系统的升级,这是一个供调度员使用的软件工具。其竞争对手也在进行类似的努力。安德鲁·梅德兰,管理咨询公司 奥利弗·怀曼 的航空部门负责人,用医学类比来描述行业的现状:“病人正在手术台上,手术正在进行,器官正在移植,但还有很多工作要做。”与大多数病人不同,这个病人在手术期间需要继续工作。
航空公司,尤其是美国航空,在使用计算机管理零部件库存和预订到计算最佳票价方面都是创新者。那些曾经开创性的系统今天仍在使用,在某些情况下,仍在主机计算机上运行,下面是新软件工具的层。部分原因是几十年合并的遗留问题以及随之而来的多年整合过程。但这也是对改变一个精细调校的人为操作并吸收其中嵌入知识的困难的证明。“我们正在慢慢迁移这些系统,”美国航空的首席运营官西摩说,“因为有很多复杂之处。”