作业帮董晓聪:发力实时音视频云原生改造,推进无边界云计算
【环球网科技综合报道】“为什么作业帮要在行业内率先做云原生和多云架构?”近日,在iTechClub华北区第五届互联网技术精英高峰论坛上,作业帮基础架构负责人董晓聪讲述了作业帮的云原生历程,并围绕云原生架构和多云架构两大解决方案进行深入延展。
“作为一家教育科技公司,作业帮对稳定性的要求很高。”董晓聪指出,之前在传统的互联网公司,大家没法接触到用户,对用户的感知更多的是一个个UV、PV的数字。“而我们通过直播等形式面对的是一个个学生,每一次稳定性的事故都可能会影响他们的学业,所以对稳定性的要求只能更高。”
“当出现单机、单机群、单云故障的时候,我们的架构能否很好的应对这些冲击?当代码变更导致业务中断的时候,我们能不能快速止损?除了稳定性外,成本和效率也面临着诸多的挑战。”董晓聪表示,作业帮选择的道路是通过云原生来解决上述的问题,用基础设施接管业务当中大量非功能的逻辑,以此来实现弹性、可观测性、韧性、自动化、可持续等相关一些特性,通过云原生的架构解决了部署层面的问题,然后在此之上实现了一套多云间自由迁移的能力。
董晓聪表示,截至目前,作业帮已经完成了70%左右业务的云原生改造,处于业内领先水平。同时作业帮在弹性扩缩、serverless、在离线混部等方面都有广泛的应用,CPU调度、GPU调度、多云管控等方面有创新型专利产出,解决了开源社区的诸多问题。
在对多云架构的分享中,董晓聪首先分享了作业帮解决多云架构面临的两大挑战。首先在云间互通的专线选型上,作业帮没有选择裸纤的方案,而选择了供应商的组网方案。董晓聪表示,选择组网方案,一方面因为有一层供应商的保护能力,另一方面是组网有一定弹性扩缩的能力。而在此之外,公司自身也做了双链路。
“多云还会面临着一个很大的挑战,就是计算资源的管理。”董晓聪说,单个云下就有十几种、几十种机型,多云会直接导致double、triple的工作量。这块作业帮对一些场景进行了建模,标准的负载型机器、专门的大内存、大存储机型,然后再结合网络的安全域,制定具体的业务套餐。
“完成了上面的网络、计算的问题之后,我们构建出自己的多云架构。“董晓聪称,用户通过DNS分流,落到不同的机房。常态下的业务应用之间的请求是单云闭环,不会去跨云通信。当从机房或者专线出现故障的时候,可以通过DNS/DoH把流量切到主机房上。当主机房出现出现故障的时候,还是同样的流量调度,除此之外,还要将从机房的数据存储,DB、Redis等进行提主,以此来实现了多云的稳定。
“完成云原生、多云改造之后,我们的稳定性,从之前的99.95%提升到了99.99%,机器的故障时间的影响也从分钟级别缩短到秒级。部署的质量也得到大幅度提升。”董晓聪透露,接下来,作业帮的发力重点会在实时音视频的云原生改造,推进无边界云计算,促成云边端应用一体协调。